Луиза-Франсуаза (luiza_fransuaza) wrote,
Луиза-Франсуаза
luiza_fransuaza

Category:

Старая моя статейка. Но суть не изменилась.

Всевидящее око разведки - проблемы и перспективы

Разрабатываемая уже почти десятилетие система DSGS-A (“Distributed Common Ground System – Army”, Распределённая Общая Наземная Система - Армейская) стоимостью в 2,3 миллиарда долларов должна стать основным источником данных по разведке, диспозиции и дислокации на поле боя - во всех аспектах, начиная от выработки решений до отпечатков пальцев участников боестолкновения. Она разработана для того, чтобы армейские аналитики и командование могли находить взаимосвязи между разрозненными событиями, планировать многоходовые операции и выявлять замыслы противника используя информацию данные только одного источника - самой системы DSGS-A, играющей роль фильтра и дистиллятора многообразных данных.

По крайней мере, так объявлено. В действительности же существует значительное количество американских военных - включая и часть генералитета - которые полагают, что эта система слишком медленна и слишком громоздка, чтобы выполнять возложенные на не обязанности. Вместо DSGS-A - создаваемой и продвигаемой гигантами американского ВПК, такими как Lockheed, Raytheon и IBM - эти люди отдают приоритет разработанной в Кремниевой Долине системе «Palantir», буквально молясь на её алгоритмы получения и анализа информации, способы визуализации и определения взаимосвязей. Они указывают, что, в частности, DCGS-A весьма требовательна к ресурсам вычислительной техники при переводе данных из одного формата в другой, капризна при работе в многооконном режиме, а надежность её такова, что системе требуется перезапуск в среднем раз в пять с половиной часов. Такая оппозиция, естественно, вызывает крайнее недовольство высокопоставленных и многозвёздных лоббистов системы DCGS-A.

Ситуация вышла за рамки внутриведомственной конкуренции в 2010-м году, когда генерал-лейтенант Майк Флинн (Lt. Gen. Mike Flynn) - в то время возглавлявший военную разведку сил НАТО в Афганистане, а сейчас находящийся в должности главы Оборонного Разведывательного Управления (Defense Intelligence Agency) - составил рапорт вышестоящему генералитету о том, что «силы противника действуют не будучи обнаруженными прямо перед нашими глазами» потому что «военные аналитики на афганском театре военных действий не обладают инструментарием, необходимым для полноценного анализа невообразимого количества постоянно поступающей информации (“intelligence analysts in theater currently do not have the tools required to fully analyze the tremendous amounts of information currently available”).

Система Palantir, активно продвигаемая генералом Флинном и его сторонниками, на первый взгляд, действует гораздо эффективнее, выдавая разведсводки и рекомендации с приемлемой задержкой. Однако неприятие продукта сторонней компанией, не входящей в пул компаний-поставщиков Министерства Обороны США, объясняется не только «заговором лоббистов» - весьма популярной версией среди подразделений, испытывавших DCGS-A на практике. Основная причина подобной позиции Пентагона заключается в том, что Palantir, при всех своих достоинствах, обладает одним существенным недостатком, он обрабатывать в десятки раз меньшее количество источников данных и может выдавать примерно двести тысяч сводок/рекомендаций в сутки против 75 миллионов у конкурента. То есть, однозначно превосходя DCGS-A при анализе обстановки на тактическом уровне, Palantir априори не может подняться до уровня стратегических решений.

Министерство Обороны США на данный момент планирует продолжить работы над доведением до ума DCGS-A с тем, чтобы решить проблему опоздания сводок, «торможения» при переводе данных из одного формата в другой и регулярных перезапусков. В числе прочего, разработчики объявили и том, что будут активно внедрять решения, найденные разработчиками Palantir'a. Генералитет рассчитывает на то, что цель будет достигнута с появлением более производительных вычислительных мощностей. Но так ли это? Поддается ли задача концептуальному решению путем механического наращивания вычислительных возможностей? Ответ может оказаться не столь однозначен.

В чём же кроются возможные причины неработоспособности (точнее, неудовлетворительной работоспособности) данной системы? Или, если поставить вопрос шире – какие тернии могут ждать создателей на пути создания всеобъемлющей автоматизированной системы сбора и обработки разведывательных данных?

Первая (и основная) причина - стремление к максимальной автоматизации. Причём, так как система изначально позиционировалась как требующая минимального вовлечения человеческого персонала, для разработчиков невозможно отказаться от этого принципа, ставшего краеугольным камнем предложенного Пентагону продукта - заказчик не поймёт.

Причина эта, в силу своей неочевидности, требует подробных объяснений. Но для этого мне придётся отойти от рассмотрения самой системы и углубится в теорию.

Для начала уточним некоторые термины - точнее то, в каком контексте они будут упоминаться в этой статье.

Под роботом будет подразумеваться любое автоматическое устройство или вычислитель - от спутника фоторазведки до обрабатывающего видеозаписи с БПЛА вычислительного кластера.

Под стоимостью будет подразумеваться ресурсоёмкость любого действия системы. При этом важно понимать, что в это понятие входят не только цена аппарата, стоимость его эксплуатации и тому подобное - но и время, необходимое на обработку данных (машинное время).

Под технологической операцией будет подразумеваться любое действие кластера роботов, действующего под управлением рассматриваемой системы в рамках заданной программы.

Одна из теорем робототехники, перефразированная для рассматриваемой ситуации, утверждает следующее:

«При случайном времени работоспособности робота Т и случайных значениях времени выполнения технологических операций роботом b средняя стоимость единицы рабочего времени робота может иметь минимум по λ внутри области определения α», где λ - денежный эквивалент единицы рабочего времени, или, в нашем случае, ресурсоёмкость работоспособного робота в единицу времени.

Слово «может» в формулировке теоремы обусловлено существованием случая, когда упомянутый минимум отсутствует. Ниже будет показано, почему данный случай неприменим в отношении рассматриваемой системы, то есть, теорема полностью верна при описании функционирования DCGS-A.

Критерием минимизации в данной теореме служит математическое ожидание стоимости единицы рабочего времени робота. Доказательство данной теоремы приводится в соответствующей литературе и учебных пособиях. Для наших же целей будет достаточным лишь рассмотреть наглядный пример её применения. Так, при an=10, а bn=1 (an - время выполнения операции человеком, bn - время выполнения операции роботом) М{λ} = (1- α)/(0,9 - α)+ 9(1 - α)/(10 - α). График этой функции представлен на рисунке. Из него видно, что минимум достигается при значении α=0,55. То есть, при выполнении роботом операции в 10 раз быстрее человека, минимальная стоимость данной операции будет достигнута при автоматизации 55% всех операций. Более того, наглядно видно, что при стремлении повысить автоматизацию до 100% стоимость операции будет возрастать и кратно превосходить даже стоимость операции при её выполнении только человеком.

01

Зависимость стоимости единицы рабочего времени от степени автоматизации

Здесь въедливый читатель может (и будет абсолютно в этом прав) поинтересоваться, о каком же случае неприменимости данной теоремы упоминалось ранее - и не пытаются ли под видом многословных рассуждений его ввести в заблуждение?

Дело в том, что областью применения знаний по робототехнике является, в первую очередь, промышленность. В отношении промышленного производства условия данной теоремы подразумевают выполнения условия физической возможности для каждого конкретного робота. При этом, роботы с небольшим ресурсом, функционируя вблизи границы физической возможности, сильно увеличивают средние значения, изготавливая брак. В то же время, роботы с избыточным ресурсом не используются для компенсации данных потерь.

В условиях промышленного производства требуется выполнение условия физической возможности только в среднем для всех работающих в системе роботов, не требуя его соблюдения для каждого конкретного робота. На практике это значит, что в случае поломки робота в процессе функционирования, результат его работы не идёт в брак, а отправляется на доработку «сменщиком».

Однако, в случае ведения разведки, подобный принцип неприменим. Вышедший из строя спутник-шпион, анализирующий уровень радиации на территории КНДР, никоим образом не может быть заменён до того, как его последние разведданные устареют. Вы можете остановить сборочный конвейер при поломке электроотвертки и, после её замены, запустить процесс сборки автомобиля с той же самой точки. Но, например, остановить перемещение колонны противника до перезагрузки обрабатывающего разведсводки компьютера не получится. Таким образом, вышеуказанная теорема в отношении системы DCGS-A верна, и, в общем случае, верно описывает её функционирование.

Очевидным выходом для обеспечения достаточной эффективности системы, на первый взгляд, становится дублирование автоматических звеньев. Однако тут во весь рост встаёт следующая технологическая проблема, имя которой - «Иерархия и Контроль». Количество верификаций и контрольных роботов, которые должен проходить каждый элемент системы увеличивается с введением новых роботов.

Как известно, стоимость успешной (правильной) работы при идеальном контроле с незначительной погрешностью определяется формулой С=t*N*p^(-sn), где t - время выполнения единичной операции, N - суммарное количество операций, p - вероятность успеха единичной операции, s - число уровней иерархии, n - количество операций в единичном узле контроля. При N = n^s функция принимает вид C = t*N*p^(-n*ln(N)/ln(n)). Находя производную от С по n и приравнивая её к нулю получаем минимум функции в точке {-N*p^(-n*ln(N)/ln(n))}*ln(N)*ln(p*(ln(n)-1)/(ln(n)^2)) = 0. Полученное выражение, очевидно, будет равно нулю при ln(n) - 1 = 0. Таким образом, оптимальное значение для n становится равно е=2,73... Значение стоимости работы в этой точке будет равным C = t*N*p^(-e*ln(N)). Оно, безусловно, будет выше идеальной минимальной стоимости t*N на те самые p^(-e*ln(N)). Теоретически рассчитанная минимальная стоимость, естественно недостижима - по причине того, что на практике невозможно реализовать нецелое число операций. Поэтому все практические расчёты производятся для n = 3.

Таблица увеличения стоимости успешной работы при трёх операциях в узле.








Вероятность ошибки (1-р)

N = 10

N = 100

N = 1000

N = 10000

N = 1000000

0,1

1,939589

3,762007

7,296750

14,152700

53,24256

0,05

1,380599

1,906053

2,631495

3,633039

6,924765

0,01

1,065233

1,134721

1,208743

1,287593

1,461059

0,005

1,032019

1,065064

1,099167

1,134361

1,208167

0,001

1,006311

1,012661

1,019052

1,025483

1,038467

0,000001

1,000006

1,000013

1,000019

1,000025

1,000038

Вместе с тем, рассматривая таблицу расчётов (за единицу принимается идеальная суммарная стоимость работы - при полном отсутствии ошибочных операций), мы видим, что при вероятности ошибки выше 5 - 10% никакая иерархическая структура не может дать экономии ресурсов - стоимость успешной работы увеличивается в разы при числе операций в несколько тысяч (и в десятки и сотни раз при количестве операций порядка миллионов). То есть, применительно к рассматриваемой системе, иерархическая организация даст эффект только при вероятности ошибки в единичной операции (обработке единичной разведсводки) порядка 1% и меньше. Что, по мнению автора, в разведке является недостижимым.

Введение систем контроля, в данном случае, может помочь лишь в устранении технических сбоев и ошибок - что, безусловно, необходимо. Но в ситуации, когда вероятность ошибки в исходном документе изначально не может быть определена, система контроля не может гарантировать приемлемых для автоматизированной системы затрат ресурсов.

Таким образом, перед DCGS-A в её нынешнем виде стоят, по факту, неразрешимые проблемы, обусловленные самой идеологией системы - максимальной автоматизацией сбора и анализа разведданных и автоматическая подготовка решений. Фактически, до создания полноценного искусственного интеллекта рабочая система с такими требованиями не сможет быть создана.

Понимание этих факторов среди разработчиков системы, скорее всего, присутствует. Однако даже при понимании этих моментов и при попытке увеличить степень участия человека в работе системы до приемлемых величин, DCGS-A не отвечает заявленным возможностям.

Как было показано ранее, простое увеличение вычислительной мощности используемой системы не поможет пропорционально сократить время обработки запросов: все подобные системы, кроме верификации на предварительном этапе просто обязаны провести фильтрование исходных данных на «синонимию». В противном случае такая система будет очень уязвима со стороны «информационных атак» путем ввода в нее большого количества слегка отличающихся друг от друга документов.

Проблема в том, что для выявления именно смысловой «синонимии» документов практически каждый документ определенной категории просто обязан сравниваться со всеми другими (по крайней мере, уже отобранными в данном запросе) документами. Что дополнительно обуславливает её «медлительность» - сравнение одного документа со многими не поддается "чистому" распараллеливанию, ибо каждый из потоков подобной задачи просто обязан иметь собственную рабочую копию сравниваемого образца.

К тому же, возникает и еще одна, дополнительная задача: в процессе такого сравнения «эталонная» копия должна подвергаться модификации после завершения каждого из процессов анализа: ведь если будет выявлена именно смысловая синонимия, то "эталон" должен быть дополнен вновь выявленными смысловыми тэгами.

Разберем на примере.

Пусть проверяются два документа: «А. вышел из квартиры» и «А. покинул квартиру».

Смысловая синонимия налицо. Но глагол в документах разный, и если в «эталон» не включить один из них, то на следующей проверке придется заново просматривать всю таблицу синонимов термина «вышел».

Если появляется третий документ, скажем «А. покинул жилище», то смысловая синонимия будет пройдена за одну проверку, а не за две.

Однако документ «А. вышел из комнаты» уже может быть как синонимом первого, так и антонимом, в случае если А. вышел из одной комнаты коммунального жилья в другую.

Поскольку размеры анализируемых в системе документов несоизмеримо больше приведенного примера, и - как очевидно показано в последнем случае - сами получаемые данные контекстуально зависимы, то именно объем предварительной фильтрации «смысловой синонимии» делает систему принципиально небыстродействующей даже при фантастическом допущении о включении в неё до сих пор не созданного искусственного интеллекта.

Однако, конкурирующая и широко рекламируемая в оборонных кругах США система Palantir, по утверждениям разработчиков, подобных недостатков лишена. Так ли это? Ведь существует и иной подход к информационному анализу, активно применяемый в коммерческих системах, в особенности в приложениях, используемых для онлайн-торговли. Это так называемая «нормализация» документов, когда на предварительном этапе каждый входной документ модифицируется, «нормализуется»: все «смысловые» слова и термины автоматически замещаются аналогичными терминами из так называемых «нормализованных словарей».

Судя по тому, что доступно в открытых источниках по поводу Palantir'a, разработчиками был использован именно такой подход.

В чём его суть? Фактически, любой документ еще в процессе ввода в систему определенным образом анализируется и каждому значимому слову приписывается определенный тэг-"нормаль". В этом случае проблема синонимии решается еще до начала анализа документов: все документы-"синонимы" получают одинаковый ключ (состоящий из всех тэгов данного документа), ввод каждого документа (и его предварительный анализ) может производиться независимо от остальных (и с использованием независимых вычислительных систем), а при анализе их базы хранения по такому ключу выбирается один (как правило - первый) из поступивших документов. То есть в подобной системе скорость обработки данных возрастает на порядки.

Собственно именно это и демонстрирует Palantir: существенно большую скорость выдачи результата, причем скорость выдачи сокращается прямо пропорционально используемым вычислительным мощностям.

Но такие системы имеют два недостатка, делающих их практически немасштабируемыми.

Первый недостаток - это определенная «подмена смыслов» при «нормализации»: как было показано выше, «нормализованные словари» не являются (и не могут являться) полными по определению, и детали (и довольно часто - очень существенные) при нормализации могут быть утрачены: в документе «А. вышел из комнаты. Он притаился в коридоре» после процесса нормализации второе предложение может вступить уже в смысловое противоречие с первым - например при замене тэга «комната» на тэг «жилое помещение».

Второй недостаток - это принципиальная невозможность средствами формальных алгоритмов исправить элементарные опечатки в документах. Двойная опечатка в слове как правило вообще не может быть проанализирована при отсутствии набора «эталонных матриц», которыми в случае DCGS-A является «эталонных документ». И появление в системе, подобной Palantir'у, документов с опечатками приводит к резкому увеличению числа анализируемых «уникальных документов» на этапе «генерации знания».

Простой пример:

В системах онлайновой торговли типа Amazon торговая марка Hewlett-Packard записывается продавцами товаров (без учета элементарных опечаток) более чем сорока различными способами. Причем три наиболее распространенных написания дают около 99% объема документов, а остальные четыре десятка - менее одного процента.

И при нормализации подобных текстов мы уже получим минимум чуть меньше сорока «уникальных» документов. Если же в тексте встречаются и опечатки, то число «уникальных документов» может вырасти до нескольких сотен.

Сами системы именно онлайновой торговли попросту «игнорируют» подобные ошибки, документы «с опечатками» не выбираются из базы по конкретным запросам покупателей. Но в системах разведки, игнорирование любых уникальных документов является недопустимым.

И в результате при определенном объеме анализируемой базы документов число "уникальных" источников, требующих индивидуального анализа, начинает превышать возможности вычислительной системы в целом.

Безусловно, и в системах прямого анализа с фильтрованием возможна утрата смыслового контента из-за неверно распознаваемой синонимии отдельных терминов. Однако подход с «расширением» эталонного документа, хотя и усложняет на этапе уже смыслового анализа документа извлечение действительно важной информации, но позволяет не проводить этот анализ в массиве фактически синонимичных документов. Вдобавок, при наличии «шаблонного документа» при предварительном фильтровании позволяет уйти от «коррекции опечаток» (причем достаточно часто - неверной).

В системах же с нормализацией источников резкий рост потока документов приводит к непропорциональному росту объема вычислений именно на последнем этапе «генерации данных» и - в конечном итоге - к выдаче абсолютно фиктивных результатов.

Как показывает практика разработки больших программных продуктов в США, при получении «неудовлетворительных» параметров работы систем самым распространенным способом решения проблемы является урезание функциональности - что в случае Palantir'а приведет, скорее всего, к сокращению глубины анализа документов и к «игнорированию» значительного числа документов, признаваемыми «почти синонимичными». Однако - поскольку «почти» будет определяться по формальным (и - строго «количественным» признакам), это приведет к тому, что система будет практически всегда выдавать фальсифицированный в той или иной степени результат.

Более того, подобные системы (и Palantir вряд ли сможет составить исключение) будут легко подвержены «информационному зашумливанию»: в случаях, когда речь идет о действительно важной информации, заинтересованная сторона может «ввести в оборот» огромное число «фиктивных документов», содержащих все смысловые признаки «подлинных» документов, но не содержащие «базовой информации» (или содержащие ее в искаженном виде) - и с очень высокой степенью вероятности «маскируемый документ» будет отброшен системой при анализе вообще, как выпадающий из массива тегов созданного на основе фиктивных и уже нормализованных документов.

Немного отходя от теоретических рассуждений, в среде специалистов бытует мнение, что провал американской разведки при подготовке к пуску последнего северокорейского спутника мог быть вызван именно «внедрением алгоритмов обработки информации» Palantir'a. Ибо, если они, как ранее утверждало Министерства Обороны США, применяются в разведке, то, с очень высокой долей вероятности, два документа о подготовке к пуску двух одинаковых ракет в одной и той же точке местности примерно в одно и то же время пройдут одинаковую «нормализацию» и будут сочтены полными синонимами. Естественно, детали широкой публике недоступны, но недопустимость подобных эксцессов в военной разведке очевидна каждому.

Трудно поверить, что в США не существует аналитиков, способных провести анализ, подобный вышеприведенному. Однако в случае с Palantir'ом мы имеем ситуацию, когда происходит «освоение» бюджетных средств - и средств очень немалых.

Поэтому, скорее всего проект будет продолжен (ведь ответственность за «принятие решения» специалистам-то и не будет предоставлена), но обращать на него серьёзного внимание не стоит. Это - очередной «пшик», призванный, в первую очередь, «победить конкурента» в борьбе за бюджетные средства.

Подводя итог, можно сделать вывод: даже в среднесрочной перспективе человечества создание единых автоматизированных систем стратегической разведки является невозможным. Их уделом будут лишь узкоспециализированные сферы и, как максимум, тактическая оперативная разведка на относительно небольшом количестве источников информации.

Tags: also sprach glados, США, эффективный наноменеджмент
Subscribe

  • Глава 19. Эрин Киттлер в школе и дома

    - Если вы планируете разрешить дочери использовать пиротехнику дома, вместо металлического пороха стоит использовать бариевую соль азотной кислоты -…

  • Иллюстративное

    Итак, подводя итоги поисков иллюстратора: Семеро художников сделали по иллюстрации по главе "Те, кто охотятся на троллей" типа…

  • О котах и ведьмах

    Всю следующую неделю в Хогвартсе нарастало квиддичное безумие. У Эрин начало складываться впечатление, что у волшебники Великобритании живут как бы…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 10 comments

  • Глава 19. Эрин Киттлер в школе и дома

    - Если вы планируете разрешить дочери использовать пиротехнику дома, вместо металлического пороха стоит использовать бариевую соль азотной кислоты -…

  • Иллюстративное

    Итак, подводя итоги поисков иллюстратора: Семеро художников сделали по иллюстрации по главе "Те, кто охотятся на троллей" типа…

  • О котах и ведьмах

    Всю следующую неделю в Хогвартсе нарастало квиддичное безумие. У Эрин начало складываться впечатление, что у волшебники Великобритании живут как бы…