Военные США с удивлением подтверждают эту информацию.
Оказывается, крылатые ракеты и беспилотники, распознающие изображения с помощью головок самонаведения, могут быть легко сбиты с толку, если просто закрыть объекты старыми шинами, что говорит о проблемах, выходящих далеко за рамки войны в Украине.
Гениально!
Шайлер Мур, директор по технологиям Центрального командования США (CENTCOM), упомянул об использовании Россией шин для предотвращения атак на авиабазы во время круглого стола в прямом эфире по теме искусственного интеллекта (ИИ) и связанных с ним технологий, который провёл аналитический центр «Центр стратегических и международных исследований» (CSIS).
До того, как занять свою нынешнюю должность, Мур была главным офицером по стратегии в Оперативной группе 59 Центрального командования военно-морских сил США (NAVCENT), которой поручено экспериментировать с интеграцией новых возможностей ИИ и беспилотных летательных аппаратов в повседневные военно-морские операции на Ближнем Востоке.
В рамках более широкой дискуссии о моделях ИИ и наборах данных Мур сказал:
Классический пример — это изображение самолёта сверху. Вы ищете самолёт, но если вы накидаете шины на крылья, то многие модели компьютерного зрения с трудом определят, что это самолёт.
Вам не понравились шины? Хорошо, я добавлю что-нибудь ещё, и это нарушит модель… Опять же, мы тратим непомерно много времени на компьютерное зрение, а пользы от этого мало.
Звучит как-то обречённо, видимо, такого поворота совсем не ожидали. Теперь нужно признать, что не всё так радужно, как казалось в начале, нужно будет многое менять в подготовке обучающих данных и самом процессе обучения, а также принятия решений.
В то время как некоторые предполагали, что шины могут обеспечить некоторую дополнительную физическую защиту от дронов и других угроз, скорее всего, это было сделано, чтобы сбить с толку системы наведения по изображению на приближающихся боеприпасах, считают американские военные эксперты.
Мур отметил, что наблюдения, сделанные на Украине, актуальны для американских военных, и не только в том, что касается нанесения ударов по силам противника в будущем с использованием ИИ. В настоящее время вооружённые силы Америки сосредоточены в основном на подготовке к будущим высокотехнологичным боям, особенно к потенциальному конфликту с Китаем в Тихоокеанском регионе.
В результате теперь явно наблюдается заметное возрождение интереса к маскировке, сокрытию и разным методам обмана противника.
В этих рассуждениях, несомненно, есть здравый смысл.
Хорошо известен такой феномен машинного зрения, когда внесение минимальных изменений в изображение, даже невидимых для обычного человека, приводит к ошибкам распознавания ИИ.
Есть даже термин «атака одним пикселем» — найти пиксель на изображении, изменение цвета или яркости которого приведет к ошибочной классификации изображения моделью.
Есть атака карты значимости на основе Якобиана (JSMA), который нацелен на изменение небольшого числа пикселей, наиболее важных для классификации.
Есть метод быстрого градиентного знака (FGSM), который позволяет определить минимальные изменения входного изображения для максимизации ошибки. Атака создает «оптические иллюзии» для нейронной сети, добавляя едва заметные человеческому глазу шумы, которые заставляют модель выдавать неверный прогноз с высокой уверенностью.
Если модель обучалась распознавать заданные изображения без учета данных методов противодействия, то она будет неустойчива и неэффективна в реальных условиях.
Например, в Университете Мэриленда в США разработали «свитер-невидимку» для систем распознавания изображений и лиц. Разработанный принт для одежды позволяет обманывать нейросети и системы машинного обучения. Изначально его создали для поиска уязвимостей в таких системах. В основе этого лежит принцип, который называется «состязательной атакой» (какой-то один из вышеперечисленных). Суть его в том, чтобы обмануть нейросеть и заставить её выдать некорректный результат.
В итоге удалось создать узор, который препятствует распознаванию людей. Специальное изображение было сформировано с помощью большого набора данных, и после этого его нанесли на свитер (в эксперименте это работает только в системе YOLOv2).
Селективное восприятие — это склонность людей уделять внимание тем элементам окружения, которые согласуются с их ожиданиями, и игнорировать остальное.
Все люди в той или иной степени подвержены этому хорошо известному виду когнитивных искажений.
Мы тоже вполне можем не узнать самолёт с шинами, если это для нас очень неожиданно в определённом контексте или вообще невозможно. Например, у нас мало времени или быстро изменяющаяся обстановка с отвлекающими факторами.
Допустим, я внезапно покажу вам загримированную ладонь с 6-ю пальцами и, не дав возможности подробно её рассмотреть, спрошу: «Сколько пальцев вы видите?». С большой долей вероятности вы скажете: «5 пальцев», потому что это привычная форма ладони обычного человека, которую вы всегда видели в своей жизни.
Я этот опыт много раз проделывал со всеми современными мультимодальными LLM и каждый раз получал один и тот же стабильный ответ — «5 пальцев», и они даже спорят со мной, если я пытаюсь обратить пристальное внимание. Все LLM страдают выраженным селективным восприятием, что меня нисколько не удивляет.
Кто сказал, что всегда 5? Да сколько угодно.