Исследовать
Новое исследование показывает, что даже незначительные изменения в цифровых изображениях, призванные сбить с толку системы компьютерного зрения, также могут повлиять на человеческое восприятие.
Компьютеры и люди видят мир по-разному. Наши биологические системы и искусственные в машинах не всегда обращают внимание на одни и те же визуальные сигналы. Нейронные сети, обученные классифицировать изображения, могут быть полностью введены в заблуждение из-за тонких изменений изображения, которые человек даже не заметит.
Тот факт, что системы искусственного интеллекта можно обмануть с помощью таких состязательных образов, может указывать на фундаментальную разницу между человеческим и машинным восприятием, но это побудило нас изучить, могут ли люди тоже — в условиях контролируемого тестирования — проявлять чувствительность к тем же возмущениям. В серии экспериментов, опубликованных в журнале Nature Communications, мы обнаружили доказательства того, что на человеческие суждения действительно систематически влияют состязательные возмущения.
Наше открытие подчеркивает сходство между человеческим и машинным зрением, но также демонстрирует необходимость дальнейших исследований, чтобы понять влияние состязательных изображений на людей, а также на системы искусственного интеллекта.
Что такое враждебный имидж?
Состязательное изображение — это изображение, которое было слегка изменено с помощью процедуры, которая заставляет модель ИИ уверенно неправильно классифицировать содержимое изображения. Этот преднамеренный обман известен как состязательная атака. Атаки могут быть направлены на то, чтобы модель ИИ классифицировала вазу, например, как кошку, или они могут быть направлены на то, чтобы модель видела что угодно, кроме вазы.
И такие атаки могут быть незаметными. В цифровом изображении каждый отдельный пиксель изображения RGB имеет шкалу от 0 до 255, представляющую интенсивность отдельных пикселей. Состязательная атака может быть эффективной, даже если ни один пиксель не модулируется более чем на 2 уровня по этой шкале.
Состязательные атаки на физические объекты в реальном мире также могут быть успешными, например, если знак остановки будет ошибочно принят за знак ограничения скорости. Действительно, проблемы безопасности побудили исследователей изучить способы противостоять состязательным атакам и снизить их риски.
Как на человеческое восприятие влияют состязательные примеры?
Предыдущие исследования показали, что люди могут быть чувствительны к искажениям изображения большой величины, которые дают четкие сигналы формы. Однако меньше всего известно об эффекте более тонких состязательных атак. Считают ли люди искажения на изображении безобидными случайными шумами изображения или они могут повлиять на человеческое восприятие?
Чтобы выяснить это, мы провели контролируемые поведенческие эксперименты. Для начала мы взяли серию исходных изображений и провели по каждому из них две состязательные атаки, чтобы создать множество пар искаженных изображений. В анимированном примере ниже исходное изображение классифицируется моделью как «ваза». Два изображения, нарушенные в результате состязательных атак на исходное изображение, затем с высокой степенью достоверности ошибочно классифицируются моделью как состязательные цели «кошка» и «грузовик» соответственно.
Затем мы показали участникам-людям пару изображений и задали целевой вопрос: «Какое изображение больше похоже на кошачье?» Хотя ни одно из изображений не похоже на кошку, им пришлось сделать выбор, и они обычно сообщали, что чувствовали, что делают произвольный выбор. Если активация мозга нечувствительна к тонким состязательным атакам, мы ожидаем, что люди будут выбирать каждую картинку в среднем в 50% случаев. Однако мы обнаружили, что скорость выбора, которую мы называем перцептивной предвзятостью, была достоверно выше случайной для широкого спектра пар искаженных изображений, даже когда ни один пиксель не был скорректирован более чем на 2 уровня по шкале от 0 до 255.
С точки зрения участника создается впечатление, будто его просят отличить два практически идентичных изображения. Тем не менее, научная литература изобилует свидетельствами того, что люди используют слабые сигналы восприятия при принятии решений. сигналы, которые слишком слабы, чтобы они могли выразить уверенность или осведомленность ). В нашем примере мы можем видеть вазу с цветами, но некоторая активность в мозгу сообщает нам, что в ней присутствует намек на кошку.
Для нашей статьи в Nature Communications мы провели серию экспериментов, которые исключили потенциальные артефактные объяснения этого явления. В каждом эксперименте участники более чем в половине случаев достоверно выбирали состязательный образ, соответствующий целевому вопросу. Хотя человеческое зрение не так восприимчиво к враждебным возмущениям, как машинное (машины больше не идентифицируют исходный класс изображения, но люди по-прежнему видят его ясно), наша работа показывает, что эти возмущения, тем не менее, могут склонять людей к решениям, принимаемым машинами.
Важность исследований в области безопасности и защиты ИИ
Наше первое открытие о том, что состязательные изображения могут влиять на человеческое восприятие, хотя и неявно, ставит критические вопросы для исследований безопасности ИИ, но, используя формальные эксперименты для изучения сходств и различий в поведении визуальных систем ИИ и человеческого восприятия, мы можем использовать полученные знания для создания более безопасных систем искусственного интеллекта.
Например, наши результаты могут послужить основой для будущих исследований, направленных на повышение надежности моделей компьютерного зрения за счет лучшего согласования их с визуальными представлениями человека. Измерение восприимчивости человека к враждебным возмущениям может помочь оценить такое соответствие для различных архитектур компьютерного зрения.
Наша работа также демонстрирует необходимость дальнейших исследований для понимания более широкого воздействия технологий не только на машины, но и на людей. Это, в свою очередь, подчеркивает сохраняющуюся важность когнитивной науки и нейробиологии для лучшего понимания систем искусственного интеллекта и их потенциального воздействия, поскольку мы концентрируемся на создании более безопасных и защищенных систем.