Внедрение контекстно-ориентированной структуры для комплексной оценки социальных и этических рисков систем искусственного интеллекта.
Системы генеративного искусственного интеллекта уже используются для написания книг, создания графического дизайна, помощи практикующим врачам и становятся все более эффективными. Обеспечение ответственной разработки и внедрения этих систем требует тщательной оценки потенциальных этических и социальных рисков, которые они могут представлять.
В нашем новая бумагамы предлагаем трехуровневую структуру для оценки социальных и этических рисков систем ИИ. Эта структура включает в себя оценку возможностей системы ИИ, человеческого взаимодействия и системного воздействия.
Мы также отображаем текущее состояние оценок безопасности и находим три основных пробела: контекст, конкретные риски и мультимодальность. Чтобы помочь устранить эти пробелы, мы призываем перепрофилировать существующие методы оценки для генеративного ИИ и внедрить комплексный подход к оценке, как в нашем тематическом исследовании по дезинформации. Этот подход объединяет данные о том, насколько вероятно, что система ИИ предоставит фактически неверную информацию, с информацией о том, как люди используют эту систему и в каком контексте. Многоуровневые оценки могут сделать выводы, выходящие за рамки возможностей модели, и указать, действительно ли вред (в данном случае дезинформация) возникает и распространяется.
Чтобы любая технология работала должным образом, необходимо решить как социальные, так и технические проблемы. Поэтому, чтобы лучше оценить безопасность системы ИИ, необходимо принять во внимание эти различные уровни контекста. Здесь мы опираемся на более ранние исследования, выявляющие потенциальные риски крупномасштабных языковых моделей, такие как утечки конфиденциальной информации, автоматизация работы, дезинформация и многое другое, и представляем способ всесторонней оценки этих рисков в будущем.
Контекст имеет решающее значение для оценки рисков ИИ
Возможности систем искусственного интеллекта являются важным индикатором типов более широких рисков, которые могут возникнуть. Например, системы искусственного интеллекта, которые с большей вероятностью будут выдавать фактически неточные или вводящие в заблуждение результаты, могут быть более склонны к созданию рисков дезинформации, вызывая такие проблемы, как отсутствие общественного доверия.
Измерение этих возможностей является основой оценки безопасности ИИ, но сами по себе эти оценки не могут гарантировать безопасность систем ИИ. Проявится ли последующий вред (например, станут ли люди придерживаться ложных убеждений, основанных на неточных результатах модели), зависит от контекст. Точнее, кто использует систему ИИ и с какой целью? Работает ли система ИИ так, как задумано? Создает ли это неожиданные внешние эффекты? Все эти вопросы позволяют получить общую оценку безопасности системы искусственного интеллекта.
Выходя за рамки способность Мы предлагаем оценку, которая может оценить два дополнительных момента, в которых проявляются последующие риски: человеческое взаимодействие в точке использования и системное воздействие, поскольку система ИИ встроена в более широкие системы и широко развернута. Интеграция оценок конкретного риска причинения вреда на всех этих уровнях обеспечивает комплексную оценку безопасности системы ИИ.
Человеческое взаимодействие Оценка сосредоточена на опыте людей, использующих систему искусственного интеллекта. Как люди используют систему искусственного интеллекта? Работает ли система так, как задумано в момент использования, и как различаются впечатления от демографических групп и групп пользователей? Можем ли мы наблюдать неожиданные побочные эффекты от использования этой технологии или воздействия ее результатов?
Системное воздействие Оценка фокусируется на более широких структурах, в которые встроена система ИИ, таких как социальные институты, рынки труда и природная среда. Оценка на этом уровне может пролить свет на риски вреда, которые станут видимыми только после того, как система искусственного интеллекта будет внедрена в большом масштабе.
Оценка безопасности – это общая ответственность
Разработчики ИИ должны гарантировать, что их технологии разрабатываются и выпускаются ответственно. Государственным субъектам, таким как правительства, поручено обеспечивать общественную безопасность. Поскольку генеративные системы искусственного интеллекта все более широко используются и развертываются, обеспечение их безопасности является общей обязанностью нескольких участников:
- Разработчики ИИ имеют хорошие возможности для изучения возможностей систем, которые они производят.
- Разработчики приложений а назначенные государственные органы имеют возможность оценивать функциональность различных функций и приложений, а также возможные внешние последствия для различных групп пользователей.
- Более широкий круг заинтересованных сторон имеют уникальные возможности для прогнозирования и оценки социальных, экономических и экологических последствий новых технологий, таких как генеративный искусственный интеллект.
Три уровня оценки в предлагаемой нами схеме представляют собой вопрос степени, а не четкого разделения. Хотя ни один из них не является полностью ответственностью одного участника, основная ответственность зависит от того, кто лучше всего может выполнять оценки на каждом уровне.
Пробелы в текущих оценках безопасности генеративного мультимодального ИИ
Учитывая важность этого дополнительного контекста для оценки безопасности систем ИИ, важно понимать доступность таких тестов. Чтобы лучше понять более широкую картину, мы приложили всесторонние усилия, чтобы максимально полно сопоставить оценки, которые применялись к генеративным системам искусственного интеллекта.
Сопоставляя текущее состояние оценок безопасности генеративного ИИ, мы обнаружили три основных пробела в оценке безопасности:
- Контекст: Большинство оценок безопасности рассматривают возможности генеративных систем искусственного интеллекта изолированно. Сравнительно мало работы было сделано для оценки потенциальных рисков в точках человеческого взаимодействия или системного воздействия.
- Оценка конкретных рисков: Оценка возможностей генеративных систем искусственного интеллекта ограничена в областях риска, которые они охватывают. Для многих областей риска существует мало оценок. Там, где они существуют, оценки зачастую узким образом интерпретируют вред. Например, вред репрезентации обычно определяется как стереотипные ассоциации занятий с представителями разных полов, при этом другие случаи вреда и области риска остаются незамеченными.
- Мультимодальность: Подавляющее большинство существующих оценок безопасности генеративных систем искусственного интеллекта сосредоточено исключительно на текстовом выводе — остаются большие пробелы в оценке рисков вреда в изображениях, аудио или видео. Этот разрыв только увеличивается с появлением нескольких модальностей в одной модели, таких как системы искусственного интеллекта, которые могут принимать изображения в качестве входных данных или создавать выходные данные, в которых переплетаются аудио, текст и видео. Хотя некоторые текстовые оценки могут быть применены к другим методам, новые методы открывают новые способы проявления рисков. Например, описание животного не является вредным, а если описание применено к изображению человека, то вредно.
Мы составляем список ссылок на публикации, в которых подробно описаны оценки безопасности генеративных систем искусственного интеллекта, открыто доступные через этот репозиторий. Если вы хотите внести свой вклад, пожалуйста, добавьте оценки, заполнив эта форма.
Применение более комплексных оценок на практике
Генеративные системы искусственного интеллекта порождают волну новых приложений и инноваций. Чтобы убедиться, что потенциальные риски, связанные с этими системами, поняты и смягчены, нам срочно необходимы строгие и всесторонние оценки безопасности систем ИИ, которые учитывают, как эти системы могут использоваться и внедряться в общество.
Практическим первым шагом является перепрофилирование существующих оценок и использование самих больших моделей для оценки, хотя это имеет важные ограничения. Для более комплексной оценки нам также необходимо разработать подходы к оценке систем ИИ в точке человеческого взаимодействия и их системного воздействия. Например, хотя распространение дезинформации с помощью генеративного искусственного интеллекта является недавней проблемой, мы показываем, что существует множество существующих методов оценки общественного доверия и авторитетности, которые можно перепрофилировать.
Обеспечение безопасности широко используемых генеративных систем искусственного интеллекта является общей ответственностью и приоритетом. Разработчики ИИ, государственные деятели и другие стороны должны сотрудничать и коллективно создавать процветающую и надежную экосистему оценки безопасных систем ИИ.