В нашем недавняя статьямы показываем, что можно автоматически находить входные данные, которые извлекают вредоносный текст из языковых моделей, генерируя входные данные с использованием самих языковых моделей. Наш подход предоставляет один инструмент для выявления вредоносного поведения модели до того, как оно повлияет на пользователей, хотя мы подчеркиваем, что его следует рассматривать как один из компонентов наряду со многими другими методами, которые потребуются для обнаружения вреда и его смягчения после его обнаружения.
Большие генеративные языковые модели, такие как GPT-3 и Gopher, обладают замечательной способностью генерировать высококачественный текст, но их сложно использовать в реальном мире. Генеративные языковые модели сопряжены с риском создания очень вредоносного текста, и даже небольшой риск причинения вреда неприемлем в реальных приложениях.
Например, в 2016 году Microsoft выпустила бота Tay Twitter, который автоматически пишет в ответ пользователям. В течение 16 часов, Microsoft уничтожила Тая после того, как несколько враждебно настроенных пользователей вызвали у Тэя расистские и сексуально окрашенные твиты, которые были разосланы более чем 50 000 подписчикам. Результатом было не из-за невнимательности со стороны Microsoft:
Проблема в том, что существует очень много возможных входных данных, которые могут привести к тому, что модель будет генерировать вредоносный текст. В результате трудно выявить все случаи сбоя модели до того, как она будет развернута в реальном мире. Предыдущая работа опиралась на платных аннотаторов-людей, которые вручную обнаруживали случаи сбоев (Сюй и др. 2021 год, среди прочего). Этот подход эффективен, но дорог, поскольку ограничивает количество и разнообразие обнаруженных случаев сбоя.
Мы стремимся дополнить ручное тестирование и сократить количество критических упущений за счет автоматического выявления случаев сбоя (или «красной команды»). Для этого мы генерируем тестовые примеры, используя саму языковую модель, и используем классификатор для обнаружения различного вредоносного поведения в тестовых примерах, как показано ниже:
Наш подход выявляет различные модели вредного поведения:
- Оскорбительные выражения: Разжигание ненависти, ненормативная лексика, сексуальный контент, дискриминация и т. д.
- Утечка данных: Создание защищенной авторским правом или частной информации, позволяющей идентифицировать личность, из учебного корпуса.
- Генерация контактной информации: указание пользователям без необходимости отправлять электронные письма или звонить реальным людям.
- Распределительная предвзятость: говорить о некоторых группах людей несправедливо иначе, чем о других группах, в среднем по большому количеству результатов.
- Разговорный вред: оскорбительные выражения, которые встречаются, например, в контексте длительного диалога.
Для создания тестовых примеров с языковыми моделями мы исследуем различные методы: от генерации на основе подсказок и обучения в несколько шагов до контролируемой точной настройки и обучения с подкреплением. Некоторые методы создают более разнообразные тестовые примеры, в то время как другие методы создают более сложные тестовые сценарии для целевой модели. В совокупности предлагаемые нами методы полезны для получения высокого тестового покрытия, а также для моделирования состязательных случаев.
Как только мы обнаружим случаи сбоя, станет легче исправить вредное поведение модели следующим образом:
- Внесение в черный список определенных фраз, которые часто встречаются в вредоносных выходных данных, чтобы модель не создавала выходные данные, содержащие фразы высокого риска.
- Нахождение оскорбительных данных обучения, указанных в модели, для удаления этих данных при обучении будущих итераций модели.
- Дополнение подсказки модели (условного текста) примером желаемого поведения для определенного типа ввода, как показано в нашем недавняя работа.
- Обучение модели минимизировать вероятность исходного вредного вывода для данного тестового ввода.
В целом, языковые модели являются высокоэффективным инструментом для выявления случаев, когда языковые модели ведут себя самым нежелательным образом. В нашей текущей работе мы сосредоточились на вреде «красной команды», который наносят современные языковые модели. В будущем наш подход также может быть использован для упреждающего обнаружения других предполагаемых вредов от передовых систем машинного обучения, например, из-за внутреннее смещение или провалы в объективной устойчивости. Этот подход является лишь одним из компонентов ответственной разработки языковой модели: мы рассматриваем красную команду как один из инструментов, который можно использовать наряду со многими другими, как для выявления недостатков языковых моделей, так и для их смягчения. Мы обращаемся к разделу 7.3 Рэй и др. 2021 год для более широкого обсуждения другой работы, необходимой для обеспечения безопасности языковой модели.
Для получения более подробной информации о нашем подходе и результатах, а также о более широких последствиях наших выводов, прочитайте нашу красная бумага для объединения здесь.