Исследовать
Обучение ИИ более полезному, правильному и безвредному общению
В последние годы большие языковые модели (LLM) добились успеха в решении ряда задач, таких как ответы на вопросы, обобщение и диалог. Диалог — особенно интересная задача, поскольку он предполагает гибкое и интерактивное общение. Однако агенты диалога, работающие на основе LLM, могут выражать неточную или вымышленную информацию, использовать дискриминационный язык или поощрять небезопасное поведение.
Чтобы создать более безопасных агентов диалога, нам нужно иметь возможность учиться на обратной связи между людьми. Применяя обучение с подкреплением на основе отзывов участников исследования, мы изучаем новые методы обучения агентов диалога, которые обещают создать более безопасную систему.
В нашем последняя статьямы представляем Воробей – полезный диалоговый агент, снижающий риск небезопасных и неуместных ответов. Наш агент предназначен для общения с пользователем, ответа на вопросы и поиска в Интернете с помощью Google, когда полезно искать доказательства для обоснования своих ответов.
Sparrow — это исследовательская модель и подтверждение концепции, разработанная с целью научить агентов диалога быть более полезными, правильными и безвредными. Изучая эти качества в условиях общего диалога, Воробей расширяет наше понимание того, как мы можем обучать агентов, чтобы они были более безопасными и полезными — и, в конечном итоге, помогли создать более безопасный и более полезный общий искусственный интеллект (AGI).
Как работает Воробей
Обучение разговорного ИИ — особенно сложная задача, поскольку сложно точно определить, что делает диалог успешным. Чтобы решить эту проблему, мы обращаемся к форме обучения с подкреплением (RL), основанной на отзывах людей, используя обратную связь о предпочтениях участников исследования для тренировки модели того, насколько полезен ответ.
Чтобы получить эти данные, мы показываем участникам несколько модельных ответов на один и тот же вопрос и спрашиваем, какой ответ им нравится больше всего. Поскольку мы показываем ответы с доказательствами, полученными из Интернета, и без них, эта модель также может определить, когда ответ должен быть подкреплен доказательствами.
Но повышение полезности — это только часть дела. Чтобы гарантировать безопасность поведения модели, мы должны ограничить ее поведение. Итак, мы определяем исходный простой набор правил для модели, например, «не делайте угрожающих заявлений» и «не делайте ненавистных или оскорбительных комментариев».
Мы также предоставляем правила, касающиеся потенциально вредных советов и отказа от выдачи себя за личность. Эти правила были разработаны на основе изучения существующей работы по вопросам языкового вреда и консультаций с экспертами. Затем мы просим участников нашего исследования поговорить с нашей системой, чтобы обманом заставить ее нарушить правила. Эти разговоры затем позволяют нам обучить отдельную «модель правил», которая указывает, когда поведение Воробья нарушает какое-либо из правил.
К лучшему ИИ и лучшим суждениям
Проверить ответы Воробья на правильность сложно даже специалистам. Вместо этого мы просим наших участников определить, правдоподобны ли ответы Спарроу и действительно ли доказательства, представленные Спарроу, подтверждают ответ. По словам наших участников, Воробей дает правдоподобный ответ и подтверждает его доказательствами в 78% случаев, когда ему задают фактический вопрос. Это значительное улучшение по сравнению с нашими базовыми моделями. Тем не менее, Воробей не застрахован от ошибок, таких как галлюцинации фактов и ответы, которые иногда не по теме.
У Sparrow также есть возможности для улучшения соблюдения правил. После обучения участникам все же удавалось обманом заставить его нарушить наши правила в 8% случаев, но по сравнению с более простыми подходами Sparrow лучше следует нашим правилам в условиях состязательного зондирования. Например, наша первоначальная модель диалога нарушала правила примерно в 3 раза чаще, чем Sparrow, когда наши участники пытались заставить ее это сделать.
Нашей целью с помощью Sparrow было создание гибкого механизма для обеспечения соблюдения правил и норм в диалоговых агентах, но конкретные правила, которые мы используем, являются предварительными. Разработка лучшего и более полного набора правил потребует как экспертного вклада по многим темам (включая политиков, социологов и специалистов по этике), так и участия широкого круга пользователей и затронутых групп. Мы считаем, что наши методы по-прежнему применимы для более строгого набора правил.
Sparrow — это значительный шаг вперед в понимании того, как научить диалоговых агентов быть более полезными и безопасными. Однако успешное общение между людьми и участниками диалога должно не только избегать вреда, но и соответствовать человеческим ценностям для эффективного и полезного общения, как обсуждалось в недавней работе по приведению языковых моделей в соответствие с человеческими ценностями.
Мы также подчеркиваем, что хороший агент по-прежнему будет отказываться отвечать на вопросы в ситуациях, когда уместно довериться людям или где это потенциально может предотвратить вредное поведение. Наконец, наше первоначальное исследование было сосредоточено на англоговорящем агенте, и необходима дальнейшая работа, чтобы обеспечить аналогичные результаты в других языках и культурных контекстах.
Мы надеемся, что в будущем разговоры между людьми и машинами помогут лучше оценивать поведение ИИ, позволяя людям согласовывать и улучшать системы, которые могут оказаться слишком сложными для понимания без помощи машин.
Хотите найти диалоговый путь к безопасному ОИИ? Были в настоящее время нанимает ученых-исследователей для нашей команды масштабируемого выравнивания.