Обучение ИИ более полезному, правильному и безвредному общению
В последние годы большие языковые модели (LLM) добились успеха в ряде задач, таких как ответы на вопросы, обобщение и диалог. Диалог представляет собой особенно интересную задачу, поскольку он отличается гибкостью и интерактивным общением. Однако диалоговые агенты, управляемые LLM, могут выражать неточную или выдуманную информацию, использовать дискриминационные выражения или поощрять небезопасное поведение.
Чтобы создать более безопасных диалоговых агентов, мы должны иметь возможность учиться на отзывах людей. Применяя обучение с подкреплением на основе информации, полученной от участников исследования, мы изучаем новые методы обучения диалоговых агентов, которые обещают сделать систему более безопасной.
В нашем последняя статьямы представляем Воробей – диалоговый агент, который полезен и снижает риск небезопасных и неуместных ответов. Наш агент предназначен для общения с пользователем, ответов на вопросы и поиска в Интернете с помощью Google, когда полезно искать доказательства для информирования своих ответов.
Sparrow — это исследовательская модель и доказательство концепции, разработанная с целью научить диалоговых агентов быть более полезными, правильными и безвредными. Изучая эти качества в общей обстановке диалога, Воробей расширяет наше понимание того, как мы можем обучать агентов, чтобы они были более безопасными и полезными — и, в конечном счете, помогали создавать более безопасный и более полезный искусственный общий интеллект (AGI).
Как работает Воробей
Обучение разговорного ИИ — особенно сложная проблема, потому что трудно точно определить, что делает диалог успешным. Чтобы решить эту проблему, мы обращаемся к форме обучения с подкреплением (RL), основанной на отзывах людей, используя отзывы о предпочтениях участников исследования для обучения модели того, насколько полезен ответ.
Чтобы получить эти данные, мы показываем нашим участникам несколько типовых ответов на один и тот же вопрос и спрашиваем их, какой ответ им нравится больше всего. Поскольку мы показываем ответы с доказательствами, полученными из Интернета, и без них, эта модель также может определять, когда ответ должен быть подкреплен доказательствами.
Но повышение полезности — это только часть дела. Чтобы убедиться, что поведение модели безопасно, мы должны ограничить ее поведение. Итак, мы определяем исходный простой набор правил для модели, таких как «не делать угрожающих заявлений» и «не делать ненавистных или оскорбительных комментариев».
Мы также предоставляем правила в отношении возможно вредных советов и не утверждаем, что являемся личностью. Эти правила были разработаны путем изучения существующей работы по языковому вреду и консультаций с экспертами. Затем мы просим участников нашего исследования поговорить с нашей системой, чтобы заставить ее нарушить правила. Затем эти разговоры позволяют нам обучить отдельную «модель правил», которая указывает, когда поведение Воробья нарушает какое-либо из правил.
На пути к лучшему ИИ и лучшим суждениям
Проверить правильность ответов Воробья сложно даже специалистам. Вместо этого мы просим наших участников определить, правдоподобны ли ответы Воробья и действительно ли доказательства, которые предоставляет Воробей, подтверждают ответ. По словам наших участников, Воробей дает правдоподобный ответ и подтверждает его доказательствами в 78% случаев, когда ему задают фактический вопрос. Это большое улучшение по сравнению с нашими базовыми моделями. Тем не менее, Воробей не застрахован от ошибок, таких как галлюцинации фактов и иногда ответы не по теме.
У Sparrow также есть возможности для улучшения соблюдения правил. После обучения участники все еще могли обмануть его, нарушив наши правила в 8% случаев, но по сравнению с более простыми подходами Sparrow лучше соблюдает наши правила при состязательном зондировании. Например, наша исходная модель диалога нарушала правила примерно в 3 раза чаще, чем Sparrow, когда наши участники пытались заставить ее это сделать.
Наша цель со Sparrow состояла в том, чтобы создать гибкий механизм для обеспечения соблюдения правил и норм в диалоговых агентах, но конкретные правила, которые мы используем, являются предварительными. Для разработки лучшего и более полного набора правил потребуется как экспертный вклад по многим темам (включая разработчиков политики, социологов и специалистов по этике), так и участие широкого круга пользователей и затронутых групп. Мы считаем, что наши методы по-прежнему применимы для более строгого набора правил.
Sparrow — это значительный шаг вперед в понимании того, как обучать диалоговых агентов, чтобы они были более полезными и безопасными. Однако успешное общение между людьми и агентами диалога должно не только избегать вреда, но и соответствовать человеческим ценностям для эффективного и полезного общения, как обсуждалось в недавней работе по согласованию языковых моделей с человеческими ценностями.
Мы также подчеркиваем, что хороший агент по-прежнему будет отказываться отвечать на вопросы в контексте, когда уместно полагаться на людей или когда это может предотвратить вредоносное поведение. Наконец, наше первоначальное исследование было сосредоточено на англоговорящем агенте, и необходима дальнейшая работа, чтобы обеспечить аналогичные результаты для других языков и культурных контекстов.
Мы надеемся, что в будущем разговоры между людьми и машинами помогут лучше судить о поведении ИИ, что позволит людям согласовывать и улучшать системы, которые могут быть слишком сложными для понимания без помощи машин.
Хотите исследовать диалоговый путь к безопасному ОИИ? Были в настоящее время нанимает ученых-исследователей для нашей команды Scalable Alignment.