DeepMind опубликовал серия статей о больших языковых моделях (LLM) в прошлом году, в том числе анализ Gopher, нашей большой языковой модели. Технология языкового моделирования, которая в настоящее время разрабатывается несколькими другими лабораториями и компаниями, обещает улучшить многие приложения, от поисковые системы к новой волне чат-ботов разговорные помощники и за его пределами. Один бумага в этой серии изложен ряд причин, по которым «сырые» языковые модели, такие как Gopher, не соответствуют нашим стандартам безопасного развертывания этой технологии в приложениях, ориентированных на пользователя, особенно если не установлены защитные ограждения для управления проблемным и потенциально опасным поведением.
Наша последняя работа посвящена одной из этих проблем: языковые модели, подобные Gopher, могут «галлюцинировать» факты, которые кажутся правдоподобными, но на самом деле являются фальшивыми. Те, кто знаком с этой проблемой, знают, что нужно проводить собственную проверку фактов, а не доверять тому, что говорят языковые модели. Те, кто этого не делает, могут в конечном итоге поверить во что-то, что не соответствует действительности. В этой статье описывается GopherCite, модель, целью которой является решение проблемы галлюцинаций языковой модели. GopherCite пытается подкрепить все свои фактические утверждения доказательствами из Интернета. Он использует поиск Google для поиска соответствующих веб-страниц в Интернете и цитирует отрывок, который пытается продемонстрировать, почему его ответ правильный. Если система не может сформировать ответ, который может быть подтвержден доказательствами, она говорит пользователю: «Я не знаю», вместо того, чтобы давать необоснованный ответ.
Поддержка простых фактических утверждений легко проверяемыми доказательствами — это один шаг к тому, чтобы сделать языковые модели более заслуживающими доверия как для взаимодействующих с ними пользователей, так и для аннотаторов, оценивающих качество образцов. Сравнение поведения «сырого» Gopher и нашей новой модели помогает проиллюстрировать это изменение.
Судя по ответу GopherCite, вы заметите, что Гофер выдумал факт («Лейк-Плэсид принимал зимние Олимпийские игры в 1936 году») без предупреждения. Когда GopherCite показывает проверенный фрагмент соответствующей страницы Википедии, мы можем подтвердить, что Лейк-Плэсид принимал Олимпийские игры только дважды, в 1932 и 1980 годах.
Чтобы изменить поведение Gopher таким образом, мы обучили Gopher в соответствии с предпочтениями человека. Мы попросили участников исследования пользователей выбрать предпочтительный ответ из пары кандидатов в соответствии с критериями, в том числе с тем, насколько хорошо доказательства подтверждают данные ответы. Эти метки использовались в качестве обучающих данных как для контролируемого обучения на образцах с высоким рейтингом, так и для обучение с подкреплением на основе человеческих предпочтений (РЛХП). Мы также использовали этот подход в наша недавняя работа по красной команде.
Мы не единственные, кого интересует проблема фактической неточности языковых моделей. Наши коллеги из Google недавно добились прогресса в обосновании фактов в своих последних Система ЛаМДА, когда диалоговая модель взаимодействует с поиском Google и иногда делится релевантными URL-адресами. Действительно, в режиме обучения GopherCite используется аналогичная методология, что и в LaMDA, но важное отличие состоит в том, что мы стремимся предоставить конкретный фрагмент соответствующих доказательств, а не просто указать пользователю на URL-адрес. Основываясь на мотивах, схожих с нашими, OpenAI недавно анонсированная работа разрабатывает тесно связанную систему под названием WebGPT, которая также применяет RLHP для согласования своей языковой модели GPT-3. В то время как GopherCite фокусируется на чтении длинных входных документов, WebGPT тщательно контролирует контекст, представленный языковой модели, многократно взаимодействуя с веб-браузером. Он также приводит доказательства в поддержку своих ответов. Сходства и различия между этими системами и нашей собственной обсуждаются в нашей статье, а также мы показываем, что GopherCite очень часто предоставляет убедительные доказательства своих утверждений.
Мы провели исследование пользователей с платными участниками, чтобы оценить модель по двум типам вопросов: вопросы по поиску фактов, вводимые в поиск Google (опубликовано Google в наборе данных под названием «NaturalQuestions».), а также вопросы, требующие объяснений, которые пользователи Reddit задавали на форуме под названием «/r/eli5» («Объясните это, как будто мне 5 (лет)»). Участники нашего исследования определили, что GopherCite отвечает на вопросы, требующие фактов, правильно – и с удовлетворительными доказательствами – примерно в 80% случаев, а на вопросы, требующие объяснений, отвечает примерно в 67% случаев. Когда мы позволяем GopherCite воздерживаться от ответа на некоторые вопросы, его производительность значительно улучшается среди вопросов, на которые он решает ответить (подробности см. в документе). Этот явный механизм воздержания является основным вкладом нашей работы.
Но когда мы оцениваем модель по набору «состязательных» вопросов, которые пытаются обманом заставить модель повторять вымысел или заблуждение, изложенное в Интернете, GopherCite часто попадает в ловушку. Например, на вопрос «что вам дает Red Bull?» компания отвечает вот что:
Мы считаем, что этого режима сбоя и других, обсуждаемых в нашей статье, можно избежать, обогатив настройку, перейдя от «однократного» ответа на вопрос пользователя к такому, в котором модель может задавать уточняющие вопросы пользователю и участвовать в диалог. Например, мы могли бы позволить будущим моделям спрашивать пользователя, хочет ли он получить ответ, который является правдой в буквальном смысле или правдив в пределах вымышленного мира рекламы Red Bull.
Подводя итог, мы считаем, что GopherCite — это важный шаг вперед, но его создание научило нас тому, что цитирование доказательств — это лишь часть общей стратегии безопасности и надежности. Более фундаментально, не все утверждения требуют цитирования доказательств – и, как мы продемонстрировали выше, не все утверждения, подкрепленные доказательствами, верны. Некоторые утверждения требуют нескольких доказательств, а также логического аргумента, объясняющего, почему такое утверждение следует. Мы продолжим работать в этой области и стремимся решить возникающие проблемы посредством дальнейших исследований и разработок, а также специальных социотехнических исследований.
В нашей статье рассматривается гораздо больше подробностей о наших методах, экспериментах и соответствующем контексте из исследовательской литературы. Мы также создали FAQ о GopherCite, на который сама модель отвечает после прочтения введения к статье (с использованием образцов-кандидатов, отобранных авторами):