Многие недавние успехи в языковых моделях (LM) были достигнуты в рамках «статической парадигмы», где основное внимание уделяется повышению производительности тестов, созданных без учета временного аспекта данных. Например, отвечая на вопросы о событиях, о которых модель могла бы узнать во время обучения, или оценивая текст, отобранный из того же периода, что и данные обучения. Однако наш язык и знания динамичны и постоянно развиваются. Поэтому, чтобы обеспечить более реалистичную оценку моделей «вопрос-ответ» для следующего скачка в производительности, важно обеспечить их гибкость и надежность при работе с новыми и невидимыми данными.
В 2021 году мы выпустили Помните о разрыве: оценка временного обобщения в моделях нейронного языка и тесты динамического моделирования языка для WMT и arXiv для облегчения оценки языковой модели, учитывающей временную динамику. В этой статье мы осветили проблемы, с которыми сталкиваются современные крупные LM при временном обобщении, и обнаружили, что наукоемкие токены значительно снижают производительность.
Сегодня мы публикуем две статьи и новый тест, которые будут способствовать дальнейшему развитию исследований по этой теме. В StreamingQA: ориентир для адаптации к новым знаниям с течением времени в моделях ответов на вопросымы изучаем последующую задачу ответа на вопросы по нашему недавно предложенному тесту, СтримингQA: мы хотим понять, как параметрические и полупараметрические модели ответов на вопросы, дополненные поиском, адаптируются к новой информации, чтобы отвечать на вопросы о новых событиях. В Языковые модели, дополненные Интернетом, посредством подсказок с несколькими предложениями для ответов на открытые вопросы, мы исследуем возможности объединения большой языковой модели с подсказками из нескольких фрагментов и поиском Google в качестве компонента поиска. При этом мы стремимся повысить фактологичность модели, обеспечивая при этом доступ к актуальной информации для ответа на разнообразный набор вопросов.
StreamingQA: ориентир для адаптации к новым знаниям с течением времени в моделях ответов на вопросы
Знания и понимание языка моделей, оцениваемых посредством вопросов-ответов (QA), обычно изучаются на статических снимках знаний, таких как Википедия. Чтобы изучить, как полупараметрические модели контроля качества и лежащие в их основе параметрические LM адаптируются к развивающимся знаниям, мы создали новый крупномасштабный тест StreamingQA, в котором в заданную дату задаются написанные человеком и автоматически сгенерированные вопросы, на которые нужно ответить в течение 14 лет. новостные статьи с отметкой времени (см. рисунок 2). Мы показываем, что параметрические модели можно обновлять без полного переобучения, избегая при этом катастрофического забывания. Для полупараметрических моделей добавление новых статей в пространство поиска позволяет быстро адаптироваться, однако модели с устаревшим базовым LM уступают моделям с переобученным LM.
Языковые модели, дополненные Интернетом, посредством подсказок в несколько шагов для ответов на вопросы в открытой области
Мы стремимся извлечь выгоду из уникальных возможностей, предлагаемых крупномасштабными языковыми моделями, чтобы преодолеть некоторые из их проблем, касающихся обоснования фактической и актуальной информации. Руководствуясь полупараметрическими LM, которые основывают свои решения на внешних доказательствах, мы используем краткие подсказки, чтобы научиться обуславливать LM информацией, возвращаемой из Интернета с помощью Google Search, широкого и постоянно обновляемого источника знаний. Наш подход не требует тонкой настройки или изучения дополнительных параметров, что делает его применимым практически к любой языковой модели. И действительно, мы обнаруживаем, что LM, настроенные в сети, превосходят производительность моделей закрытой книги аналогичного или даже большего размера при ответе на вопросы в открытой области.