Home Технологии Улучшение языковых моделей путем извлечения из триллионов токенов | DeepTech

Улучшение языковых моделей путем извлечения из триллионов токенов | DeepTech

0
Улучшение языковых моделей путем извлечения из триллионов токенов
 | DeepTech

В последние годы значительный прирост производительности при авторегрессионном языковом моделировании был достигнут за счет увеличения количества параметров в моделях Transformer. Это привело к огромному увеличению затрат энергии на обучение и привело к созданию плотных «больших языковых моделей» (LLM) со 100+ миллиардами параметров. Одновременно были собраны большие наборы данных, содержащие триллионы слов, для облегчения обучения этих LLM.

Мы исследуем альтернативный путь улучшения языковых моделей: мы дополняем преобразователи поиском по базе данных текстовых отрывков, включая веб-страницы, книги, новости и код. Мы называем наш метод RETRO, что означает «улучшенные транформеры с поиском».

В традиционных моделях языка-трансформера преимущества размера модели и размера данных связаны: пока набор данных достаточно велик, производительность языкового моделирования ограничивается размером модели. Однако с помощью RETRO модель не ограничивается данными, наблюдаемыми во время обучения — она имеет доступ ко всему набору обучающих данных через механизм поиска. Это приводит к значительному приросту производительности по сравнению со стандартным Трансформатором с тем же количеством параметров. Мы показываем, что языковое моделирование постоянно совершенствуется по мере увеличения размера поисковой базы данных, по крайней мере, до 2 триллионов токенов — 175 полных жизней непрерывного чтения.

Для каждого отрывка текста (приблизительно абзаца документа) выполняется поиск ближайшего соседа, который возвращает аналогичные последовательности, найденные в обучающей базе данных, и их продолжение. Эти последовательности помогают предсказать продолжение входного текста. Архитектура RETRO чередует регулярное самообслуживание на уровне документа и перекрестное внимание с извлеченными соседями на более тонком уровне прохода. Это приводит как к более точным, так и к более фактическим продолжениям. Кроме того, RETRO повышает интерпретируемость прогнозов модели и предоставляет возможность прямого вмешательства через поисковую базу данных для повышения безопасности продолжения текста. В наших экспериментах с Pile, стандартным эталоном языкового моделирования, модель RETRO с 7,5 миллиардами параметров превосходит Jurassic-1 с 175 миллиардами параметров в 10 из 16 наборов данных и превосходит 280B Gopher в 9 из 16 наборов данных.

Ниже мы показываем два образца из нашей базовой модели 7B и из нашей модели 7.5B RETRO, которые подчеркивают, что образцы RETRO более фактичны и больше соответствуют теме, чем базовый образец.

LEAVE A REPLY

Please enter your comment!
Please enter your name here