В последние несколько лет основное внимание в языковом моделировании уделялось повышению производительности за счет увеличения количества параметров в моделях на основе преобразователей. Этот подход привел к впечатляющим результатам и высочайшему уровню производительности во многих задачах обработки естественного языка.
Мы также продолжили это направление исследований в DeepMind и недавно продемонстрировали Gopher, модель с 280 миллиардами параметров, которая показала лучшую производительность в широком спектре задач, включая моделирование языка, понимание прочитанного и ответы на вопросы. С тех пор была опубликована еще более крупная модель под названием Megatron-Turing NLG с 530 миллиардами параметров.
Из-за значительных затрат на обучение этих больших моделей крайне важно оценить наилучшую возможную настройку обучения, чтобы избежать напрасной траты ресурсов. В частности, стоимость вычислений для обучения преобразователей определяется двумя факторами: размером модели и количеством обучающих токенов.
Текущее поколение больших языковых моделей выделило увеличенные вычислительные ресурсы для увеличения количества параметров больших моделей и сохранения фиксированного размера обучающих данных на уровне около 300 миллиардов токенов. В этой работе мы эмпирически исследуем оптимальный компромисс между увеличением размера модели и объемом обучающих данных с увеличением вычислительных ресурсов. В частности, мы задаем вопрос: «Каков оптимальный размер модели и количество обучающих токенов для данного вычислительного бюджета?» Чтобы ответить на этот вопрос, мы обучаем модели разного размера и с разным количеством токенов и оцениваем этот компромисс эмпирически.
Наш главный вывод заключается в том, что нынешние большие языковые модели слишком велики для своего вычислительного бюджета и не обучаются на достаточном количестве данных. Фактически, мы обнаруживаем, что для количества обучающих FLOP, используемых для обучения Сусликмодель в 4 раза меньшего размера, обученная на 4 раза большем количестве данных, была бы предпочтительнее.
Мы проверяем нашу гипотезу масштабирования данных путем обучения Шиншилла, модель с 70 миллиардами параметров, обученная на 1,3 триллиона токенов. Хотя затраты на обучение для Chinchilla и Gopher одинаковы, мы обнаружили, что он превосходит Gopher и другие большие языковые модели почти во всех измеряемых задачах, несмотря на то, что у него 70 миллиардов параметров по сравнению с 280 миллиардами у Gopher.
После выпуска Chinchilla была выпущена модель PaLM с 540 миллиардами параметров и обученная на 768 миллиардах токенов. Эта модель была обучена с использованием примерно в 5 раз большего вычислительного бюджета, чем Chinchilla, и превзошла Chinchilla по ряду задач. Хотя обучающий корпус отличается, наши методы предсказывают, что такая модель, обученная на наших данных, превзойдет Chinchilla по производительности, несмотря на то, что она не является оптимальной с точки зрения вычислений. Учитывая вычислительный бюджет PaLM, мы прогнозируем, что модель со 140 миллиардами параметров, обученная на 3 триллионах токенов, будет оптимальной и более эффективной для вывода.
Дополнительным преимуществом меньших по размеру и более производительных моделей является то, что время вывода и затраты памяти сокращаются, что делает запросы к моделям более быстрыми и возможными на меньшем оборудовании. На практике, хотя затраты на обучение суслика и шиншиллы одинаковы, стоимость использования шиншиллы значительно меньше, а ее производительность выше. Возможны дальнейшие простые оптимизации, которые смогут продолжать приносить большую прибыль.