«Это захватывающие времена», — говорит Боаз Барак, ученый-компьютерщик из Гарвардского университета, который на год прикомандирован к команде суперсогласования OpenAI. «Многие специалисты в этой области часто сравнивают это с физикой начала 20-го века. У нас есть множество экспериментальных результатов, которые мы до конца не понимаем, и часто, когда вы проводите эксперимент, он вас удивляет».
Старый код, новые трюки
Большинство сюрпризов касается того, как модели могут научиться делать то, что им не показывали. Эта идея, известная как обобщение, является одной из самых фундаментальных идей машинного обучения и ее величайшей загадкой. Модели учатся выполнять задачу (распознавать лица, переводить предложения, избегать пешеходов) путем обучения на определенном наборе примеров. Тем не менее, они могут обобщать, учась выполнять эту задачу на примерах, которых они раньше не видели. Каким-то образом модели не просто запоминают закономерности, которые они видели, но и придумывают правила, которые позволяют им применять эти закономерности в новых случаях. А иногда, как и в случае с гроккингом, обобщение происходит тогда, когда мы этого не ожидаем.
В частности, большие языковые модели, такие как GPT-4 от OpenAI и Gemini от Google DeepMind, обладают поразительной способностью к обобщению. «Магия не в том, что модель может изучать математические задачи на английском языке, а затем обобщать их на новые математические задачи на английском языке, — говорит Барак, — а в том, что модель может изучать математические задачи на английском языке, затем просматривать французскую литературу и на основе этого обобщать». решать математические задачи на французском языке. Это нечто большее, чем может рассказать статистика».
Когда несколько лет назад Чжоу начала изучать ИИ, ее поразило то, как ее учителя уделяли внимание «как», а не «почему». «Это было похоже на то, как вы тренируете эти модели, а затем вот результат», — говорит она. «Но было неясно, почему этот процесс приводит к созданию моделей, способных делать такие удивительные вещи». Она хотела узнать больше, но ей сказали, что хороших ответов нет: «Я предполагала, что ученые знают, что делают. Мол, они получали теории, а затем строили модели. Это было совсем не так».
Быстрый прогресс в области глубокого обучения за последние 10 с лишним лет стал результатом скорее проб и ошибок, чем понимания. Исследователи копировали то, что сработало у других, и внедряли собственные инновации. Теперь в модели можно добавлять множество различных ингредиентов, а также растущую кулинарную книгу, наполненную рецептами их использования. «Люди пробуют то-то и то-то, все эти трюки», — говорит Белкин. «Некоторые из них важны. Некоторые, вероятно, нет».
«Это работает, и это удивительно. Мы поражаемся тому, насколько сильны эти вещи», — говорит он. И все же, несмотря на весь их успех, рецепты представляют собой скорее алхимию, чем химию: «Мы придумали некоторые заклинания в полночь, смешав некоторые ингредиенты», — говорит он.
Переобучение
Проблема в том, что ИИ в эпоху больших языковых моделей, похоже, бросает вызов статистике из учебников. Самые мощные модели сегодня огромны и содержат до триллиона параметров (значений модели, которые корректируются во время обучения). Но статистика говорит, что по мере того, как модели становятся больше, их производительность сначала должна улучшаться, а затем ухудшаться. Это происходит из-за того, что называется переоснащением.
Когда модель обучается на наборе данных, она пытается подогнать эти данные к шаблону. Представьте себе группу точек данных, нанесенных на диаграмму. Модель, соответствующая данным, может быть представлена на этом графике в виде линии, проходящей через точки. Процесс обучения модели можно рассматривать как поиск линии, которая соответствует обучающим данным (точки, уже имеющиеся на диаграмме), а также новым данным (новые точки).