Исследовать
Вдохновленные прогрессом в крупномасштабном языковом моделировании, мы применяем аналогичный подход для создания единого универсального агента, выходящего за рамки текстового вывода. Агент, которого мы называем Гато, работает как мультимодальная, многозадачная, многовариантная универсальная политика. Одна и та же сеть с одинаковыми весами может воспроизводить Atari, изображения подписей, чат, блоки стека с настоящей роботизированной рукой и многое другое, принимая на основе контекста решение о том, следует ли выводить текст, крутящие моменты суставов, нажатия кнопок или другие токены.
На этапе обучения Gato данные из различных задач и модальностей сериализуются в плоскую последовательность токенов, группируются и обрабатываются нейронной сетью-трансформером, аналогичной большой языковой модели. Потеря маскируется, поэтому Гато предсказывает только действия и текстовые цели.
При развертывании Gato приглашение, например демонстрация, маркируется, образуя начальную последовательность. Затем среда выдает первое наблюдение, которое также маркируется и добавляется к последовательности. Гато производит выборку вектора действия авторегрессионно, по одному токену за раз.
После того как все токены, составляющие вектор действия, выбраны (определяется спецификацией действия среды), действие декодируется и отправляется в среду, которая выполняет действия и выдает новое наблюдение. Затем процедура повторяется. Модель всегда видит все предыдущие наблюдения и действия в своем контекстном окне из 1024 токенов.
Гато обучен на большом количестве наборов данных, включающих опыт агентов как в смоделированных, так и в реальных средах, а также на различных наборах данных на естественном языке и изображениях. Здесь показано количество задач, в которых производительность предварительно обученной модели Gato превышает процент экспертной оценки, сгруппированных по областям.
На следующих изображениях также показано, как предварительно обученная модель Гато с теми же весами может писать подписи к изображениям, участвовать в интерактивном диалоге и управлять манипулятором робота, а также выполнять множество других задач.