Одним из ключевых аспектов интеллекта является способность быстро обучаться выполнению новой задачи при получении краткой инструкции. Например, ребенок может узнать настоящих животных в зоопарке, увидев несколько изображений животных в книге, несмотря на различия между ними. Но чтобы типичная визуальная модель научилась новой задаче, ее необходимо обучить на десятках тысяч примеров, специально помеченных для этой задачи. Если цель состоит в том, чтобы подсчитать и идентифицировать животных на изображении, как в «трех зебрах», нужно было бы собрать тысячи изображений и аннотировать каждое изображение их количеством и видом. Этот процесс неэффективен, дорог и ресурсоемок, требует больших объемов аннотированных данных и необходимости обучать новую модель каждый раз, когда она сталкивается с новой задачей. В рамках миссии DeepMind по решению проблемы интеллекта мы исследовали, может ли альтернативная модель сделать этот процесс проще и эффективнее, учитывая лишь ограниченную информацию о конкретной задаче.
Сегодня в препринте нашего бумагамы вводим Фламинго, единая модель визуального языка (VLM), которая устанавливает новый уровень в обучении за несколько шагов для широкого спектра открытых мультимодальных задач. Это означает, что Flamingo может решить ряд сложных задач, используя всего несколько конкретных примеров («несколько выстрелов»), не требуя дополнительного обучения. Простой интерфейс Flamingo делает это возможным, принимая в качестве входных данных приглашение, состоящее из чередующихся изображений, видео и текста, а затем выводя соответствующий язык.
Подобно поведению больших языковых моделей (LLM), которые могут решать языковую задачу, обрабатывая примеры задачи в своем текстовом приглашении, визуальный и текстовый интерфейс Flamingo может направить модель на решение мультимодальной задачи. Учитывая несколько примеров пар визуальных входных данных и ожидаемых текстовых ответов, составленных в подсказке Flamingo, модели можно задать вопрос с новым изображением или видео, а затем сгенерировать ответ.
В изученных нами 16 задачах Flamingo превосходит все предыдущие подходы к обучению с использованием нескольких подходов, когда дается всего четыре примера на задачу. В ряде случаев тот же Фламинго Модель превосходит методы, которые точно настраиваются и оптимизируются для каждой задачи независимо и используют на несколько порядков больше данных, специфичных для задачи. Это должно позволить неспециалистам быстро и легко использовать точные модели визуального языка для решения новых задач.
На практике Flamingo объединяет большие языковые модели с мощными визуальными представлениями — каждое отдельно предварительно обученное и замороженное — путем добавления между ними новых архитектурных компонентов. Затем он обучается на сочетании дополнительных крупномасштабных мультимодальных данных, поступающих только из Интернета, без использования каких-либо данных, аннотированных для целей машинного обучения. Следуя этому методу, мы начинаем с Chinchilla, нашей недавно представленной языковой модели с параметрами 70B, оптимальной для вычислений, для обучения нашего финального фламинго. модель, параметр 80B VLM. После завершения этого обучения Flamingo можно напрямую адаптировать к задачам зрения с помощью простого обучения несколькими выстрелами без какой-либо дополнительной настройки для конкретной задачи.
Мы также протестировали качественные возможности модели, выходящие за рамки наших текущих тестов. В рамках этого процесса мы сравнили производительность нашей модели при добавлении подписей к изображениям, связанным с полом и цветом кожи, и прогнали сгенерированные нашей моделью подписи через API Google Perspective, который оценивает токсичность текста. Хотя первоначальные результаты являются положительными, решающее значение имеют дополнительные исследования, направленные на оценку этических рисков в мультимодальных системах, и мы призываем людей тщательно оценить и рассмотреть эти вопросы, прежде чем думать о развертывании таких систем в реальном мире.
Мультимодальные возможности необходимы для важных приложений ИИ, таких как помощь слабовидящим с повседневными проблемами зрения или улучшение идентификации ненавистнического контента В интернете. Flamingo позволяет эффективно адаптироваться к этим примерам и другим задачам на лету без изменения модели. Интересно, что модель демонстрирует готовые возможности мультимодального диалога, как показано здесь.
Flamingo — это эффективное и действенное семейство моделей общего назначения, которые можно применять для задач понимания изображений и видео с минимальными примерами для конкретных задач. Такие модели, как Flamingo, обещают принести пользу обществу на практике, и мы продолжаем улучшать их гибкость и возможности, чтобы их можно было безопасно использовать для всеобщего блага. Возможности Flamingo открывают путь к богатому взаимодействию с изученными моделями визуального языка, которые могут обеспечить лучшую интерпретируемость и новые интересные приложения, такие как визуальный помощник, который помогает людям в повседневной жизни, и мы пока довольны результатами.