Одним из ключевых аспектов интеллекта является способность быстро научиться выполнять новую задачу после получения краткой инструкции. Например, ребенок может узнать настоящих животных в зоопарке, увидев несколько изображений животных в книге, несмотря на различия между ними. Но чтобы типичная визуальная модель освоила новую задачу, ее необходимо обучить на десятках тысяч примеров, специально предназначенных для этой задачи. Если цель состоит в том, чтобы посчитать и идентифицировать животных на изображении, как в случае с «тремя зебрами», придется собрать тысячи изображений и аннотировать каждое изображение их количеством и видом. Этот процесс неэффективен, дорог и ресурсоемок, требует больших объемов аннотированных данных и необходимости обучать новую модель каждый раз, когда она сталкивается с новой задачей. В рамках миссии DeepMind по решению задач интеллекта мы изучили, может ли альтернативная модель сделать этот процесс проще и эффективнее, учитывая лишь ограниченную информацию по конкретной задаче.
Сегодня в препринте нашего бумагамы представляем Фламинго, единая модель визуального языка (VLM), которая устанавливает новый уровень техники в обучении за несколько шагов для решения широкого спектра открытых мультимодальных задач. Это означает, что Flamingo может решить ряд сложных задач, используя всего несколько примеров для конкретных задач (за «несколько кадров»), без необходимости какого-либо дополнительного обучения. Простой интерфейс Flamingo делает это возможным: на входе принимается подсказка, состоящая из чередующихся изображений, видео и текста, а затем выводится соответствующий язык.
Подобно поведению больших языковых моделей (LLM), которые могут решать языковую задачу путем обработки примеров задачи в текстовой подсказке, визуальный и текстовый интерфейс Flamingo может направить модель к решению мультимодальной задачи. Учитывая несколько примеров пар визуальных входных данных и ожидаемых текстовых ответов, составленных в подсказке Flamingo, модели можно задать вопрос с новым изображением или видео, а затем сгенерировать ответ.
В 16 изученных нами задачах Flamingo превосходит все предыдущие подходы к обучению с помощью нескольких шагов, если на каждое задание дается всего четыре примера. В некоторых случаях одна и та же модель Flamingo превосходит методы, которые точно настроены и оптимизированы для каждой задачи независимо и используют на несколько порядков больше данных, специфичных для конкретной задачи. Это должно позволить неспециалистам быстро и легко использовать точные модели визуального языка для решения новых задач.
На практике Flamingo объединяет большие языковые модели с мощными визуальными представлениями (каждое из которых предварительно обучено и заморожено отдельно), добавляя между ними новые архитектурные компоненты. Затем он обучается на смеси дополнительных крупномасштабных мультимодальных данных, поступающих только из Интернета, без использования каких-либо данных, аннотированных для целей машинного обучения. Следуя этому методу, мы начинаем с Шиншилла, нашу недавно представленную оптимальную для вычислений языковую модель с 70 битами параметров, для обучения нашей окончательной модели Flamingo — VLM с 80 битами параметров. После завершения этого обучения Flamingo можно напрямую адаптировать к задачам по зрению посредством простого обучения за несколько кадров без какой-либо дополнительной настройки для конкретной задачи.
Мы также протестировали качественные возможности модели, выходящие за рамки наших текущих тестов. В рамках этого процесса мы сравнили производительность нашей модели при добавлении подписей к изображениям, связанным с полом и цветом кожи, и пропустили сгенерированные нашей моделью подписи через Google Perspective API, который оценивает токсичность текста. Хотя первоначальные результаты являются положительными, решающее значение имеют дополнительные исследования по оценке этических рисков в мультимодальных системах, и мы призываем людей тщательно оценить и рассмотреть эти вопросы, прежде чем думать о развертывании таких систем в реальном мире.
Мультимодальные возможности необходимы для важных приложений искусственного интеллекта, таких как помощь слабовидящим с повседневными визуальными проблемами или улучшение выявления разжигающего ненависть контента В интернете. Flamingo позволяет оперативно адаптироваться к этим примерам и другим задачам без изменения модели. Интересно, что модель демонстрирует готовые возможности мультимодального диалога, как показано здесь.
Flamingo — это эффективное и действенное семейство моделей общего назначения, которые можно применять для задач понимания изображений и видео с минимальным количеством примеров, специфичных для конкретных задач. Такие модели, как Flamingo, обещают принести практическую пользу обществу, и мы продолжаем совершенствовать их гибкость и возможности, чтобы их можно было безопасно использовать на благо каждого. Возможности Flamingo открывают путь к богатому взаимодействию с изученными моделями визуального языка, которые могут обеспечить лучшую интерпретируемость и новые интересные приложения, такие как визуальный помощник, который помогает людям в повседневной жизни – и мы пока довольны результатами.