Новый эталон для оценки мультимодальных систем на основе реальных видео-, аудио- и текстовых данных.
Из Тест Тьюринга к Имиджнет, контрольные показатели сыграли важную роль в формировании искусственного интеллекта (ИИ), помогая определить цели исследований и позволяя исследователям измерять прогресс в достижении этих целей. Невероятные прорывы за последние 10 лет, такие как АлексНет в компьютерном зрении и AlphaFold в фолдинге белков тесно связаны с использованием эталонных наборов данных, что позволяет исследователям ранжировать дизайн модели и варианты обучения, а также проводить итерации для улучшения своих моделей. Поскольку мы работаем над созданием искусственного общего интеллекта (AGI), разработка надежных и эффективных тестов, расширяющих возможности моделей ИИ, так же важна, как и разработка самих моделей.
Восприятие — процесс восприятия мира через органы чувств — составляет значительную часть интеллекта. А создание агентов с перцептивным пониманием мира на уровне человека — центральная, но сложная задача, которая становится все более важной в робототехнике, беспилотных автомобилях, личных помощниках, медицинской визуализации и многом другом. Итак, сегодня мы представляем Тест на восприятиемультимодальный тест, использующий видео из реального мира, чтобы помочь оценить возможности восприятия модели.
Разработка эталона восприятия
Многие тесты, связанные с восприятием, в настоящее время используются в исследованиях ИИ, например, Kinetics для распознавания видеодействий, Аудиосет для классификации аудио событий, ТО для отслеживания объектов или VQA для изображения вопрос-ответ. Эти тесты привели к удивительному прогрессу в том, как строятся и развиваются архитектуры моделей ИИ и методы обучения, но каждый из них нацелен только на ограниченные аспекты восприятия: тесты изображений исключают временные аспекты; визуальные ответы на вопросы, как правило, сосредоточены на понимании семантической сцены высокого уровня; Задачи отслеживания объектов обычно захватывают внешний вид отдельных объектов более низкого уровня, например цвет или текстуру. И очень немногие тесты определяют задачи как для аудио, так и для визуальных модальностей.
Мультимодальные модели, такие как Perceiver, Flamingo или БЭиТ-3, стремиться быть более общими моделями восприятия. Но их оценки были основаны на нескольких специализированных наборах данных, потому что не было специального эталона. Этот процесс медленный, дорогостоящий и обеспечивает неполный охват общих способностей восприятия, таких как память, что затрудняет сравнение методов для исследователей.
Чтобы решить многие из этих проблем, мы создали набор данных специально разработанных видеороликов о реальных действиях, помеченных в соответствии с шестью различными типами задач:
- Отслеживание объекта: вокруг объекта в начале видео предусмотрена рамка, модель должна возвращать полный трек на протяжении всего видео (в том числе через окклюзии).
- Отслеживание точек: точка выбрана в начале видео, модель должна отслеживать точку на протяжении всего видео (также через окклюзии).
- Временная локализация действия: модель должна временно локализовать и классифицировать предопределенный набор действий.
- Временная локализация звука: модель должна временно локализовать и классифицировать предопределенный набор звуков.
- Многовариантный видео вопрос-ответ: текстовые вопросы о видео, каждый из которых имеет три варианта ответа.
- Заземленное видео вопрос-ответ: текстовые вопросы о видео, модель должна вернуть одну или несколько дорожек объекта.
Мы черпали вдохновение из того, как восприятие детей оценивается в психологии развития, а также из синтетических наборов данных, таких как ОБСЛУЖИВАНИЕ и УМНЫЙ, и разработали 37 видеосценариев, каждый с различными вариациями, чтобы обеспечить сбалансированный набор данных. Каждая вариация была снята не менее чем дюжиной краудсорсинговых участников (аналогично предыдущей работе над шарады и Что-то что-то), в общей сложности более 100 участников, в результате чего было снято 11 609 видеороликов средней продолжительностью 23 секунды.
В видеороликах показаны простые игры или ежедневные действия, что позволило бы нам определить задачи, для решения которых требуются следующие навыки:
- Знание семантики: аспекты тестирования, такие как выполнение задачи, распознавание объектов, действий или звуков.
- Понимание физики: столкновения, движение, окклюзии, пространственные отношения.
- Временные рассуждения или память: временное упорядочение событий, подсчет во времени, обнаружение изменений в сцене.
- Абстракционные способности: сопоставление форм, одинаковые/разные понятия, обнаружение шаблонов.
Участники из краудсорсинга пометили видео пространственными и временными аннотациями (дорожки ограничивающей рамки объекта, точечные дорожки, сегменты действий, звуковые сегменты). Наша исследовательская группа разработала вопросы для каждого типа сценария для заданий с множественным выбором ответов и обоснованных видео-вопросов, чтобы обеспечить достаточное разнообразие проверяемых навыков, например, вопросы, которые исследуют способность рассуждать контрфактически или давать объяснения для данной ситуации. Соответствующие ответы для каждого видео снова были предоставлены участниками краудсорсинга.
Оценка мультимодальных систем с помощью теста восприятия
Мы предполагаем, что модели были предварительно обучены на внешних наборах данных и задачах. Тест восприятия включает в себя небольшой набор тонкой настройки (20%), который создатели моделей могут дополнительно использовать для передачи характера задач моделям. Остальные данные (80%) состоят из общедоступной проверочной сплит-системы и сплит-теста, где производительность можно оценить только через наш оценочный сервер.
Здесь мы показываем схему установки оценки: входные данные — видео- и аудиопоследовательность, а также спецификация задачи. Задача может быть в текстовой форме высокого уровня для визуального ответа на вопрос или в форме ввода низкого уровня, например координаты ограничивающей рамки объекта для задачи отслеживания объекта.
Результаты оценки детализированы по нескольким параметрам, и мы измеряем способности по шести вычислительным задачам. Для визуальных заданий на ответы на вопросы мы также предоставляем сопоставление вопросов по типам ситуаций, показанных в видеороликах, и типам рассуждений, необходимых для ответа на вопросы для более подробного анализа (см. наша газета Больше подробностей). Идеальная модель должна максимизировать баллы по всем радиолокационным графикам и всем измерениям. Это подробная оценка навыков модели, позволяющая нам сузить области улучшения.
Обеспечение разнообразия участников и сцен, показанных в видеороликах, было критическим соображением при разработке теста. Для этого мы отобрали участников из разных стран, разных национальностей и полов, и стремились к разнообразному представлению в каждом типе видеосценария.
Узнайте больше о тесте на восприятие
Бенчмарк Perception Test находится в открытом доступе здесь и более подробная информация доступна в наша газета. Таблица лидеров и сервер испытаний также будут доступны в ближайшее время.
23 октября 2022 года мы проводим мастер-класс по моделям общего восприятия на Европейской конференции по компьютерному зрению в Тель-Авиве (ЕССВ 2022), где мы обсудим наш подход, а также то, как разрабатывать и оценивать модели общего восприятия с другими ведущими экспертами в этой области.
Мы надеемся, что тест на восприятие вдохновит и направит дальнейшие исследования в сторону моделей общего восприятия. В будущем мы надеемся сотрудничать с мультимодальным исследовательским сообществом, чтобы добавить в тест дополнительные аннотации, задачи, показатели или даже новые языки.
Если вы заинтересованы в том, чтобы внести свой вклад, свяжитесь с нами по электронному адресу Percement-test@google.com.