Исследовать
Новый тест для оценки мультимодальных систем на основе реальных видео, аудио и текстовых данных.
Из Тест Тьюринга к ImageNetТесты сыграли важную роль в формировании искусственного интеллекта (ИИ), помогая определить цели исследований и позволяя исследователям измерять прогресс в достижении этих целей. Невероятные прорывы за последние 10 лет, такие как АлексНет в компьютерном зрении и АльфаФолд в сворачивании белков тесно связаны с использованием эталонных наборов данных, что позволяет исследователям ранжировать дизайн моделей и варианты обучения, а также выполнять итерации для улучшения своих моделей. Поскольку мы работаем над созданием общего искусственного интеллекта (AGI), разработка надежных и эффективных тестов, расширяющих возможности моделей ИИ, так же важна, как и разработка самих моделей.
Восприятие – процесс познания мира посредством чувств – является важной частью интеллекта. А создание агентов с перцептивным пониманием мира на уровне человека — центральная, но сложная задача, которая становится все более важной в робототехнике, беспилотных автомобилях, личных помощниках, медицинской визуализации и многом другом. Итак, сегодня мы представляем Тест на восприятиемультимодальный тест, использующий реальные видео, помогающий оценить возможности восприятия модели.
Разработка эталона восприятия
Многие тесты, связанные с восприятием, в настоящее время используются в исследованиях ИИ, например Кинетика для распознавания видеодействий, Аудиосеть для классификации аудиособытий, ТО для отслеживания объекта или VQA для изображений-вопросов-ответов. Эти тесты привели к удивительному прогрессу в построении и разработке архитектур моделей ИИ и методов обучения, но каждый из них нацелен только на ограниченные аспекты восприятия: тесты изображений исключают временные аспекты; визуальный ответ на вопросы имеет тенденцию фокусироваться на понимании семантической сцены высокого уровня; Задачи отслеживания объектов обычно фиксируют внешний вид отдельных объектов более низкого уровня, например цвет или текстуру. И очень немногие тесты определяют задачи как для аудио, так и для визуальных модальностей.
Мультимодальные модели, такие как Perceiver, Flamingo или БЭиТ-3, стремятся быть более общими моделями восприятия. Но их оценки были основаны на нескольких специализированных наборах данных, поскольку специального теста не было. Этот процесс медленный, дорогостоящий и не полностью охватывает общие способности восприятия, такие как память, что затрудняет сравнение методов исследователями.
Чтобы решить многие из этих проблем, мы создали набор данных специально разработанных видеороликов о реальных действиях, размеченных в соответствии с шестью различными типами задач:
- Отслеживание объекта: в начале видео вокруг объекта предоставляется рамка, модель должна возвращать полную дорожку на протяжении всего видео (в том числе посредством окклюзий).
- Отслеживание точек: точка выбрана в начале видео, модель должна отслеживать точку на протяжении всего видео (также посредством окклюзий).
- Временная локализация действия: модель должна временно локализовать и классифицировать заранее определенный набор действий.
- Временная локализация звука: модель должна временно локализовать и классифицировать заранее определенный набор звуков.
- Видеовопрос-ответ с несколькими вариантами ответов: текстовые вопросы о видео, каждый из которых предлагает три варианта ответа.
- Обоснованное видео-вопрос-ответ: текстовые вопросы о видео, модели необходимо вернуть один или несколько треков объекта.
Мы черпали вдохновение из того, как детское восприятие оценивается в психологии развития, а также из синтетических наборов данных, таких как ОБСЛУЖИВАНИЕ и УМНЫЙи разработал 37 видеосценариев, каждый из которых имеет разные варианты, чтобы обеспечить сбалансированный набор данных. Каждый вариант был снят по меньшей мере дюжиной участников краудсорсинга (аналогично предыдущей работе над Шарады и Что-то что-то), с общим количеством участников более 100, в результате чего было создано 11 609 видеороликов средней продолжительностью 23 секунды.
В видеороликах показаны простые игры или повседневные занятия, которые позволят нам определить задачи, для решения которых необходимы следующие навыки:
- Знание семантики: аспекты тестирования, такие как выполнение задач, распознавание объектов, действий или звуков.
- Понимание физики: столкновения, движение, окклюзии, пространственные отношения.
- Временное мышление или память: временное упорядочение событий, подсчет во времени, обнаружение изменений в сцене.
- Способности к абстракции: сопоставление форм, одинаковые/разные понятия, обнаружение закономерностей.
Краудсорсинговые участники снабдили видео пространственными и временными аннотациями (дорожки ограничивающей рамки объекта, дорожки точек, сегменты действий, звуковые сегменты). Наша исследовательская группа разработала вопросы для каждого типа сценария для задач с множественным выбором и обоснованных ответов на видеовопросы, чтобы обеспечить хорошее разнообразие проверяемых навыков, например вопросы, которые проверяют способность рассуждать контрафактно или давать объяснения для данной ситуации. Соответствующие ответы для каждого видео снова предоставили участники краудсорсинга.
Оценка мультимодальных систем с помощью теста восприятия
Мы предполагаем, что модели были предварительно обучены на внешних наборах данных и задачах. Тест на восприятие включает небольшой набор тонких настроек (20%), который создатели моделей могут при желании использовать, чтобы донести до моделей характер задач. Остальные данные (80%) состоят из общедоступной проверки и отложенной тестовой части, где производительность можно оценить только через наш оценочный сервер.
Здесь мы показываем схему настройки оценки: на входе — видео- и аудиопоследовательность, а также спецификация задачи. Задача может быть в текстовой форме высокого уровня для визуального ответа на вопрос или ввода низкого уровня, например, координаты ограничивающей рамки объекта для задачи отслеживания объекта.
Результаты оценки детализируются по нескольким измерениям, и мы измеряем способности по шести вычислительным задачам. Для визуальных задач на ответы на вопросы мы также предоставляем сопоставление вопросов по типам ситуаций, показанных в видеороликах, и типам рассуждений, необходимых для ответа на вопросы, для более детального анализа (см. наша газета Больше подробностей). Идеальная модель максимизировала бы оценки по всем радиолокационным графикам и всем измерениям. Это детальная оценка навыков модели, позволяющая нам сузить области улучшения.
Обеспечение разнообразия участников и сцен, показанных в видеороликах, было решающим фактором при разработке эталонного показателя. Для этого мы отобрали участников из разных стран разной национальности и пола и стремились обеспечить разнообразное представительство в каждом типе видеосценария.
Узнайте больше о тесте на восприятие
Тест на восприятие общедоступен. здесь и более подробную информацию можно найти в наша газета. Скоро также будут доступны таблица лидеров и сервер испытаний.
23 октября 2022 года мы проводим мастер-класс по моделям общего восприятия на Европейской конференции по компьютерному зрению в Тель-Авиве (ЕСКВ 2022), где мы обсудим наш подход, а также способы разработки и оценки моделей общего восприятия с другими ведущими экспертами в этой области.
Мы надеемся, что тест на восприятие вдохновит и направит дальнейшие исследования в области общих моделей восприятия. В дальнейшем мы надеемся сотрудничать с мультимодальным исследовательским сообществом, чтобы добавить в эталонный тест дополнительные аннотации, задачи, метрики или даже новые языки.
Если вы хотите внести свой вклад, свяжитесь с нами, отправив электронное письмо на восприятие-test@google.com!