Home Технологии Исследование преобразователей изображения и языка для понимания глаголов | DeepTech

Исследование преобразователей изображения и языка для понимания глаголов | DeepTech

0
Исследование преобразователей изображения и языка для понимания глаголов
 | DeepTech

Привязка языка к зрению является фундаментальной проблемой для многих реальных систем искусственного интеллекта, таких как получение изображений или создание описаний для людей с нарушениями зрения. Для успеха в решении этих задач необходимо, чтобы модели связывали различные аспекты языка, такие как объекты и глаголы, с изображениями. Например, чтобы различать два изображения в среднем столбце ниже, модели должны различать глаголы «поймать» и «пинать». Понимание глаголов особенно сложно, поскольку оно требует не только распознавания объектов, но и того, как различные объекты на изображении соотносятся друг с другом. Чтобы преодолеть эту трудность, мы представляем набор данных SVO-Probes и используем его для исследования моделей языка и зрения на предмет понимания глаголов.

В частности, мы рассматриваем модели мультимодальных преобразователей (например, Лу и др., 2019; Чен и др., 2020; Тан и Бансал, 2019; Ли и др., 2020), которые показали успех на различных языках и взглядах. задания. Однако, несмотря на высокие результаты в тестах, неясно, имеют ли эти модели детальное понимание мультимодальности. В частности, предыдущая работа показывает, что модели языка и зрения могут успешно справляться с тестами без мультимодального понимания: например, отвечая на вопросы об изображениях, основываясь только на языковых априорах (Agrawal et al., 2018), или «галлюцинируя» объекты, которых нет в изображении. при субтитрах к изображениям (Рорбах и др., 2018). Чтобы предвидеть ограничения модели, поработайте, как Шекхар и др. предложить специализированные оценки для систематического изучения моделей понимания языка. Однако предыдущие наборы проб ограничены по количеству объектов и глаголов. Мы разработали SVO-Probes, чтобы лучше оценить потенциальные ограничения в понимании глаголов в текущих моделях.

SVO-Probes включает в себя 48 000 пар изображений и предложений и проверяет понимание более 400 глаголов. Каждое предложение можно разбить на тройку <Подлежащее, Глагол, Объект> (или тройку SVO) и соединить с положительными и отрицательными примерами изображений. Отрицательные примеры отличаются только одним: изменяются Подлежащее, Глагол или Дополнение. На рисунке выше показаны негативные примеры, в которых подлежащее (слева), глагол (в центре) или дополнение (справа) не соответствует изображению. Такая постановка задачи позволяет выделить, с какими частями предложения у модели возникают наибольшие затруднения. Это также делает SVO-зонды более сложными, чем стандартные задачи поиска изображений, где отрицательные примеры часто совершенно не связаны с запросом.

Для создания SVO-Probes мы запросить поиск изображений с тройками SVO из общего набора обучающих данных Conceptual Captions (Шарма и др., 2018). Поскольку поиск изображений может быть зашумлен, на предварительном этапе аннотации полученные изображения фильтруются, чтобы обеспечить чистый набор пар изображение-SVO. Поскольку преобразователи обучаются на парах изображение-предложение, а не на парах изображение-SVO, нам нужны пары изображение-предложение для проверки нашей модели. Чтобы собрать предложения, описывающие каждое изображение, аннотаторы пишут для каждого изображения короткое предложение, включающее тройку SVO. Например, учитывая тройку SVO <животное, ложь, трава>, аннотатор мог бы написать предложение «Животное лежит в траве». Затем мы используем аннотации SVO, чтобы соединить каждое предложение с негативным изображением, и просим аннотаторов проверить негативы на последнем этапе аннотации. Подробности смотрите на рисунке ниже.

Мы исследуем, могут ли мультимодальные преобразователи точно классифицировать примеры как положительные или отрицательные. Гистограмма ниже иллюстрирует наши результаты. Наш набор данных сложен: наша стандартная модель мультимодального трансформатора в целом достигает точности 64,3% (вероятность составляет 50%). В то время как точность составляет 67,0% и 73,4% для предметов и объектов соответственно, производительность падает до 60,8% для глаголов. Этот результат показывает, что распознавание глаголов действительно является сложной задачей для зрительных и языковых моделей.

Мы также исследуем, какие архитектуры моделей лучше всего работают в нашем наборе данных. Удивительно, но модели с более слабым моделированием изображения работают лучше, чем стандартная модель-трансформер. Одна из гипотез заключается в том, что наша стандартная модель (с более сильными возможностями моделирования изображений) подходит для набора поездов. Поскольку обе эти модели хуже справляются с другими задачами, связанными с языком и зрением, наша целевая тестовая задача выявляет слабые места модели, которые не наблюдаются в других тестах.

В целом мы обнаружили, что, несмотря на впечатляющие результаты тестов, мультимодальные преобразователи по-прежнему испытывают трудности с детальным пониманием, особенно с детальным пониманием глаголов. Мы надеемся, что SVO-Probes поможет стимулировать изучение понимания глаголов в моделях языка и зрения и вдохновит на создание более целевых наборов данных зондов.

Посетите наши SVO-зонды эталон и модели на GitHub: тесты и модели.

LEAVE A REPLY

Please enter your comment!
Please enter your name here