Понимание физического мира — важнейший навык, который большинство людей применяет без особых усилий. Однако это по-прежнему представляет собой проблему для искусственного интеллекта; если мы хотим развернуть безопасные и полезные системы в реальном мире, мы хотим, чтобы эти модели разделяли наше интуитивное понимание физики. Но прежде чем мы сможем построить эти модели, существует еще одна проблема: как мы будем измерять способность этих моделей понимать физический мир? То есть, что значит понимать физический мир и как мы можем его измерить?
К счастью для нас, психологи развития потратили десятилетия на изучение того, что младенцы знают о физическом мире. Попутно они превратили туманное понятие физических знаний в конкретный набор физических концепций. И они разработали парадигму нарушения ожиданий (VoE) для тестирования этих концепций на младенцах.
В нашей статье, опубликованной сегодня в журнале Nature Human Behavior, мы расширили их работу и открыли исходный код Набор данных физических концепций. Этот синтетический набор видеоданных использует парадигму VoE для оценки пяти физических понятий: твердости, устойчивости объекта, непрерывности, «неизменяемости» и инерции направления.
Имея в руках эталон физических знаний, мы обратились к задаче создания модели, способной изучать физический мир. И снова мы обратились за вдохновением к психологам развития. Исследователи не только систематизировали то, что младенцы знают о физическом мире, но и установили механизмы, которые могут обеспечить такое поведение. Несмотря на вариативность, эти теории играют центральную роль в идее разделения физического мира на набор объекты которые развиваются во времени.
Вдохновленные этой работой, мы создали систему, которую назвали PLATO (Физическое обучение посредством автоматического кодирования и отслеживания объектов). ПЛАТОН представляет и рассуждает о мире как о множестве объектов. Он делает прогнозы о том, где объекты будут находиться в будущем, основываясь на том, где они были в прошлом и с какими другими объектами они взаимодействуют.
После обучения PLATO на видео простых физических взаимодействий мы обнаружили, что PLATO прошел тесты в нашем наборе данных Physical Concepts. Кроме того, мы обучили «плоские» модели, которые были такими же большими (или даже больше), чем PLATO, но не использовали объектно-ориентированные представления. Когда мы протестировали эти модели, мы обнаружили, что они не прошли все наши тесты. Это говорит о том, что объекты полезны для изучения интуитивной физики, подтверждая гипотезы из литературы по развитию.
Мы также хотели определить, какой опыт необходим для развития этого потенциала. Доказательства физических знаний были продемонстрированы у младенцев в возрасте двух с половиной месяцев. Как выглядит PLATO в сравнении? Варьируя объем обучающих данных, используемых PLATO, мы обнаружили, что PLATO может изучить наши физические концепции всего за 28 часов визуального опыта. Ограниченный и синтетический характер нашего набора данных означает, что мы не можем провести аналогичное сравнение между количеством визуальных впечатлений, полученных младенцами, и PLATO. Однако этот результат предполагает, что интуитивной физике можно научиться с относительно небольшим опытом, если она поддерживается индуктивным предубеждением в представлении мира в виде объектов.
Наконец, мы хотели проверить способность ПЛАТО обобщать. В наборе данных Physical Concepts все объекты из нашего тестового набора также присутствуют в обучающем наборе. Что, если мы протестируем PLATO с объектами, которые он никогда раньше не видел? Для этого мы использовали подмножество другого синтетического набор данных разработанный исследователями из Массачусетского технологического института. Этот набор данных также исследует физические знания, хотя и с другим внешним видом и набором объектов, которые ПЛАТО никогда раньше не видел. ПЛАТО прошел без какой-либо переподготовки, несмотря на то, что его тестировали на совершенно новых стимулах.
Мы надеемся, что этот набор данных сможет предоставить исследователям более конкретное понимание способностей их модели понимать физический мир. В будущем это можно будет расширить, чтобы проверить больше аспектов интуитивной физики, увеличив список тестируемых физических концепций и используя более богатые визуальные стимулы, включая новые формы объектов или даже видеоролики из реального мира.