Вместо использования изображений исследователи закодировали форму, цвет и положение в последовательности чисел. «Это гарантирует, что тесты не появятся ни в каких обучающих данных», — говорит Уэбб: «Я создал этот набор данных с нуля. Я никогда не слышал ни о чем подобном».
Митчелл впечатлен работой Уэбба. «Я нашла эту статью весьма интересной и провокационной», — говорит она. «Это хорошо проведенное исследование». Но у нее есть оговорки. Митчелл разработала свой собственный тест на рассуждение по аналогии под названием ConceptARC, в котором используются закодированные последовательности фигур, взятые из набора данных ARC (Abstraction and Reasoning Challenge), разработанного исследователем Google Франсуа Шолле. В экспериментах Митчелла GPT-4 показал худшие результаты, чем люди в таких тестах.
Митчелл также отмечает, что кодирование изображений в последовательности (или матрицы) чисел упрощает задачу для программы, поскольку устраняет визуальный аспект головоломки. «Решение цифровых матриц не равносильно решению задач Рэйвена», — говорит она.
Хрупкие испытания
Производительность больших языковых моделей нестабильна. Среди людей можно с уверенностью предположить, что тот, кто хорошо сдал тест, также преуспеет и в аналогичном тесте. С большими языковыми моделями дело обстоит иначе: небольшая поправка к тесту может понизить оценку A до F.
«В целом оценка ИИ не проводилась таким образом, чтобы позволить нам реально понять, какими возможностями обладают эти модели», — говорит Люси Чик, психолог из Кембриджского университета, Великобритания. «Совершенно разумно проверять, насколько хорошо система справляется с конкретной задачей, но бесполезно брать эту задачу и делать заявления об общих способностях».
Возьмите пример с статья, опубликованная в марте группой исследователей Microsoft, в котором они утверждали, что обнаружили «искры общего искусственного интеллекта» в GPT-4. Команда оценила большую языковую модель с помощью ряда тестов. В одном из них они спросили GPT-4, как устойчиво сложить книгу, девять яиц, ноутбук, бутылку и гвоздь. Он ответил: «Поместите ноутбук поверх яиц экраном вниз и клавиатурой вверх. Ноутбук плотно прилегает к границам книги и яиц, а его плоская и жесткая поверхность станет устойчивой платформой для следующего слоя».
Неплохо. Но когда Митчелл попробовала свою собственную версию вопроса, попросив GPT-4 сложить зубочистку, миску с пудингом, стакан воды и зефир, она предложила воткнуть зубочистку в пудинг, а зефир — в зубочистку, и балансируя полный стакан воды поверх зефира. (Оно заканчивалось полезным предостережением: «Имейте в виду, что эта стопка хрупкая и может быть не очень устойчивой. Будьте осторожны при ее сборке и обращении с ней, чтобы избежать разливов или несчастных случаев».)