«Самая важная проблема в беспилотном вождении — это безопасность», — говорит Абил. «Я думаю, что с такой системой, как LINGO-1, вы получите гораздо лучшее представление о том, насколько хорошо она понимает вождение в мире». По его словам, это облегчает выявление слабых мест.
«Следующий шаг — использовать язык для обучения машин», — говорит Кендалл. Для обучения LINGO-1 компания Wayve привлекла команду опытных водителей, некоторые из которых были бывшими инструкторами по вождению, которые громко разговаривали во время вождения, объясняя, что они делают и почему: почему они ускоряются, почему они замедляются, какую опасность они представляют. в курсе. Компания использует эти данные для точной настройки модели, давая ей советы по вождению, подобно тому, как инструктор обучает человека-ученика. По словам Кендалла, если вы говорите машине, как что-то делать, а не просто показываете ее, это значительно ускоряет обучение.
Wayve не первая компания, использующая большие языковые модели в робототехнике. Другие компании, в том числе Google и фирма Абила Covariant, используют естественный язык для опроса или обучения домашних или промышленных роботов. У гибридной технологии даже есть название: модели визуально-языкового действия (VLAM). Но Wayve — первая компания, которая использовала VLAM для самостоятельного вождения.
«Люди часто говорят, что изображение стоит тысячи слов, но в машинном обучении все наоборот», — говорит Кендалл. «Несколько слов могут стоить тысячи изображений». Изображение содержит много избыточных данных. «Когда вы едете, вас не волнует небо, цвет машины впереди и тому подобное», — говорит он. «Слова могут сосредоточиться на важной информации».
«Подход Wayve определенно интересен и уникален», — говорит Леррел Пинто, исследователь робототехники из Нью-Йоркского университета. В частности, ему нравится, как ЛИНГО-1 объясняет свои действия.
Но ему любопытно, что происходит, когда модель что-то выдумывает. «Я не верю, что большие языковые модели соответствуют действительности», — говорит он. «Я не уверен, могу ли я доверить им управление моей машиной».
Упол Эхсан, исследователь из Технологического института Джорджии, который работает над тем, как заставить ИИ объяснять людям процесс принятия решений, имеет аналогичные сомнения. «Большие языковые модели, выражаясь техническим языком, — это великая чушь», — говорит Эхсан. «Нам нужно приклеить ярко-желтую предупреждающую ленту и убедиться, что сгенерированный язык не является галлюцинацией».
Wayve хорошо осведомлена об этих ограничениях и работает над тем, чтобы LINGO-1 был максимально точным. «Мы видим те же проблемы, что и в любой большой языковой модели», — говорит Кендалл. «Это, конечно, не идеально».