Введение
За последнее десятилетие технология искусственного интеллекта (ИИ) сделала невероятные шаги вперед. В своей статье в New York Times обозреватель технологий Кевин Руз недавно заявил, что «золотой век прогресса» для ИИ.
Этот прогресс был бы невозможен без усовершенствований в технологии машинного обучения (ML), включая методы глубокого обучения и обучения с подкреплением. Еще одним фактором стало появление аппаратного обеспечения для поддержки запуска сложных в вычислительном отношении моделей ИИ. Некоторые из событий были медленными и устойчивыми, тогда как другие представлялись как прорыв.
AlphaFold от DeepMind стал одним из таких прорывов в научной сфере. Их технология Xland намерена повторить успех.
Читайте также: Является ли глубокое обучение контролируемым или неконтролируемым?
Что такое XLand?
XLand — это цифровая 3D-среда обучения агентов искусственного интеллекта. Окружающая среда напоминает красочную игровую площадку, похожую на видеоигру. На этой игровой площадке перед игроками стоят миллиарды различных задач, которые им необходимо решить.
В этом отношении XLand похож на другие инструменты обучения искусственному интеллекту. По мере того, как мы глубже погружаемся в эту новую версию, становится ясно, насколько далеко зашла эта среда.
Этот инструмент — гораздо больше, чем просто игровая площадка для искусственного интеллекта. Задачи ставятся путем изменения состава среды, правил игры и количества игроков. Также есть менеджер игровой площадки, отвечающий за адаптацию правил и планировку среды. Игроки — это искусственные агенты, которые используют XLand для решения постепенно усложняющихся задач.
И менеджеры игровых площадок, и игроки с искусственным интеллектом используют технику, называемую обучением с подкреплением. Они учатся методом проб и ошибок, их вознаграждают за правильное решение проблемы и наказывают, если они делают что-то неправильно.
Читайте также: Искусственный интеллект-самоучка положит нам конец
Характеристики XLand
Помимо использования обучения с подкреплением, XLand основан на открытом обучении. В этом смысле этот инструмент напоминает то, как учатся люди. Например, играющие дети учатся, не имея четкой цели. Они просто исследуют свое окружение с помощью разных игрушек, чтобы лучше понять свой мир.
Вот некоторые основные характеристики Xland:
- Обучение идет от простых задач к сложным.
- Обучение является открытым и основано на подкреплении.
- Игроки учатся, экспериментируя
В среде Xland игроки с искусственным интеллектом начинают с малого, а затем переходят к более сложным задачам. Эта особенность является еще одной параллелью человеческого обучения. Младенцы склонны играть с простыми игрушками, решая легкие задачи. По мере того, как они становятся старше, их игрушки становятся более сложными, в какой-то момент охватывая целые миры.
Игроки с искусственным интеллектом в XLand начинают с однопользовательских игр, основанных на простых задачах, таких как определение формы определенного цвета. Как только они хорошо покажут себя в простых однопользовательских играх, XLand предложит игрокам более сложные задачи. Задачи становятся сложнее, и в игру добавляется больше игроков.
XLand бросил вызов некоторым своим игрокам, предложив до 4000 миров и сотни тысяч различных игр. Некоторые выполнили более трёх миллионов уникальных заданий. Обучение в окружающей среде является открытым, а это означает, что не существует единственного наилучшего варианта действий в каждой ситуации.
Это явное отклонение от того, как работает большинство существующих инструментов обучения с подкреплением. С Xland ИИ-игрокам разрешено экспериментировать. Они могут попробовать одно решение, чтобы увидеть, что произойдет, вместо того, чтобы ограничиваться решениями «да» или «нет». Они также могут попытаться использовать объекты как инструменты, чтобы добраться до другого объекта или спрятаться за чем-то достаточно большим. Опять же, идея заключается не в том, чтобы ограничивать обучение, а в том, чтобы позволить игрокам учиться так же, как учатся люди.
Человеческие дети экспериментируют со своими игрушками и едой. Они познают окружающий мир естественным и итеративным образом. Например, в более позднем возрасте ученые все еще применяют принцип экспериментирования. Хотя они обычно руководствуются гипотезой, а не задают совершенно открытый вопрос, ученые открыты для совершенно неожиданных открытий в процессе экспериментов.
Теории интеллекта
Идея искусственного интеллекта существует уже почти 100 лет. Хотя некоторые источники взломщик кредитных кодов Алан Тьюринг с закладкой основ сегодняшнего ИИ, это было Марвин Мински из Дартмутского колледжа который ввел этот термин в 1956 году.
ИИ позволяет машинам выполнять задачи, имитируя человеческий интеллект. Эта технология не заменяет тип интеллекта, демонстрируемый людьми или животными, а вместо этого дополняет и копирует его. Эти основы не изменились с первых дней существования ИИ. Однако изменилось то, что эта технология вошла во все аспекты нашей жизни. От предлагаемого просмотра на потоковых сервисах до домашних помощников, таких как Alexa от Apple, мы окружены приложениями искусственного интеллекта.
Чтобы лучше понять современный ИИ, полезно разделить его на две категории – узкий и широкий или общий искусственный интеллект. Приведенные выше примеры представляют собой узкое представление ИИ. Даже чат-боты подпадают под узкие области применения ИИ.
Общий ИИ — это гораздо более широкое применение технологии ИИ, направленное на то, чтобы приблизиться к гибкости и адаптируемости человеческого мозга. На данный момент настоящий универсальный ИИ остается скорее концепцией, чем реальностью. Однако такие инструменты, как XLand, возможно, начинают менять ситуацию.
Различия и проблемы между симуляциями и реальным миром
Моделирование необходимо для машинного обучения и любого обучения приложений искусственного интеллекта. Они позволяют машинам сокращать срок накопленного опыта, который приносит пользу людям. Без моделирования машинам, вероятно, потребуются годы, чтобы овладеть человеческими навыками.
Однако какими бы мощными ни были симуляции, они не могут идеально отразить реальность. Об этом говорят эксперты»несоответствие между смоделированной и реальной средой» и сложность передачи опыта от одного к другому как разрыв реальности. Хотя моделирование возможно улучшить, этот тип оптимизации требует исключительных усилий, что делает моделирование несколько менее эффективным.
Плюс у большинства симуляторов есть недостатки. Мощные алгоритмы машинного обучения позволяют использовать эти недостатки и эффективно обманывать симуляцию. Проблема в том, что обман осуществляется способами, которые в реальности не работают.
Технологии совершенствуются, а разрыв между симуляцией и реальностью сокращается. Однако на данный момент сочетание моделирования и реальности остается лучшим способом обучения приложений RL.
Проблемы глубокого обучения с подкреплением
Прежде чем рассматривать проблемы глубокого обучения с подкреплением, стоит уточнить некоторую терминологию. Обучение с подкреплением является частью машинного обучения. Машинное обучение означает, что машины, такие как компьютеры, обучаются на основе данных без необходимости дополнительного вмешательства человека.
Глубокое обучение развивает этот подход еще на шаг вперед, позволяя машине анализировать и обрабатывать огромные объемы данных. Данные могут быть неструктурированными, например изображения, аудиофайлы и текст. Глубокое обучение позволяет компьютерам обрабатывать гораздо больше данных, чем люди. Для этого компьютер использует навыки, которые обычно связаны с человеческим интеллектом. Они включают в себя обучение, решение проблем, наблюдение и, конечно же, способность анализировать данные.
Обучение с подкреплением (RL) предполагает процесс проб и ошибок. Глубокое обучение с подкреплением использует тот же принцип, но работает с большими объемами данных. Обычно в RL игроки с искусственным интеллектом участвуют в раунде за раундом игр, при этом им приходится повторять процесс с нуля всякий раз, когда им нужно изучить другую игру.
Это ограничение RL — одна из самых больших проблем, которую приходится преодолевать разработчикам при использовании этих принципов. Обучение одной игре за раз — относительно медленный процесс по сравнению со способностью человека адаптировать уже приобретенные навыки к новому сценарию.
Станем ли мы на шаг ближе к общему ИИ с Xland?
Было бы справедливо называть общий ИИ Святым Граалем искусственного интеллекта. На сегодняшний день общий ИИ остается лишь концепцией. Мнения расходятся относительно когда мир достигнет этой стадии. Некоторые ученые предсказывают, что ИИ станет реальностью менее чем через 20 лет. Другие считают, что из-за нашего ограниченного понимания человеческого мозга до создания настоящего универсального ИИ могут уйти столетия.
Итак, какую роль в этом процессе играет XLand? XLand ломает стереотипы обучения с подкреплением, какими мы их знаем. Вместо того, чтобы повторять один и тот же процесс RL снова и снова, XLand предлагает агентам ИИ новые задачи и обучает их таким образом, чтобы побуждать их применять уже изученное поведение.
Пока что результаты многообещающие. Владельцы Xland DeepMind обнаружили, что их обучение приводит к «более широко способные агенты.«Они замечают появление эвристического поведения, а не весьма специфического поведения, которое обычно демонстрируют агенты ИИ при выполнении отдельных задач. Команда DeepMind также стала свидетелем того, как агенты экспериментируют, когда они не уверены в точном решении, которое можно применить в конкретной ситуации.
На данный момент разработчикам еще предстоит пройти некоторый путь, прежде чем технология искусственного интеллекта станет действительно универсальным ИИ. Однако такие инструменты, как XLand, приближают нас на несколько шагов к цели. Изменив способ обучения с подкреплением обучения игроков с искусственным интеллектом и создав более человечную среду обучения, XLand может трансформировать обучение искусственного интеллекта, в результате чего игроки станут гораздо более способными.