Успешное управление плазмой ядерного синтеза в токамаке с помощью глубокого обучения с подкреплением
Чтобы решить глобальный энергетический кризис, исследователи давно искали источник чистой, безграничной энергии. Ядерный синтез, реакция, питающая звезды во Вселенной, является одним из претендентов. Разбивая и сплавляя водород, обычный элемент морской воды, мощный процесс высвобождает огромное количество энергии. Здесь, на Земле, ученые воссоздали эти экстремальные условия, используя токамак, вакуум в форме пончика, окруженный магнитными катушками, который используется для содержания плазмы водорода, которая горячее, чем ядро Солнца. Однако плазма в этих машинах по своей природе нестабильна, что делает поддержание процесса, необходимого для ядерного синтеза, сложной задачей. Например, система управления должна координировать множество магнитных катушек токамака и регулировать напряжение на них тысячи раз в секунду, чтобы гарантировать, что плазма никогда не коснется стенок сосуда, что может привести к потере тепла и, возможно, к повреждению. Чтобы помочь решить эту проблему и в рамках миссии DeepMind по развитию науки, мы сотрудничали с Швейцарский плазменный центр в EPFL разработать первую систему глубокого обучения с подкреплением (RL), чтобы автономно обнаруживать, как управлять этими катушками и успешно удерживать плазму в токамаке, открывая новые возможности для продвижения исследований ядерного синтеза.
В статья опубликована сегодня в Nature, мы описываем, как мы можем успешно управлять плазмой ядерного синтеза, создавая и запуская контроллеры на токамаке переменной конфигурации (TCV) в Лозанне, Швейцария. Используя архитектуру обучения, которая сочетает в себе глубокое RL и симулированную среду, мы создали контроллеры, которые могут поддерживать стабильность плазмы и использоваться для точного придания ей различных форм. Эта «лепка плазмы» показывает, что система RL успешно контролировала перегретое вещество и, что важно, позволяет ученым исследовать, как плазма реагирует в различных условиях, улучшая наше понимание термоядерных реакторов.
«За последние два года DeepMind продемонстрировал потенциал ИИ для ускорения научного прогресса и открытия совершенно новых направлений исследований в области биологии, химии, математики, а теперь и физики».
Демис Хассабис, соучредитель и генеральный директор DeepMind
Эта работа — еще один яркий пример того, как машинное обучение и экспертные сообщества могут объединиться для решения грандиозных задач и ускорения научных открытий. Наша команда усердно работает, применяя этот подход в таких разнообразных областях, как квантовая химия, чистая математика, дизайн материалов, прогнозирование погоды и т. д., чтобы решать фундаментальные проблемы и обеспечивать, чтобы ИИ приносил пользу человечеству.
Обучение, когда данные трудно получить
Исследования в области ядерного синтеза в настоящее время ограничены возможностями исследователей проводить эксперименты. Хотя по всему миру существуют десятки действующих токамаков, они дороги и пользуются большим спросом. Например, TCV может поддерживать плазму в одном эксперименте только до трех секунд, после чего ему требуется 15 минут для охлаждения и сброса перед следующей попыткой. Мало того, несколько исследовательских групп часто совместно используют токамак, что еще больше ограничивает время, доступное для экспериментов.
Учитывая текущие препятствия для доступа к токамаку, исследователи обратились к симуляторам, чтобы помочь продвинуть исследования. Например, наши партнеры из EPFL создали мощный набор инструментов для моделирования динамики токамаков. Мы смогли использовать их, чтобы позволить нашей системе RL научиться управлять TCV в моделировании, а затем проверить наши результаты на реальном TCV, показав, что мы можем успешно придавать плазме желаемую форму. Хотя это более дешевый и удобный способ обучения наших контроллеров; нам еще предстояло преодолеть множество барьеров. Например, симуляторы плазмы работают медленно и требуют много часов компьютерного времени для имитации одной секунды реального времени. Кроме того, состояние TCV может меняться изо дня в день, что требует от нас разработки алгоритмических улучшений, как физических, так и смоделированных, и адаптации к аппаратным реалиям.
Успех благодаря простоте и гибкости
Существующие системы управления плазмой сложны и требуют отдельных контроллеров для каждой из 19 магнитных катушек TCV. Каждый контроллер использует алгоритмы для оценки свойств плазмы в режиме реального времени и соответствующей регулировки напряжения магнитов. Напротив, наша архитектура использует единую нейронную сеть для одновременного управления всеми катушками, автоматически определяя, какие напряжения лучше всего подходят для достижения конфигурации плазмы непосредственно с датчиков.
В качестве демонстрации мы сначала показали, что можем управлять многими аспектами плазмы с помощью одного контроллера.
На видео выше мы видим плазму в верхней части TCV в тот момент, когда наша система берет на себя управление. Наш контроллер сначала формирует плазму в соответствии с запрошенной формой, затем сдвигает плазму вниз и отделяет ее от стенок, подвешивая посередине сосуда на двух ножках. Плазма удерживается неподвижно, что необходимо для измерения свойств плазмы. Затем, наконец, плазма направляется обратно в верхнюю часть сосуда и безопасно уничтожается.
Затем мы создали ряд форм плазмы, которые изучались физиками плазмы на предмет их полезности для производства энергии. Например, мы сделали форму «снежинки» с множеством «ножек», что могло помочь снизить стоимость охлаждения за счет распределения энергии выхлопа по разным точкам контакта на стенках сосуда. Мы также продемонстрировали форму, близкую к предложению для ИТЭР, строящийся токамак следующего поколения, поскольку EPFL проводила эксперименты по предсказанию поведения плазмы в ИТЭР. Мы даже сделали то, чего никогда раньше не делали в TCV, стабилизировав «каплю», в которой одновременно находятся две плазмы внутри сосуда. Наша единая система смогла найти контроллеры для всех этих различных условий. Мы просто изменили запрошенную нами цель, и наш алгоритм самостоятельно нашел подходящий контроллер.
Будущее синтеза и не только
Подобно прогрессу, который мы наблюдали при применении ИИ в других научных областях, наша успешная демонстрация управления токамаком демонстрирует способность ИИ ускорять и помогать науке о термоядерном синтезе, и мы ожидаем, что в будущем использование ИИ будет становиться все более изощренным. Эта возможность автономного создания контроллеров может быть использована для разработки новых видов токамаков с одновременным проектированием их контроллеров. Наша работа также указывает на светлое будущее обучения с подкреплением в управлении сложными машинами. Особенно интересно рассматривать области, в которых ИИ может расширить человеческий опыт, выступая в качестве инструмента для открытия новых и творческих подходов к решению сложных реальных проблем. Мы прогнозируем, что в ближайшие годы обучение с подкреплением станет преобразующей технологией для промышленных и научных приложений управления, начиная от энергоэффективности и заканчивая персонализированной медициной.