Home Технологии AlphaFold: использование ИИ для научных открытий | DeepTech

AlphaFold: использование ИИ для научных открытий | DeepTech

0
AlphaFold: использование ИИ для научных открытий
 | DeepTech

Исследовать

Опубликовано
Авторы

Эндрю Сеньор, Джон Джампер, Демис Хассабис

В июле 2022 года мы опубликовали прогнозы структуры белков AlphaFold почти для всех известных науке каталогизированных белков. Прочтите последний блог здесь.

Мы рады поделиться первой важной вехой DeepMind в демонстрации того, как исследования искусственного интеллекта могут стимулировать и ускорять новые научные открытия. Используя строго междисциплинарный подход к нашей работе, DeepMind объединила экспертов в области структурной биологии, физики и машинного обучения, чтобы применить передовые методы для прогнозирования трехмерной структуры белка, основываясь исключительно на его генетической последовательности.

Наша система, АльфаФолд, над которым мы работаем последние два года, основан на многолетних предыдущих исследованиях по использованию обширных геномных данных для прогнозирования структуры белка. 3D-модели белков, которые создает AlphaFold, гораздо более точны, чем любые предыдущие, что позволяет добиться значительного прогресса в решении одной из основных задач биологии.

В чем заключается проблема сворачивания белка?

Белки — это большие сложные молекулы, необходимые для поддержания жизни. Почти каждую функцию, которую выполняет наше тело — сокращение мышц, восприятие света или превращение пищи в энергию — можно объяснить одним или несколькими белками и тем, как они движутся и изменяются. Рецепты этих белков, называемых генами, закодированы в нашей ДНК.

То, что может делать тот или иной белок, зависит от его уникальной трехмерной структуры. Например, белки антител, составляющие нашу иммунную систему, имеют Y-образную форму и подобны уникальным крючкам. Прикрепляясь к вирусам и бактериям, белки антител способны обнаруживать и помечать болезнетворные микроорганизмы для их уничтожения. Точно так же белки коллагена имеют форму шнуров, которые передают напряжение между хрящами, связками, костями и кожей. Другие типы белков включают Cas9, который, используя в качестве ориентира последовательности CRISPR, действует как ножницы, разрезая и вставляя участки ДНК; белки-антифризы, трехмерная структура которых позволяет им связываться с кристаллами льда и предотвращать замерзание организмов; и рибосомы, которые действуют как запрограммированный конвейер и помогают создавать белки самостоятельно.

Но выяснение трехмерной формы белка исключительно на основе его генетической последовательности — сложная задача, которую ученые считали сложной на протяжении десятилетий. Проблема в том, что ДНК содержит информацию только о последовательности строительных блоков белка, называемых аминокислотными остатками, которые образуют длинные цепи. Предсказание того, как эти цепи будут складываться в сложную трехмерную структуру белка, известно как «проблема сворачивания белка».

Чем больше белок, тем сложнее его моделировать, поскольку необходимо учитывать больше взаимодействий между аминокислотами. Как отмечено в Парадокс Левинталяпотребовалось бы больше времени, чем возраст Вселенной, чтобы перечислить все возможные конфигурации типичного белка, прежде чем достичь правильной трехмерной структуры.

Почему важно сворачивание белка?

Способность предсказывать форму белка полезна для ученых, поскольку она имеет фундаментальное значение для понимания его роли в организме, а также для диагностики и лечения заболеваний, которые, как полагают, вызваны неправильной укладкой белков, таких как болезнь Альцгеймера, болезнь Паркинсона, Хантингтона и муковисцидоз.

Мы особенно воодушевлены тем, как это может улучшить наше понимание тела и того, как оно работает, позволяя ученым более эффективно разрабатывать новые, эффективные лекарства от болезней. По мере того, как мы приобретаем больше знаний о форме белков и о том, как они действуют с помощью моделирования и моделей, это открывает новый потенциал в разработке лекарств, а также снижает затраты, связанные с экспериментами. В конечном итоге это может улучшить качество жизни миллионов пациентов по всему миру.

Понимание сворачивания белков также поможет в проектировании белков, что может открыть огромное количество преимуществ. Например, достижения в области биоразлагаемых ферментов, которые могут стать возможными благодаря дизайну белков, могут помочь в борьбе с такими загрязнителями, как пластик и нефть, помогая нам расщеплять отходы способами, более безопасными для окружающей среды. Фактически, исследователи уже начали инженерные бактерии выделять белки, которые сделают отходы биоразлагаемыми и облегчающими переработку.

Чтобы стимулировать исследования и измерить прогресс в области новейших методов повышения точности прогнозов, проводится глобальный конкурс под названием CASP, проводимый раз в два года (Критическая оценка прогнозирования структуры белка) был установлен в 1994 году и стал золотым стандартом методов оценки.

Как ИИ может изменить ситуацию?

За последние пять десятилетий учёным удалось определить форму белков в лабораториях, используя такие экспериментальные методы, как криоэлектронная микроскопия, ядерный магнитный резонанс или Рентгеновская кристаллография, но каждый метод зависит от множества проб и ошибок, которые могут занять годы и стоить десятки тысяч долларов за структуру. Вот почему биологи обращаются к методам искусственного интеллекта как к альтернативе этому долгому и трудоемкому процессу для сложных белков.

К счастью, область геномики довольно богата данными благодаря быстрому снижению стоимости генетического секвенирования. В результате глубокое обучение подходы Проблемы прогнозирования, основанные на геномных данных, становятся все более популярными в последние несколько лет. Результатом работы DeepMind над этой проблемой стал AlphaFold, который мы представили CASP в этом году. Мы гордимся тем, что являемся частью того, что организаторы CASP назвали «беспрецедентным прогрессом в способности вычислительных методов предсказывать структуру белка». первый в рейтинге среди команд, принявших участие (наша запись — A7D).

Наша команда сосредоточилась конкретно на сложной задаче моделирования форм мишеней с нуля, без использования ранее решенных белков в качестве шаблонов. Мы достигли высокой степени точности при прогнозировании физических свойств белковой структуры, а затем использовали два разных метода для прогнозирования полных белковых структур.

Использование нейронных сетей для прогнозирования физических свойств

Оба эти метода основывались на глубоких нейронных сетях, которые обучены предсказывать свойства белка на основе его генетической последовательности. Наши сети предсказывают следующие свойства: (а) расстояния между парами аминокислот и (б) углы между химическими связями, соединяющими эти аминокислоты. Первая разработка представляет собой усовершенствование широко используемых методов оценки того, находятся ли пары аминокислот рядом друг с другом.

Мы обучили нейронную сеть предсказывать отдельное распределение расстояний между каждой парой остатков в белке. Эти вероятности затем были объединены в балл, который оценивает, насколько точна предлагаемая структура белка. Мы также обучили отдельную нейронную сеть, которая использует все расстояния в совокупности, чтобы оценить, насколько предложенная структура близка к правильному ответу.

Новые методы прогнозирования белковых структур

Используя эти оценочные функции, мы смогли исследовать белковый ландшафт и найти структуры, соответствующие нашим предсказаниям. Наш первый метод основан на методах, обычно используемых в структурной биологии, и неоднократно заменял части структуры белка новыми фрагментами белка. Мы обучили генеративную нейронную сеть изобретать новые фрагменты, которые использовались для постоянного улучшения оценки предложенной структуры белка.

Второй метод оптимизировал результаты за счет градиентный спуск— математический метод, обычно используемый в машинном обучении для внесения небольших, постепенных улучшений, — который привел к созданию очень точных структур. Этот метод был применен к целым белковым цепям, а не к частям, которые необходимо складывать отдельно перед сборкой, что снизило сложность процесса прогнозирования.

Что будет дальше?

Успех нашего первого исследования сворачивания белков свидетельствует о том, как системы машинного обучения могут интегрировать различные источники информации, чтобы помочь ученым быстро находить творческие решения сложных проблем. Точно так же, как мы видели, как ИИ может помочь людям освоить сложные игры с помощью таких систем, как АльфаГо и АльфаЗероМы также надеемся, что однажды прорывы в области ИИ помогут нам решить фундаментальные научные проблемы.

Очень интересно видеть первые признаки прогресса в сворачивании белков, демонстрирующие полезность ИИ для научных открытий. Несмотря на то, что предстоит проделать еще много работы, прежде чем мы сможем оказать количественное влияние на лечение болезней, управление окружающей средой и многое другое, мы знаем, что потенциал огромен. Благодаря специальной команде, которая занимается изучением того, как машинное обучение может улучшить мир науки, мы с нетерпением ждем возможности увидеть, как наши технологии могут изменить ситуацию.

LEAVE A REPLY

Please enter your comment!
Please enter your name here