Наша новая архитектура Enformer, основанная на трансформерах, продвигает вперед генетические исследования, улучшая способность предсказывать, как последовательность ДНК влияет на экспрессию генов.
Когда Проект генома человека удалось картировать последовательность ДНК генома человека, международное исследовательское сообщество было взволновано возможностью лучше понять генетические инструкции, влияющие на здоровье и развитие человека. ДНК несет генетическую информацию, которая определяет все, от цвета глаз до предрасположенности к определенным заболеваниям и расстройствам. Примерно 20 000 участков ДНК в организме человека, известных как гены, содержат инструкции об аминокислотной последовательности белков, которые выполняют множество важных функций в наших клетках. Однако эти гены составляют менее 2% генома. Остальные пары оснований, на долю которых приходится 98% из 3 миллиардов «букв» в геноме, называются «некодирующими» и содержат менее понятные инструкции о том, когда и где гены должны производиться или экспрессироваться в организме человека. В DeepMind мы считаем, что ИИ может открыть более глубокое понимание таких сложных областей, ускоряя научный прогресс и предлагая потенциальные преимущества для здоровья человека.
Сегодня Nature Methods опубликовали «Эффективное предсказание экспрессии генов по последовательности путем интеграции взаимодействий дальнего действия(впервые опубликовано в виде препринта на биоRxiv), в котором мы — в сотрудничестве с нашими коллегами по Alphabet в Калико — внедрить архитектуру нейронной сети под названием Enformer, которая значительно повысила точность предсказания экспрессии генов по последовательности ДНК. Чтобы продвинуть дальнейшее изучение регуляции генов и причинных факторов заболеваний, мы также сделали нашу модель и ее первоначальные предсказания распространенных генетических вариантов. в открытом доступе здесь.
Предыдущие работы по экспрессии генов обычно использовали сверточные нейронные сети в качестве фундаментальных строительных блоков, но их ограничения в моделировании влияния дистальных энхансеров на экспрессию генов препятствовали их точности и применению. Наши первоначальные исследования основывались на Басенджи2, который может предсказать регуляторную активность на основе относительно длинных последовательностей ДНК из 40 000 пар оснований. Вдохновленные этой работой и знанием того, что регуляторные элементы ДНК могут влиять на экспрессию на больших расстояниях, мы увидели необходимость фундаментальных архитектурных изменений для захвата длинных последовательностей.
Мы разработали новую модель на основе Трансформеры, распространенный в обработке естественного языка, чтобы использовать механизмы самоконтроля, которые могли бы интегрировать гораздо более широкий контекст ДНК. Поскольку Transformers идеально подходят для просмотра длинных фрагментов текста, мы адаптировали их для «чтения» значительно расширенных последовательностей ДНК. Эффективно обрабатывая последовательности для учета взаимодействий на расстояниях, которые более чем в 5 раз (т. е. 200 000 пар оснований) превышают длину предыдущих методов, наша архитектура может моделировать влияние важных регуляторных элементов, называемых энхансерами, на экспрессию генов из более отдаленных участков последовательности ДНК. .
Чтобы лучше понять, как Enformer интерпретирует последовательность ДНК для получения более точных прогнозов, мы использовали оценки вклада, чтобы выделить, какие части входной последовательности оказали наибольшее влияние на прогноз. Следуя биологической интуиции, мы заметили, что модель обращала внимание на энхансеры, даже если они находились на расстоянии более 50 000 пар оснований от гена. Предсказание того, какие энхансеры регулируют какие гены, остается серьезной нерешенной проблемой в геномике, поэтому мы были рады видеть, что оценки вклада Enformer сравнимы с существующими методами, разработанными специально для этой задачи (с использованием экспериментальных данных в качестве входных данных). Enformer также узнал об элементах-изоляторах, которые разделяют две независимо регулируемые области ДНК.
Хотя теперь можно полностью изучить ДНК организма, для понимания генома требуются сложные эксперименты. Несмотря на огромные экспериментальные усилия, подавляющее большинство механизмов ДНК, контролирующих экспрессию генов, остаются загадкой. С помощью ИИ мы можем исследовать новые возможности для поиска паттернов в геноме и выдвигать механистические гипотезы об изменении последовательности. Подобно средству проверки орфографии, Enformer частично понимает словарь последовательности ДНК и, таким образом, может выделять изменения, которые могут привести к изменению экспрессии генов.
Основное применение этой новой модели — предсказать, какие изменения в буквах ДНК, также называемые генетическими вариантами, изменят экспрессию гена. По сравнению с предыдущими моделями Enformer значительно точнее предсказывает влияние вариантов на экспрессию генов, как в случае естественных генетических вариантов, так и в случае синтетических вариантов, которые изменяют важные регуляторные последовательности. Это свойство полезно для интерпретации растущего числа вариантов, связанных с заболеванием, полученных в ходе полногеномных ассоциативных исследований. Варианты, связанные со сложными генетическими заболеваниями, преимущественно расположены в некодирующей области генома и, вероятно, вызывают заболевание путем изменения экспрессии генов. Но из-за врожденных корреляций между вариантами многие из этих вариантов, связанных с заболеванием, лишь ложно коррелируют, а не являются причинными. Вычислительные инструменты теперь могут помочь отличить истинные ассоциации от ложных срабатываний.
Мы далеки от решения невыразимых загадок, остающихся в геноме человека, но Enformer — это шаг вперед в понимании сложности геномных последовательностей. Если вы заинтересованы в использовании ИИ для изучения того, как работают фундаментальные клеточные процессы, как они кодируются в последовательности ДНК и как создавать новые системы для развития геномики и нашего понимания болезней, Мы нанимаем. Мы также с нетерпением ожидаем расширения нашего сотрудничества с другими исследователями и организациями, стремящимися изучить вычислительные модели, чтобы помочь решить открытые вопросы, лежащие в основе геномики.