Вы здесь
Новая модель искусственного интеллекта изучает скрытый язык ДНК
ДНК содержит основополагающую информацию, необходимую для поддержания жизни. Понимание того, как эта информация хранится и организуется, было одной из величайших научных задач прошлого века. С GROVER, новой большой языковой моделью, обученной на человеческой ДНК, исследователи теперь могут попытаться расшифровать сложную информацию, скрытую в нашем геноме. Разработанная командой из Биотехнологического центра (BIOTEC) Дрезденского технического университета, GROVER рассматривает человеческую ДНК как текст, изучая ее правила и контекст, чтобы извлекать функциональную информацию о последовательностях ДНК. Этот новый инструмент, опубликованный в «Nature Machine Intelligence», имеет потенциал для преобразования геномики и ускорения персонализированной медицины.
С момента открытия двойной спирали ученые пытались понять информацию, закодированную в ДНК. 70 лет спустя стало ясно, что информация, скрытая в ДНК, многослойна. Только 1‑2 % генома состоит из генов, последовательностей, кодирующих белки.
«У ДНК есть много функций, помимо кодирования белков. Некоторые последовательности регулируют гены, другие служат структурным целям, большинство последовательностей выполняют несколько функций одновременно. В настоящее время мы не понимаем смысла большей части ДНК. Когда дело доходит до понимания некодирующих областей ДНК, кажется, что мы только начали царапать поверхность. Именно здесь могут помочь ИИ и большие языковые модели», — говорит доктор Анна Поэтч, руководитель исследовательской группы в BIOTEC.
ДНК как язык
Большие языковые модели, такие как GPT, изменили наше понимание языка. Обученные исключительно на тексте, большие языковые модели развили способность использовать язык во многих контекстах.
«ДНК — это код жизни. Почему бы не относиться к нему как к языку?» — говорит доктор Поэтч. Команда Поэтч обучила большую языковую модель на эталонном геноме человека. Полученный инструмент под названием GROVER или «Правила генома, полученные с помощью извлеченных представлений» можно использовать для извлечения биологического смысла из ДНК.
«GROVER изучил правила ДНК. С точки зрения языка мы говорим о грамматике, синтаксисе и семантике. Для ДНК это означает изучение правил, управляющих последовательностями, порядка нуклеотидов и последовательностей, а также значения последовательностей. Подобно моделям GPT, изучающим человеческие языки, GROVER по сути научился «говорить» на ДНК», — объясняет доктор Мелисса Санабрия, участник проекта.
Команда показала, что GROVER может не только точно предсказывать следующие последовательности ДНК, но и может использоваться для извлечения контекстной информации, которая имеет биологическое значение, например, для идентификации промоутеров генов или участков связывания белков на ДНК. GROVER также изучает процессы, которые обычно считаются «эпигенетическими», т. е. регуляторные процессы, которые происходят поверх ДНК, а не кодируются.
«Удивительно, что, обучая GROVER только с помощью последовательности ДНК, без каких-либо аннотаций функций, мы фактически способны извлекать информацию о биологической функции. Для нас это показывает, что функция, включая некоторую эпигенетическую информацию, также закодирована в последовательности», — говорит доктор Санабрия.
Словарь ДНК
«ДНК напоминает язык. Она состоит из четырех букв, которые строят последовательности, а последовательности несут смысл. Однако, в отличие от языка, ДНК не имеет определенных слов», — говорит доктор Поэтч. ДНК состоит из четырех букв (A, T, G и C) и генов, но нет никаких предопределенных последовательностей разной длины, которые объединяются для построения генов или других значимых последовательностей.
Чтобы обучить GROVER, команде пришлось сначала создать словарь ДНК. Они использовали трюк из алгоритмов сжатия. «Этот шаг имеет решающее значение и отличает нашу модель языка ДНК от предыдущих попыток», — говорит доктор Поэтч.
«Мы проанализировали весь геном и искали комбинации букв, которые встречаются чаще всего. Мы начали с двух букв и снова и снова проходили по ДНК, чтобы выстроить ее до самых распространенных многобуквенных комбинаций. Таким образом, примерно за 600 циклов мы разбили ДНК на «слова», которые позволяют GROVER работать лучше всего, когда дело доходит до предсказания следующей последовательности», — объясняет доктор Санабрия.
Перспективы ИИ в геномике
GROVER обещает раскрыть различные слои генетического кода. ДНК содержит ключевую информацию о том, что делает нас людьми, о наших предрасположенностях к болезням и о наших реакциях на лечение.
«Мы считаем, что понимание правил ДНК через языковую модель поможет нам раскрыть глубины биологического смысла, скрытого в ДНК, что будет способствовать развитию как геномики, так и персонализированной медицины», — говорит доктор Поэтч.
О Биотехнологическом центре (БИОТЕК)
Биотехнологический центр (BIOTEC) был основан в 2000 году как центральное научное подразделение Технического университета Дрездена с целью объединения современных подходов в молекулярной и клеточной биологии с традиционно сильным инженерным направлением Дрездена. С 2016 года BIOTEC является частью центрального научного подразделения «Центр молекулярной и клеточной биоинженерии» (CMCB) Технического университета Дрездена. BIOTEC содействует развитию исследований и преподавания в области исследований молекулярной биоинженерии и объединяет подходы в клеточной биологии, биофизике и биоинформатике. Он играет центральную роль в приоритетной области исследований «Науки о здоровье, биомедицина и биоинженерия» Технического университета Дрездена.