Учеными представлена Evo, долгосрочная базовая биологическая модель, основанная на архитектуре StripedHyena, которая обобщает ДНК, РНК и белки. Evo способна решать как задачи прогнозирования, так и генеративного дизайна от молекулярного до общегеномного масштаба (длиной более 650 тыс. токенов). Evo обучается с разрешением в нуклеотид (байт) на большом массиве геномных последовательностей прокариот, охватывающих 2,7 миллиона целых геномов.
Together AI и Институтом Arc разработана первая нейросеть, генерирующая ДНК, РНК и белки — Evo. Это модель OSS, построенная на архитектуре StripedHyena, архитектуре глубокой обработки сигналов, разработанной для повышения эффективности и качества по сравнению с преобладающим преобразователем.
Evo понимает биологическую функцию на уровне всего генома. Используя тест на значимость генов, Evo может предсказать, какие гены необходимы для выживания организма, на основе небольших мутаций ДНК. Для сравнения, эксперимент по определению существенности гена в лаборатории может потребовать от 6 месяцев до 1 года экспериментальных усилий, а нейросеть делает это за несколько генераций.
Модель обучается с разрешением в нуклеотид (байт) на большом массиве геномных последовательностей прокариот, охватывающих 2,7 миллиона целых геномов. Evo может выполнять мультимодальный дизайн для создания новых систем CRISPR, что требует создания больших функциональных комплексов белков и нкРНК и недоступно для существующих генеративных моделей. Она обеспечивает новый подход к созданию биологического разнообразия путем выборки последовательностей непосредственно из генеративной модели, что является захватывающим рубежом для создания новых форм инструментов редактирования генома.
Evo может генерировать последовательности не только в масштабе нескольких молекул (белков и нкРНК), но и в масштабе целых геномов. Попытка сгенерировать последовательности объемом до 650 кб на одном графическом процессоре завершилась успехом.
Evo знаменует собой поворотный момент моделировании биологических последовательностей. Технология обладает потенциалом для ускорения открытий и понимания в естественных науках (таких как биология, химия или материаловедение), а также может быть применена к реальным проблемам, включая разработку лекарств, сельское хозяйство и устойчивое развитие. Хотя результаты демонстрируют многообещающие вычислительные возможности, для сгенерированных последовательностей требуется дальнейшая экспериментальная проверка.
Модель доступна на HuggingFace и в репозитории. Скоро она станет доступна через API Together и Playground.