"Вычислительные среды": доклад "Поиск эпистаза в экспериментальных данных, полученных случайным мутагенезом"
Известно, что молекулы ДНК хранят биологическую информацию в виде генетического кода, состоящего из последовательностей нуклеотидов. В вычислительной биологии представляются как слова над алфавитом из 4х букв: A (аденин), T (тимин), C (цитозин), G (гуанин). Генотип – это совокупность всей генетической информации, то есть набор всех генов. Каждому генотипу соответствует свой фенотип – совокупность индивидуальных признаков организма (цвет глаз, рост и т.д.). Кроме того, для каждого гена можно определить его приспособленность (количество внуков, оставленных этим индивидом). Таким образом, эволюционный процесс можно представить как набор траекторий в многомерном дискретном пространстве генотипов, где для каждой точки-генотипа определены фенотип и приспособленность. Голубой мечтой всей эволюционной биологии является способность предсказывать фенотип и приспособленность по генотипу.
В процессе эволюции, помимо того, что генетическая информация родителей случайным образом передается потомку, происходят мутации – изменения в некоторых узлах цепочки ДНК. Эффект мутации может быть нейтральным, положительным или негативным, даже смертельным, причем этот эффект зависит от генетического контекста: для организмов с разными генотипами одна и та же мутация может иметь разные последствия. Зависимость мутации от генетического контекста называется эпистазом.
Для изучения эпистаза исследователи случайным образом производят множество мутантных вариантов генов, которые рассеяны по малой части пространства генотипов, и измеряют для каждого генотипа фенотип и/или приспособленность. Затем в этих экспериментальных данных производится поиск таких гиперкубов, у которых для всех вершин-генотипов измерен фенотип и/или приспособленность.
Дмитрий представил алгоритм, который эффективно находит все такие гиперкубы в экспериментальных данных. В самом большом на текущий момент экспериментальном наборе данных, состоящем из 721791 генотипов, было найдено 199847053 гиперкуба, 88% которых имеют размерность три и выше.
Презентацию доклада можно найти на странице семинара https://www.hse.ru/ma/supmod/nis. Алгоритм программы также находится в открытом доступе по ссылке https://github.com/ivankovlab/HypercubeME.