• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Московский институт электроники
и математики им. А.Н. Тихонова

"Вычислительные среды": доклад "Поиск эпистаза в экспериментальных данных, полученных случайным мутагенезом"

На регулярном семинаре «Суперкомпьютерное моделирование в науке и инженерии, или Вычислительные среды» 20 ноября 2019 года доцент МИЭМ Владимир Щур представил своего коллегу из Сколтеха Дмитрия Иванкова. Иванков закончил МФТИ, после чего работал в европейских научных центрах и недавно вернулся в Россию. Тема его доклада «Поиск эпистаза в экспериментальных данных, полученных случайным мутагенезом».

Известно, что молекулы ДНК хранят биологическую информацию в виде генетического кода, состоящего из последовательностей нуклеотидов. В вычислительной биологии представляются как слова над алфавитом из 4х букв: A (аденин), T (тимин), C (цитозин), G (гуанин). Генотип – это совокупность всей генетической информации, то есть набор всех генов. Каждому генотипу соответствует свой фенотип – совокупность индивидуальных признаков организма (цвет глаз, рост и т.д.). Кроме того, для каждого гена можно определить его приспособленность (количество внуков, оставленных этим индивидом). Таким образом, эволюционный процесс можно представить как набор траекторий в многомерном дискретном пространстве генотипов, где для каждой точки-генотипа определены фенотип и приспособленность. Голубой мечтой всей эволюционной биологии является способность предсказывать фенотип и приспособленность по генотипу. 

В процессе эволюции, помимо того, что генетическая информация родителей случайным образом передается потомку, происходят мутации – изменения в некоторых узлах цепочки ДНК. Эффект мутации может быть нейтральным, положительным или негативным, даже смертельным, причем этот эффект зависит от генетического контекста: для организмов с разными генотипами одна и та же мутация может иметь разные последствия. Зависимость мутации от генетического контекста называется эпистазом.  

Для изучения эпистаза исследователи случайным образом производят множество мутантных вариантов генов, которые рассеяны по малой части пространства генотипов, и измеряют для каждого генотипа фенотип и/или приспособленность. Затем в этих экспериментальных данных производится поиск таких гиперкубов, у которых для всех вершин-генотипов измерен фенотип и/или приспособленность. 

Дмитрий представил алгоритм, который эффективно находит все такие гиперкубы в экспериментальных данных. В самом большом на текущий момент экспериментальном наборе данных, состоящем из 721791 генотипов, было найдено 199847053 гиперкуба, 88% которых имеют размерность три и выше. 

Презентацию доклада можно найти на странице семинара https://www.hse.ru/ma/supmod/nis. Алгоритм программы также находится в открытом доступе по ссылке https://github.com/ivankovlab/HypercubeME.