Pull to refresh

Медведи, хомяки, человекоподобные. Хомяк или медведь брат человеку с точки зрения биоинформатики?

Reading time 9 min
Views 3.9K

Чтобы ответить на этот вопрос, в научном исследовании необходимо определиться с целью, задачами и методами, и изучаемыми материалами. Для этого нужно постараться предварительно поставить гипотезу, которая облегчит нам понимание того, чего мы хотим, а следовательно, позволит нам выбирать материалы исследования. В качестве гипотезы можно опираться на ваши знания в области классификации групп животных. Однако, если у Вас нет таких знаний и Вы не хотите страдать в поисках этих знаний в полях, лесах и лабораториях, то Вы можете стать продвинутым пользователем интернета и воспользоваться удобном сайтом lifemap [1], который отображает филогенетическое древо всех животных. Если же вы не продвинутый пользователь, то Вы можете просто воспользоваться википедией. Стоит отметить, что для учёного сайт Lifemap является таким же примитивным, как и википедия, но не бойтесь начать с малого, ведь википедия может послужить толчком к эволюции от простого к сложному. Поэтому пойдёмте эволюционировать на вики вместе. Для этого зайдём в поисковик и посмотрим информацию о нужных нам группах, с которыми в будущем нам предстоит работать, на данном сайте. Первые в списке у нас медвежьи. На странице сайта нам не нужно досконально изучать строение, размножение и образ жизни медведей. Нам нужны три вещи:

  1. Раздел научной классификации.

  2. Раздел филогенетики.

  3. Краткая сводка классификации, которая отображена в верхнем правом углу под картинкой с научной классификацией.

Переходим в раздел научной классификации и смотрим список родов в семействе медведей, предварительно выписав название этого семейства на латыни (Ursidae). Нам понадобятся названия всех родов на латыни, которые есть в семействе. Их лучше также выписать (рис.1).

(рис.1)

После проделанной работы переходим в раздел филогенетики и выбираем кладу с ближайшими живыми родственниками в качестве запасного варианта.

Это нужно сделать на случай, если нужные генетические последовательности медведей из разных родов в генбанке нам найти не удастся (рис.2).

Нам повезло, по альтернативной версии ближайшие родственники — это ластоногие. Выпишем название этой группы, выберем семейство и список родов аналогично медведям.

Теперь переходим в раздел краткой сводки научной классификации (рис.3). Находим вкладку «отряд хищные» и переходим по ней.

(рис.3)

Во вкладке отряда переходим в раздел 4.1. «Внешняя систематика». Там необходимо найти надотряд, к которому принадлежат медведи (рис.4). Он указан на филогенетическом древе в виде гиперссылки, нажимаем на неё и переходим в соответствующий раздел.

(рис.4)

В разделе нам нужно узнать отношение приматов к этому надотряду. Для этого мы переходим во вкладку «классификация» и как не странно мы не обнаруживаем в нём приматов (рис.5) Получается, что медведи по версии википедии вообще не близкие родственники приматов. Может это так и есть, но кто же по версии википедии примату будет братом?

(рис.5)

Для этого проводим аналогичные манипуляции с семейством хомяковые и в конечном итоге попадаем в отряд грызуны. Переходим в раздел систематики и ищем надотряд (рис.6).

(рис.6)

Какое удивление! Мы в надотряде Euarchontoglires обнаружили людей! Чудесно. Ну, а теперь можно поставить гипотезу. Нашей гипотезой будет утверждение, что хомяковые являются братьями людей, а нашей целью подтвердить это утверждение. Для достижения цели нам необходимо поставить следующие задачи:

  1. Выбрать генетические последовательности представителей родов изучаемых групп в качестве внутренней группы в базе NCBI [2].

  2. Показать на основе выбранных последовательностей, взятых у выбранных групп достоверные родственные связи друг с другом.

  3. Выбрать гомологичные последовательности генов групп животных, отделившихся чуть раньше медведей, хомяков и людей в качестве внешней группы в базе NCBI.

  4. Выровнять выбранные последовательности правильным методом в зависимости от выбранных последовательностей.

  5. Выбрать модель вычисления попарных расстояний и метод построения эволюционного дерева.

Чтобы уже начинать определяться с методами нам нужно выбрать внешнюю группу, а также определиться с генетическими последовательностями. Внешняя группа нам нужна для определения положения корня дерева, так сказать, его основы. В качестве внешней группы обычно используют одну или несколько клад, отпочковавшихся от общего дерева заведомо раньше (но желательно ненамного раньше) анализируемых последовательностей. Поскольку мы изучаем филогенетические отношения между плацентарными млекопитающими, то в качестве внешней группы можно использовать сумчатых млекопитающих [4]. Пусть это будут опоссумы. Я люблю опоссумов. Это котики мира сумчатых, а котиков любят все.

Далее определяем материалы. В качестве необходимых материалов я решил взять рибосомальные гены 18S рРНК у двух представителей разных родов из каждых изучаемых групп. Маркер 18S рРНК используется с конца 70-х годов прошлого столетия и является универсальным для систематических построений. Ген, кодирующий 18S рибосомную РНК, есть в геноме всех известных эукариот и является удобным маркером для их идентификации; он отсутствует у вирусов, бактерий и архей. Ген 18S рРНК содержит как консервативные участки, одинаковые у всех прокариот, так и вариабельные. Консервативные участки служат для первого этапа полимеразной цепной реакции – присоединения праймеров к исследуемой ДНК-матрице, вариабельные участки – для идентификации видов. Степень сходства видоспецифичных вариабельных участков отражает эволюционное родство разных видов [3].

С материалами более-менее определились, теперь их необходимо скачать в генетической базе данных. Переходим на сайт ген банка и в поисковой строке вбиваем название семейства латинскими буквами и ищем генетические последовательности родов, которые мы записывали ранее. Последовательности должны быть приблизительно равной длины и ни в коем случае не короткие, ибо короткие последовательности несут мало информации, а информация в нашей работе — это золото, где филогенетическое древо — Зиккурат. А всем мы знаем, что для строительства Зиккурата нужно больше золота. Поэтому для удобства в графе «Sequence length» выставим необходимую длину последовательностей (1600-2500) и нажмём кнопку «Search» (рис.7).

На рисунке выше мы видим, что я начал с медведей, к сожалению ген банк выдал мне всего три результата и все одного вида. Ничего страшного, ведь медведя мы всё равно скачаем, а запасной вариант в виде ластоногих (рис.8) у нас имеется и к счастью в генбанке необходимые последовательности по ним есть.

(рис. 8).

Таким образом мы скачиваем все необходимые нам последовательности в формате "fasta". Cкаченные последовательности закидываем по одной (или несколько, если Вы скачали всё одним форматом) в программу MEGA 10 для объединения в один формат «fasta» в будущем (рис.9)

(рис.9)

Итак, в мою выборку исследования попали 8 видов. Я не буду пугать Вас латынью как делаю это обычно, а перечислю всех избранных товарищей по-русски «матом». Первые два вида в моём списке будут представлять этакую не существующую в реальном мире вершину эволюции и как Вы догадались это человекообразные обезьяны — человек и горилла. Вторыми по иерархии идут хомяковые — водяная полёвка и серый хомячок, третьими замыкающими внутреннюю группу идут медвежьи и настоящие тюлени — бурый медведь и длинномордый тюлень соответственно. Представляют внешнюю группу у меня два вида из разных родов опоссумов — виргинский и домовой опоссумы. Строить дерево мы будем в тренировочной программе MEGA 10

Теперь нам надо начинать определяться с методами. Первым важным методом будет выравнивание генетических последовательностей. Выравнивание является важным биоинформатическим методом, основанным на размещении двух или более генетических последовательностей позволяющим увидеть сходные участки в этих последовательностях. Их сходство может отображать структурные и эволюционные связи, которые без выравнивания не построить [5]. Выравнивание мы не будем производить в MEGA 10, так как для рибосомальных последовательностей лучше воспользоваться мафтом [6]. Перед этим мы объединим все последовательности в меге в одну и экспортируем в любую папку на рабочем столе в формате «fasta» (рис.10).

(рис.10)

Сохранённый файл мы загружаем на сервер мафта в браузере (рис. 11) и изменим один стандартный параметр, выбрав тот, который показан на рисунке 12. Далее нажимаем кнопку «Submit» и получаем результат, который необходимо реформировать в формат fasta, как показано на рисунке 13.

(Рис.11)

(Рис.12)

(Рис.13)

Полученный формат необходимо загрузить обратно в мегу и уже работать в ней. Поздравляю мы это сделали! (рис.14)

(рис.14)

Теперь перед построением уже самого дерева нам необходимо проверить выравнивание трансляцией нуклеотидом в последовательности. Это позволит нам проверить правильность нашего выравнивания. Наличие звёздочек в последовательности, покажет нам наличие в ней стоп-кодонов, что будет означать ошибку. Устранять эту ошибку можно выравнивая последовательности вручную, отодвигая последовательность вправо на один квадрат. К счастью этого делать нам не придётся, ибо у нас всё получилось хорошо (рис.15.)

(Рис.15)

Далее производим установление попарных эволюционных дистанций между анализируемыми последовательностями, представляемых в виде матрицы дистанций. Другими словами, для построения дерева нам требуется эволюционная модель, оптимального метода расчета эволюционных дистанций между последовательностями. В качестве статистического метода я воспользуюсь методом оценки дат дивергенции видов, который разрабатывался с точки зрения концепции молекулярных часов, а именно эволюционной моделью Hasegawa, Kishino и Yano 1985 года.

Данная модель различает скорость различных точечных мутаций и учитывает не равные базовые частоты, которые не учитываются простыми моделями [7]. В меге эту модель можно выбрать сразу при построении дерева в методе максимального правдоподобия, там же заранее выставим проверку в 1000 реплик (так называемый бустрэп анализ). Данный анализ позволяет посмотреть статистическую поддержку ветвей, чем она выше, тем будет лучше. Высокая поддержка большинства ветвей более 70% позволяет сказать, что дерево построено правильно (рис.16). Поддержка ниже 70% для одной, или двух ветвей не является очень критичной при низкой выборке, но, если мы получим статистическую поддержку всех ветвей ниже 70% это будет говорить об очень плохом результате.

(рис.16)

К сожалению, посмотреть эту модель отдельно инструментал меги не позволяет, но наглядно она бы выглядела примерно таким образом (рис.17).

Рис (17).

Данная модель разрабатывалась для построения деревьев методом максимального правдоподобия, который я по сути и выбрал.

Метод максимального правдоподобия, говоря примитивным языком, позволяет определить неизвестное число параметров на основании известных результатов эксперимента. Скажем, если известно число граней правильного многогранника (т.е. число параметров), то можно определить, чему равны вероятности различных исходов бросков этого многогранника. Так, для шестигранной игральной кости вероятность любого исхода броска будет равна 1/6. Однако если взять за гипотезу, что число граней некой игральной кости нам неизвестно, данный метод позволяет предположить путём многократных повторных экспериментов в виде бросков этой игральной кости, число граней этой кости и определить правдоподобие этого предположения. Так, многократно подбрасывая некую игральную кость с неизвестным числом граней и наблюдая, что число различных исходов бросков кости равно шести, можно сделать предположение, что это кость шестигранная [4]. Именно поэтому этот метод в данном случае я считаю одним из лучших для ответа на заданные мной вопросы.

В качестве дополнительных плюшек мега позволяет воспользоваться функциями уточнения выводимого дерева, что даёт нам возможность вывести исходное дерево для эвристического поиска, который в свою очередь используется для оценки лучшего состояния нашего дерева. Подробно, что такое эвристический поиск можно прочитать в IT сообществе хабр [5]. Итак, в дополнительных параметрах меги меге мы можем выбрать метод максимальной экономии, который является критерием оптимальности, для которого наилучшим считается самое короткое дерево, которое объясняет данные. Этот метод работает по канонам Бритвы Оккама (рис 18). В принципе в дополнительных параметрах можно выбрать ещё кучу всего, но я думаю и этого вполне хватит.

(Рис.18)

Собственно, теперь у нас всё готово, чтобы проверить википедию на подлинность и заодно нашу гипотезу. Строим дерево! (Рис.19) ;(Рис.20)

(Рис.19)

(Рис.20)

Вуаля — чувствую себя доктором ВУ, когда дерево строится успешно!

Теперь давайте взглянем, что у нас получилось, а получилось у нас практически всё идеально!

Как Вы сами видите построенное дерево рассказывает нам о том, что грызуны являются более близкими родственниками по отношению к людям и подтверждает нашу гипотезу, несмотря на то, что одна ветвь у нас имеет поддержку ниже 70%, что в принципе не является критичным, так как все остальные ветви имеют статистическую поддержку более 70%. Конечно я допускаю за собой маленькие ошибки в построении дерева, но общая картина была вполне ожидаема и показала всё то, что известно самому капитану очевидности и его капитанше. Действительно хомяк является «братом» человека, а медведь его дальним родственником, а теперь можно выдохнуть! Всего доброго!

Примечание :

Материал был написан мной 26.01.2021 года и опубликован 27.01.2021 в научно-популярном сообществе фанерозой (https://vk.com/phanerozoi).

Источники:
  1. http://lifemap.univ-lyon1.fr

  2. https://www.ncbi.nlm.nih.gov/nuccore/?term=Phocidae+18S+ribosomal+gene

  3. Соловьева В.В. Молекулярно-генетический анализ беспозвоночных животных по нуклеотидной последовательности гена 18S рибосомной РНК: учебное пособие / Соловьева В.В., Моров А.Р., Ризванов А.А., Сабиров Р.М.- Казань: федеральный ун-т, 2011 – 52 с.

  4. Молекулярная эволюция и филогенетический анализ/ В.В. Лукашов —М.БИНОМ. Лаборатория знаний, 2009. — с.256. с.92-123.

  5. Mount DM. Bioinformatics: Sequence and Genome Analysis. — 2nd. — Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY., 2004.

  6. https://mafft.cbrc.jp/alignment/server/

  7. Hasegawa M., Kishino H., and Yano T. (1985). Dating the human-ape split by a molecular clock of mitochondrial DNA. Journal of Molecular Evolution 22:160-174.

  8. https://habr.com/ru/company/mailru/blog/217839/

Tags:
Hubs:
+8
Comments 3
Comments Comments 3

Articles