tac Dec 16 2012 at 02:34

Систематика прокариот — дальние родственники

4 min

13K

Algorithms*

+20

100

Comments 100

andrewsch Dec 16 2012 at 11:28

А чем рисовали графы, если Graphviz зависает?

tac Dec 16 2012 at 11:34

Так им и рисовал, только пришлось брать не больше 1000 связей, поэтому на графе нет еще 3500 связей. Кстати, если кто знает чем можно нарисовать еще — посоветуйте.

mktums Dec 16 2012 at 13:00

matplotlib?

mktums Dec 16 2012 at 13:04

или даже networkx

tagir_valeev Dec 16 2012 at 18:38

А алгоритмы раскладки оно умеет?

Davidov Dec 16 2012 at 15:12

В GNU R есть такая штука, называется ape. Последний раз рисовал в ape граф с тысячей вершин и десятками (если не сотнями) тысяч ребер.

tagir_valeev Dec 16 2012 at 18:40

Тот же вопрос: неужто 100000 рёбер с автоматической раскладкой?

Davidov Dec 16 2012 at 18:48

Ох, приношу свои извинения, перепутал пакет. Правильное название igraph. Причем пришлось откатиться на старую версию (igraph0 для R), т.к. новая на больших графах тормозила.

Раскладку я делал в другой программе, она биологическая, использует кинетическое отталкивание. Я думаю, что часть layout'ов в igraph должна быть быстрой, например circle :)

tagir_valeev Dec 16 2012 at 19:30

Ну Graphviz на здоровой картинке разложил иерархически. И это выглядит как-то более-менее. Я сильно сомневаюсь, что семейство force directed выдаст что-либо удобоваримое на подобных размерах. Вот если подскажете что-нибудь свободное, что лучше Graphviz'а справляется с иерархической раскладкой на больших графах, я вам большое спасибо скажу :-)

eucariot Dec 16 2012 at 13:04

Одобряю этот пост!

-2

Davidov Dec 16 2012 at 13:56

Как уже было сказано, тРНК — довольно плохая молекула для филогенетики, особенно на больших расстояниях. Исторически тРНК использовали лишь потому, что они короткие и их умели секвенировать.

Сейчас при наличии полных геномов никакого смысла строить какие-то деревья по тРНК не осталось. Нужно либо самому взять полные геномы и бластом отыскать 16S, либо воспользоваться прекрасными готовыми базами данных (green genes, sliva).

Ну и, собственно, где настоящие статьи с результатами?

tac Dec 16 2012 at 14:18

У вас одни голословные утверждения, даже ответить нечего.

-5

tac Dec 16 2012 at 14:23

Это как раз 16S плохая молекула для установления близости. Внимание аргумент (в отличии от вашего комментария) — молекула 16S подвержена мутациям, и нет практически не одной в разных организмах, которые были бы идентичны (в отличии от тРНК). Далее вы начинаете делать выравнивание (упрощая процесс мутирования) и делаете нелепые выводы на основании ошибочного выравнивания (а оно ошибочное почти всегда для длиной молекулы).

tac Dec 16 2012 at 14:27

И кроме того, 16S — это всего лишь один ген, против 50-60 генов тРНК. Итого вы берете порезанные куски и ошибочно выровненные от одного гена, а я беру 50-60 генов, которые на 100% совпадают в разных организмах. Если разницы в пользу предложенного здесь не чувствуете, то это по меньшей мере странно.

Davidov Dec 16 2012 at 15:08

1) Помимо «голословных» утверждений существует довольно большой пласт работ на эту тему. Вот, в этом году в PNAS опубликовали работу по мутации отдельных позиций в 16S, например.
2) Аргумент — это отлично. Но публикация в реферируемом журнале — ещё лучше. Что касается самого аргумента, он базируется на разных предпосылках, которые ещё сначала стоит доказать, например, настолько ли ошибочно выравнивание, чтобы кардинально поменять результаты. Скорее всего не настолько.
3) 16S это полторы тысячи нуклеотидов, то есть почти 3 килобайта данных. 50-60 идентичных генов, это всего лишь 50-60 байт. Даже если в 16S только 10% позиций пригодны для построения графа, то это в пять раза больше информации. То есть с учетом шума 16S намного надежнее. Ну а если вы ещё учтете ужасное качество аннотации тРНК в NCBI, то совсем грустно становится.

tac Dec 16 2012 at 15:45

1. Публикация в реферируемом журнале — это научная политика, а не результаты.
2. Доказывать нужно как раз обратное, что выравнивание не ошибочно, вот вам для тренировки всего лишь два маленьких куска
gggagcccugucaccggaugugcuuuccggucugaugaguccgugaggacaaaacagggcucccgaauu
aagaggucggcaccugacgucgguguccugaugaagauccaugacaggaucgaaaccucuu
попробуйте выравнять правильно — это не сделает не одна программа
3. 50-60 идентичных тРНК — это 50*73 = 3650 нуклеотидов, причем находящихся в разных местах. Т.е. если совпадение такое то это в раз 5 стабильнее 16S. И даже хватает 5-10 идентичных тРНК, что будет сравнимо с 16S (как раз качество аннотации тРНК в NCBI у меня учтено, а вот качество 16S — такое же)

-2

Davidov Dec 16 2012 at 16:37

1. Публикация в научных журналах — это в том числе способ проверить себя. А на айтишном ресурсе не так много специалистов, которые могут оценить качество ваших изысканий.
2. Ещё раз, незначительные ошибки в длинном выравнивании не сильно влияет на качество, например дерева. Т.к. позиций много, недостаточной «толстые» позиции выбрасываются + bootstrap — это инструмент, который позволяет оценить качество дерева на каждом конкретном узле.
Если вы мне по какой-то причине не верите и не хотите читать статьи по теме, проведите простой эксперимент:
Создайте случайную строку, промоделируйте эволюцию с мутациями, вставками и делециями. Затем выполните выравнивание, убедитесь что выравнивание действительно неверное (а это скорее всего так и будет).
Потом возьмите mafft+gblocks+phyml, если лениво, идите на phylogeny.fr, только обязательно с bootstrap. И посмотрите, как сильно настоящее дерево будет отличаться от полученного. Если вам нужны критерии сравнения деревьев, почитайте Фельзенштейна, например.
3. А какая разница сколько там нуклеотидов, если они по вашим словам идентичные? Это 0 бит. А если не идентичные, то ваш прежний аргумент уже не работает. Если не идентичные, то это нужно показать, рассмотреть насколько. Как бороться с плохой аннотацией (да, вы сделали фильтр по длине, но сколько вы в итоге потеряли)? Сравните, в конце концов, с результатами по 16S, и покажите, что ваш метод лучше. Или возьмите fusion из универсальных белков и сравните с ним.

Не обижайтесь пожалуйста, но пока что работа очень сырая. Методы описаны очень сумбурно, никакого доказательства того, что ваши подходы лучше общепринятых нет, только какие-то умозрительные рассуждения. Статей нет. Никаких биологических выводов нет.

Да, на it ресурсе вы можете сорвать плюсиков, потому что необычно и никто не способен дать критическую оценку. Но по сути такой нигилизм «статьи все куплены, а я один знаю, как правильно».

tac Dec 16 2012 at 16:51

Опять голословные утверждения… ну нельзя же так, а еще критиковать пытаетесь…

-1

Davidov Dec 16 2012 at 17:00

По пунктам пожалуйста. :)

tac Dec 16 2012 at 16:52

> какая разница сколько там нуклеотидов, если они по вашим словам идентичные? Это 0 бит.

Бред да и только.

-2

Davidov Dec 16 2012 at 17:01

Сюрприз сюрприз: идентичные позиции в выравнивании не дают вам никакой информации вообще (с точностью до масштаба), их можно только выкинуть. Вам даже это нужно доказывать?

tac Dec 16 2012 at 17:15

О чем Вы? Какое выравнивание? Какие позиции? Я этим не занимаюсь.

Вот что вам надо доказать:

Имеем 100 последовательностей Z0..99 длиной в 1000 знаков. Последовательности Z0..99 были образованны из одной путем перестановок.

На основании чего проще выстроить последовательности Z0..99 в виде дерева.

1. Имея идентичных 10 разных подпоследовательностей P1 в 70 знаков, которые совпадают в ряде Z0..99
2. Имея одну подпоследовательность в 700 знаков, но имеющую шум на 50% и не известно на 100% соответствует ли (стоит на том же месте) хоть один символ символу в другой последовательности (а на самом деле еще хуже)

Тут очевидно, что 2 способ вообще не дает ни каких гарантий.

-1

Davidov Dec 16 2012 at 17:21

Ну эта задача плохо соотносится с реальностью. Во-первых, не только перестановок. Во-вторых, причины совпадения по пункту 1 далеко не всегда ортология. В-третьих, оценка шума у вас не учитывает его неравномерность (а это существенно). А главное в способе 1 у вас тоже есть шум, но вы почему-то считаете, что его нет.

tac Dec 16 2012 at 17:26

1. Ок, пусть будут любые изменения — тем хуже для метода 2.
2. Снова сказки
3. Мне учитывать шум вообще не надо — его у меня нет. А вы учитывайте.

-1

Davidov Dec 16 2012 at 17:31

Да какие сказки? Про шум ниже написал.

tac Dec 16 2012 at 17:38

Ну, и что по вашему в той статье написано? Можно резюме своими словами? (у просто подозрение, что вы совсем не о том)

-1

Davidov Dec 16 2012 at 17:54

Статья не о том, но там во введении рассмотрен вопрос разной степени консервативности различных участков.

tac Dec 16 2012 at 18:04

Знаете с вами очень сложно говорить, вы говорите какими то отрывками… да, разные участки имеют разную консервативность — замечательно. И что? Если это использовалось для выравнивания — хорошо, ошибок будет чуть меньше. Но большая часть 50-75% не являются этой консервативной частью… и поэтому нельзя судить анализируя не консервативные части с полной достоверностью, какие организмы более или менее стоят ближе друг к другу. И тем более не возможно их выстроить в дерево — нет оснований для этого, кроме как фиктивного понятия близости строящейся на статистической оценки шума… а выдается это как достоверная мера — а это ошибки ошибок

Если же вы о чем то другом — то не ясно о чем…

Davidov Dec 16 2012 at 18:10

Ошибок будет существенно меньше. И «выстроить» дерево можно. И оно будет согласовываться с множеством других деревьев, чего не было бы, если бы шума было так много, как вы говорите.

Почему фиктивного? Вы теперь и статистику отвергаете? Понятие близости построено на строгих статистических концепциях. И я даже как-то сравнивал различные меры и убедился, что они все очень неплохо и согласовано работают.

tac Dec 16 2012 at 19:11

То что они согласованно дают ерунду — вполне верю. У вас нет четких оснований считать что организм А связан с Б. В то время как идентичные тРНК в двух организмах говорят 100% о их генетической связи.

Davidov Dec 16 2012 at 20:01

Как они могут согласованно давать ерунду? :) Шум не должен коррелировать. Значит это сигнал. Какой? Эволюционный.

tac Dec 16 2012 at 20:23

Нет, это «игра теней»… показывает лишь общую тенденцию, но не дает детализации. Т.е. для 100 организмов показывает что они чем то близки, но когда анализируешь 2-3 организма — то совершенно не ясно, кто из них эволюционно ближе/дальше. Нет возможности сказать, что этот организм произошел раньше этого, а этот позже. Это получается гадание на основе шума.

tac Dec 16 2012 at 20:24

И главное, этот ваш классический подход не показывает какой организм является переходным между различными группами.

Davidov Dec 16 2012 at 20:36

Раз тенденцию показывает, смысл сравнивать с ним есть.

Про два три организма, как правило, понятно, кто ближе, а кто — дальше.

А вот с другими вашими вопросами сложнее: дело в том, что в рамках классической эволюции мы не можем найти ответ на вопрос «A произошел позже, чем B?». Потому что мы смотрим только на современные виды, а происходили их предки, которые могли существенно отличаться. Я советую почитать об этом, или хотя бы подумать.

Про переходные организмы та же история: эволюция не остановилась тысячу лет назад и продолжаются, переходные организмы — это некие предковые состояния, которые впоследствии разошлись на несколько разных «ветвей». Так что среди живых организмов предковых состояний, увы, не сохранилось.

Это базовые концепции, к которым можно прийти либо размышлением либо прочитав релевантную литературу. Я вам все-таки настоятельно рекомендую ознакомиться с каким-нибудь базовым учебником. Даже если там есть ошибки и неточности, вам будет проще ориентироваться в области.

tac Dec 17 2012 at 00:58

Эти сказки, про «в рамках классической эволюции мы не можем найти ответ на вопрос «A произошел позже, чем B?»» я в курсе, но категорически с этим не согласен. Это просто способ классической филогенетики расписаться в своей бесполезности. Надеюсь в нашей приватной дискуссии я смогу вам объяснить как эту проблему можно обойти.

tac Dec 17 2012 at 01:18

А пока напишу одну аналогию. Есть куча машинных деталей, которые мы изготавливаем каждый год. Скажем есть детали 51-го года выпуска, 52-го… 60-го и т.д.

Теперь мы берем 1000 машин с наших дорог как случайную выборку. Но не знаем какую машину выпустили раньше, а какую позже. У нас есть только детали. Да и про детали тоже не маркированные и год выпуска не известен. Как же быть?

Первое что мы отмечаем, когда распотрошим капот машин, что некоторые машины сходны по деталям. Скажем 50 деталей у них просто идентичны. Да, есть еще 500 деталей, но все они хоть немного, но разные. Мы долго можем гадать о сходстве этих 500 деталей — только это будет гадание. Поэтому мы их возьмем и выкинем. А начнем анализировать только те детали, которые идентичны.

Тогда мы можем сказать, что если 50 деталей в машинах одинаковы — то их производили в более менее одно время, а отличия в 500 прочих деталях нам будут указывать только на то что их производили разные фирмы, и эти 500 деталей просто взаимозаменяемые, в отличии от 50, без которых машина не поедет. Эти 50 деталей характеризуют класс машин — на бензине, дровах, дизели, электричестве и т.д.

Теперь у нас есть из 1000 машин разделенных на 10 множеств, причем он в каждое множество могут входить разное число машин, что показывает как много машин успели понаделать такого или иного поколения.

Но как же узнать как эти поколения связаны. И тут мы понизим точность, но посмотри как совпадают машины если смотреть только по 7 деталям из этих 50.

Тогда окажется, что машины из 10 множеств стали пересекаться. Эти детали стали настолько принципиальны, что не почти все машины их имеют. Так мы находим связи между поколениями.

Теперь нам надо решить какие же машины сделали раньше, а какие позже. Тут мы посмотрим, что те из 7 деталей, которые объединяли множество машин в некоторых машинах постепенно пропадают, их становится 5, 3, и наконец вообще нет, но зато они имеют другие детали из тех 50.

Так вот это постепенное убывание и говорит о отметках времени.

tac Dec 17 2012 at 01:25

на самом деле, все несколько сложнее в деталях, одно поколение, накладывается на другое и разделить их сложновато, можно лишь говорить о перекрытии.

Но чтобы идти дальше — надо осилить хотя бы эту начальную логику.

tac Dec 16 2012 at 16:54

> Сравните, в конце концов, с результатами по 16S, и покажите, что ваш метод лучше.

Снова говорите глупости, вам объясняют что сравнение по 16S — это глупость, а вы говорите проверять метод на глупости… не, занимайтесь этим сами и верить любому сравнению на 16S — нет ни каких оснований.

Davidov Dec 16 2012 at 17:04

Любой новый метод полезно сравнивать с общепринятым, а как иначе доказать, что он работает лучше? А использование 16S — это именно общепринятый метод

tac Dec 16 2012 at 17:15

Где доказательство эффективности этого общепринятого метода?

Davidov Dec 16 2012 at 17:23

Finally.
Доказательства есть, например, в статье Кунина, которую я вам уже советовал, но и в тысяче других работ.
Главная идея вот в чем: эволюционный сигнал от 16S в целом совпадает с сигналами от других молекул. Чисто статистически такое совпадение объяснить невозможно.

А где доказательства эффективности вашего?

tac Dec 16 2012 at 17:27

Нет, в тысяче нету. Не помню что вы мне что-то предлагали. Можно ссылку?

-2

Davidov Dec 16 2012 at 17:33

Посмотрите мои комментарии из предыдущего вашего поста.

tac Dec 16 2012 at 17:42

Не вижу. Повторить сложно?

-2

Davidov Dec 16 2012 at 17:48

Если вы в тот раз не прочитали, то видимо не прочитаете и в этот. Зачем тратить на это время?
Да, и вот вам три причины, почему tRNA плохи для филогении:
— Они находятся под сильным влиянием аппарата трансляции [1]
— Подвержены особенно сильному горизонтальному переносу [2]
— Часто находятся вблизи мобильных элементов генома [3]
1. Saks ME, Conery JS. 2007. Anticodon-dependent conservation of bacterial tRNA gene sequences. RNA 13: 651–660.
2. Canchaya C, Fournous G, Brussow H. 2004. The impact of prophages on bacterial chromosomes. Mol Microbiol 53: 9–18.
3. Williams KP. 2002. Integration sites for genetic elements in prokaryotic tRNA and tmRNA genes: Sublocation preference of integrase subfamilies. Nucleic Acids Res 30: 866–875.

Но вы же и это не прочитаете.

P.S. Посмотрю сейчас хорошую ссылку про доказательство.

tac Dec 16 2012 at 17:55

— Подвержены особенно сильному горизонтальному переносу [2]
— Часто находятся вблизи мобильных элементов генома [3]

Вот замечательно то :) А это не эволюция? В том то и дело, что я исследую в том числе эффекты горизонтального переноса, как наиболее основной силе видообразования… вы только еще раз подтвердили, что я на правильном пути.

Davidov Dec 16 2012 at 18:01

Шум бывает разный. Горизонтальный перенос одной (консервативной молекулы) из бактерии в бактерию не говорит вообще ни о чем. Это тот же шум.

А вот основной (геномный) сигнал вы уже почти потеряли.

Davidov Dec 16 2012 at 17:55

www.sciencedirect.com/science/article/pii/S0168952501025227
Вот статья, там в выводах есть про схожесть деревьев, полученных разными способами. Если вы потратите чуть больше времени, то найдете статью со сравнением различных молекул в качестве источника филогенетической информации.

tac Dec 16 2012 at 17:43

Это Conservative Fragments in Bacterial 16S rRNA Genes and
Primer Design for 16S Ribosomal DNA Amplicons in
Metagenomic Studies?

tac Dec 16 2012 at 17:01

> никакого доказательства того, что ваши подходы лучше общепринятых нет, только какие-то умозрительные рассуждения

умозрительные рассуждения — это когда на основании зашумленных данных пытаются построить смешные теории, а потом печатают в научных журналах — и все думаю, что в этом есть хоть что-то. В этом нет ни какого доказательства, а мне почему то нужно эти глупости еще опровергать — мне есть чем заниматься, вместо того, чтобы опровергать «странные методы».

Метод описан у меня достаточно просто и понятно для любого, более того на раз все поддается проверки в отличии от того, что написано в научных публикациях…

Davidov Dec 16 2012 at 17:15

Ваши данные зашумлены не меньше. Только вы почему-то отказываетесь проверять это.

Я рекомендую вам ознакомиться с трудами Карла Поппера, чтобы понять, зачем вообще ученый занимается наукой, а также узнать про концепцию фальсифицируемости результатов исследований. Пока ваш подход больше похож на религию, чем на науку, увы.

Раз вы не способны воспринимать критику или проводить исследования, которые могут опровергнуть превосходство вашего метода, то я не вижу смысла продолжать дискуссию.

tac Dec 16 2012 at 17:16

Нет, мои данные не имею вообще шума.

Davidov Dec 16 2012 at 17:25

Имеют. Ошибки секвенирования (это просто), ошибки аннотации (недоаннотированные), псевдогены.

tac Dec 16 2012 at 17:29

По таким ошибкам — мой метод от вашего не отличается вообще. У вас же еще + ошибки выравнивания (а они на порядок существеннее)

Davidov Dec 16 2012 at 17:36

В консервативных областях ошибки выравнивания минимальны, в силу особенностей 16S, о которых выше. 16S в геноме в нескольких копиях, поэтому псевдогены легко выкинуть. Секвенирование не так существенно влияет, т.к. мы не требуем полного совпадения и используем bootstrap, ошибки аннотации вообще не волнуют, т.к. мы ищем blastом.

tac Dec 16 2012 at 17:46

Я так и знал, под ошибками аннотации мы понимаем разное. Напишите Вы, пожалуйста, что вы понимаете под ошибкой аннотирования ?!

Davidov Dec 16 2012 at 17:59

а) Не аннотированный
б) Неправильно аннотированный

tac Dec 16 2012 at 18:06

Тогда, что такое не правильно аннотированный?

tac Dec 16 2012 at 17:48

В том то и дело, что поиск blastом — тоже дает ошибки, в отличии от моего поиска идентичных подпоследовательностей.

Davidov Dec 16 2012 at 17:58

Если вы самостоятельно найдете мне хоть один эубактериальный геном, в котором PSI-BLAST не сможет отыскать 16S, то с меня шоколадка.

Лишние найденные отбросить тоже довольно легко. Хотя и требует работы.

tac Dec 16 2012 at 18:08

а с чего уже эубактериальный, когда говорим все время о протеобактериях?

Davidov Dec 16 2012 at 18:14

Эм. А вы и правда не в курсе, кто такие эубактерии? :)

tac Dec 16 2012 at 18:21

путаю с Eukaryota в данном случае, ну а зачем мне знать эту странность когда её нет в классической систематике, например в NCBI

Davidov Dec 16 2012 at 18:22

Да ладно, правда нет? :)

tac Dec 16 2012 at 18:28

Ладно, уговорили — есть синоним :)

Davidov Dec 16 2012 at 18:29

Там даже написано, чуть ниже, почему не стоит говорить «бактерии». Почитайте обязательно.

tac Dec 16 2012 at 18:42

Ага, только сами они используют Bacteria ;)

tac Dec 16 2012 at 18:14

И потом будте так добры — вот psi-blast
www.ncbi.nlm.nih.gov/blast/Blast.cgi?CMD=Web&PAGE=Proteins&PROGRAM=blastp&RUN_PSIBLAST=on

научите меня найти 16S в геноме? Я не вижу там полей, чтобы задать поиск 16S и как указать нужный мне геном.

(Сдается мне, что он этого вообще не ищет, или опять же мы говорим о разном)

Davidov Dec 16 2012 at 18:21

Значит во-первых, я бы посоветовал делать это на локальной базе геномов, а не через веб сервис.
Во-вторых, если вы не умеете пользоваться BLAST, я могу посоветовать вам учебник.
И это очень странная просьба, честное слово.
Все же я вам посоветую книги:
раз, два, три, четыре (последняя — это не шутка, действительно приличная книга).

Волшебной кнопки «найти 16S», действительно нет. Поэтому вам придется самому найти последовательность для поиска.

tac Dec 16 2012 at 18:26

Вот с того, что «Волшебной кнопки «найти 16S», действительно нет.» — и надо начинать. А все остальную вашу болтологию я пропускаю мимо ушей, чтобы не выругаться.

А теперь вернитесь назад и подумайте, что Вы написали «PSI-BLAST не сможет отыскать 16S» — он и не сможет. На вход вы уже должны дать хоть одного представителя 16S.

1. Откуда вы его возьмете? Из аннотирования при секвенировании — или как? или выдумаете сами ;)
2. Что сделает ваш бласт? Найдет что-то близкое к этой последовательности? И вы думаете она 100% будет 16S?

-2

Davidov Dec 16 2012 at 18:35

1. Из генома (аннотация для E.coli довольно приличная). Если сомневаетесь, проверьте по PDB. Или вы не верите в существование рибосомы тоже? :)
2. Да, я так думаю. Более того, я проводил ряд опытов, которые это подтвердили. Почему найдет? Потому что у нас длинная область, с несколькими консервативными участками. Найденное можно безболезненно расширить. А потом «обрезать» по краям референсной последовательности. Плюс, помните, что 16S, как правило, присутствует в геноме в нескольких, практически, идентичных копиях. На основе этого легко можно вычистить 99% псевдогенов.

Davidov Dec 16 2012 at 18:39

Вот тут рассмотрен один из методов. Он работает хорошо даже на большом масштабе. На маленьком масштабе можно его существенно упростить.

tac Dec 16 2012 at 18:47

Ну, и где описаны эти опыты? И то как их воспроизвести? Почему бы не написать?

Davidov Dec 16 2012 at 18:53

Ну это такой технический вопрос, обычно этим занимаются на курсовых студенты. На хабре этому точно не место. Попробуйте воспроизвести то, что по ссылке на геномах протеобактерий, думаю вы будете приятно удивлены.

P.S. Если серьезно, я подумываю о том, чтобы написать на хабре про наши исследования (через месяц выходит статья).

tac Dec 16 2012 at 18:53

вот элементарный эксперимент

берем начальный символы 16S
CATGGAGAGTTTGATCCTGGCTCAGGATGAACGCTGGCGGTATGCTTAACACATGCAAGTCGAACGGCAG

и ищем в другом организме (в том же конечно, находит), пусть

в Zymomonas mobilis subsp. mobilis ZM4

и он вообще ничего не находит :) С вас шоколадка.

Davidov Dec 16 2012 at 18:54

Пока нет, потому что надо брать всю 16S. :)

tac Dec 16 2012 at 18:59

будет только хуже

tac Dec 16 2012 at 19:05

Впрочем, ладно — действительно что-то нашел… видимо именно размер влияет…

но это лишь пол проблемы… дальше надо делать выводы о мере близости и тут вообще все плохо…

Davidov Dec 16 2012 at 18:55

Если хотите продолжить, то лучше пишите в личку.

tac Dec 16 2012 at 17:31

Кроме того, у меня ошибки аннотации — исправлены.

Что касается, недоаннотированного — то такого объема как у меня с тем что есть НЕТ НИ В ОДНОМ ИССЛЕДОВАНИИ.

tac Dec 16 2012 at 17:23

Если бы ваша критика была бы хоть немного приближена к реальности — её можно было бы воспринимать, а так полный бред. Не обижайтесь но это так.

nanotime Dec 17 2012 at 00:27

> Да, на it ресурсе вы можете сорвать плюсиков, потому что необычно и никто не способен дать критическую оценку.

Обоснованную, возможно, не можем. Зато мы видим стиль ведения беседы — минусы говорят за себя (если их не вы, конечно, воткнули))

tac Dec 17 2012 at 00:53

Стиль ведения беседы часто зависит от желания понять собеседника, и не как не коррелирует с оценкой исследования. Даже наоборот, иногда чем жестче беседа — тем больше есть смысла не соглашаться с двух сторон, это лишь показывает далекие начальные установки оппонентов.

Davidov Dec 16 2012 at 16:38

Да, и я в прошлом комментарии рассказал, как собрать последовательности 16S, практически, идеального качества. Пользоваться ncbi для поиска 16S не стоит совсем.

tac Dec 16 2012 at 15:52

Ах, да, у меня кроме того, это еще усреднено по видам внутри рода, т.е. это еще коэффициент умножения для стабильности от 2 до 5

korvint Dec 16 2012 at 19:33

Автор топика влазит (уже не первый раз) на территорию генетиков. Генетики сейчас — это отдельная каста, субкультура, научный цех. Ключевой момент в этом цеху — близость к кормушке. Научная истина критерий вторичный и не очень важный. Могу привести кучу конкретных примеров, поскольку интересуюсь генетикой, когда известные ученые отрекаются от своих убеждений, дабы не выслали с США назад в Китай рис выращивать.
IT-субкультура на порядок демократичней субкультуры генетиков, несмотря на Microsoft, Oracle и прочих монополистов. Поэтому возмущения из цеха генетиков — вещь предсказуемая и ожидаемая. Уровень демократичности, принятый в IT, недопустим в классической генетике.
Автору — пишите еще, и нагло влазьте на чужие территории. Конечно же, Вы можете ошибаться, но помните, что Максвелл, теоремы которого проходят в каждом ВУЗе, ошибался на 85%, однако ж, без его исследований не было бы IT-индустрии.

-1

tac Dec 16 2012 at 19:39

Спасибо, конечно — я ошибаюсь, если посмотреть выводы сделанные в первой статье и посмотреть на граф в этой — то окажется, что в первой статье я спекулировал на исключении (далеком родственнике, который казался близким). Но действительно — надо влазить и делать :)

korvint Dec 16 2012 at 21:33

Именно так! Влазить и делать!
Сам все хочу детальней в генетике покопаться. Тем более, что значительная часть данных есть в виде файлов, в т.ч. можно даже свой геном получить в виде CD-ROM за 500$.
Ведь наш геном — это программа. И кому в ней разбираться, как не программистам?

Davidov Dec 16 2012 at 19:56

Вы знаете, очень удобно ссылаться на теорию заговора (хотя уверяю вас, я как раз пример человека, который в «генетику» пришел сбоку). Но просто исходя из вашего комментария получается, что критиковать вообще никого нельзя. А если его критикуют, то он точно прав, так что ли?

tac Dec 16 2012 at 20:17

Тут не идет речь о теории заговора, здесь идет речь о неприятии методов, которые идут не в общей конве текущей тенденции развития отрасли. А критиковать надо со знанием дела, а не явно отдавать бездумно предпочтение только общепринятым подходам/методам.

-2

Davidov Dec 16 2012 at 20:48

Вообще-то korvint говорит именно про теорию заговора:
Ключевой момент в этом цеху — близость к кормушке. Научная истина критерий вторичный и не очень важный. Могу привести кучу конкретных примеров, поскольку интересуюсь генетикой, когда известные ученые отрекаются от своих убеждений, дабы не выслали с США назад в Китай рис выращивать.
Наверное, korvint считает, что вы сейчас отберете мой хлеб и чтоб этого не случилось, мне срочно придется вас выслать в Китай. :)

Я с большим интересом и энтузиазмом отношусь к новым методам. Вот сегодня обнаружил интересную публикацию в неплохом журнале про филогенетику и тРНК, этот метод точно не является общепринятым. И, надеюсь, что по крайней мере вы мне не отказываете в знании дела.

А что касается критики, я по-прежнему считаю, что у вашего подхода есть ряд недостатков, перечисленных выше. Более того, их можно преодолеть, но для этого их нужно признать. Ну и я все ещё считаю, что предлагая новый метод, нужно хоть как-то подтверждать его применимость и сравнивать с общепринятыми.

tac Dec 16 2012 at 21:05

Ну, давайте тогда поговорим, как по вашему можно преодолеть те недостатки, которые есть в моем методе. Это будет интереснее. (может, я тогда и признаю их наличие, просто пока недостатки моего подхода блекнут на фоне недостатков классического подхода — и я не могу назвать черное белым).

Davidov Dec 16 2012 at 21:12

Отлично, готов пообщаться по XMPP/Google Talk. Жду в личку адрес.

Здесь все-таки мы уже все зафлудили.

tac Dec 16 2012 at 21:08

Более того, я не отрицаю полезность сравнения по 16S — но считаю, что это может быть лишь дополнительным методом к сравнению по тРНК. Оно позволяет сделать кое-какие выводы, когда не хватает выводов по тРНК (а такое есть, можно посмотреть последнею версию графа — там не все вершины соединены). Но выводы сделанные по тРНК — неоспоримые (они детерминированные), а выводы по 16S всегда будут спорный в силу их статистической природы.

korvint Dec 16 2012 at 21:46

При чем тут заговор? Это классика социальной стратификации и социологии труда. Нам в летней школе читали. Если интересно, могу поискать ссылки. Меня там больше всего впечатлило сравнение современных профессий с закрытыми и полумистическими артелями средневековой Европы.
А насчет критики — покажу на примере. Когда я, зеленый аспирант, высказал новые идеи в области социологии и отправил свой автореферат директору РАН социологии, то директор РАН нашел время, чтобы лично со мной встретиться и покритиковать мою работу. Я реально спорил с директором и его помощниками, и по некоторым вопросам их реально переубеждал. Но что меня поразило, так это отсутствие враждебности, предвзятости и важности с их стороны. Они внутренне хотели согласиться со мной, но некоторые имеющиеся у них знания не позволяли им сделать это, и они просто говорили мне — а как же то, а как же это. После общения с ними я сильно переосмыслил свои идеи.
На мой взгляд, критиковать надо именно так, чтобы человек не потерял интереса к исследуемой проблеме. Критиковать доброжелательно. Тем более что современная наука лишь слегка приоткрыла тайны генетики, и много еще впереди.

-1

Davidov Dec 17 2012 at 00:12

Я могу рассказать вам точно такую же историю про аспиранта биоинформатика и советника министра. Закрытость биоинформатики — это скорее миф.
Ну и учтите к тому же, сколько вы проучились прежде чем написать что-то, что хоть как-то осмысленно можно обсуждать.
И да, с tac мы сейчас в процессе дискуссии, не понял, с чего вы взяли, что он потерял интерес.

tac Dec 17 2012 at 00:49

Ну, это меня не так просто напугать «жесткой критикой», а так korvint прав чаще нужна более мягкая и вразумительная критика, предполагающая, что и оппонент в чем-то прав…

tac Dec 16 2012 at 19:36

Я тут подумал какие лучше связи было бы правильно убрать. Пришел к выводу, что надо решать задачу «о нахождении максимального потока на графе». Только там вроде как надо указывать, какие истоки и какие стоки. И нужно чтобы поток прошел по всем вершинам.

1. может кто встречал реализации алгоритмов, которые это делают
2. как определить истоки/стоки — при необходимости задействовать все вершины

tac Dec 16 2012 at 19:43

P.S. Ручками кодировать очень не хотелось бы, хотя на втором курсе это делал, но успешно все забыл :)

tac Dec 17 2012 at 05:47

В следующей статье даю доп. пояснения как правильно читать граф.

Show the best of all time