tac Jun 30 2012 at 03:14

Геномы секвенированных организмов — ошибки в базах

4 min

Comments 20

Kalobok Jun 30 2012 at 09:23

1. NCBI — это институт (контора, грубо говоря). База со структурами называется Genbank. И она не единственная.

2. Вам, скорее всего, не нужны сырые данные с ftp. У нас есть куча инструментов, специально предназначенных для поиска данных. Как онлайновых, так и оффлайновых. С удобным доступом к свежим данным в базе, а не к тому, что лежит на ftp.

3. Если вас чем-то не устраивают готовые инструменты, вы можете написать свой. Для этого есть специальный toolkit, которым я, собственно, и занимаюсь.

4. Обработкой данных и написанием инструментария занимаются сотни людей. На это тратятся весьма немалые деньги. Вы серьезно полагаете, что сможете с кучкой энтузиастов на коленке сделать лучше? Вы хотя бы объем данных представляете? Точно не скажу, но ориентироваться надо на терабайты в день новых поступлений. Конечно, в базу кладется гораздо меньше, но тоже весьма прилично.

5. «Ошибки» типа сдвига на 1-2-3 основания — это, скорее всего, не ошибки, а норма. Ключевое слово (одно из многих) — frame. Дальше сложновато для комментария. Есть еще полезные слова: SNP, например. Все это описано в базе. Для сравнения разных структур есть специальный вид данных — alignment, который тоже есть в базе. Именно поэтому люди и не работают с сырыми данными, а используют инструменты типа blast.

Если вы биолог (биохомик/биофизик) и вам интересна эта тема — обращайтесь в личку. Попробую вывести на нужных людей (сам я, хоть и биофизик, но занимаюсь довольно низкоуровневыми частями вышеупомянугого тулкита). Но для начала я посоветовал бы полазить по нашему сайту и почитать документацию. И просто книжки по биохимии, какие найдете.

Kalobok Jun 30 2012 at 09:35

Извиняюсь, а как вы, собственно, сумели зайти на наш ftp? Он, вроде, снаружи не должен быть виден.

tac Jun 30 2012 at 10:51

:) Вот теперь почему то стал не виден, а так лет 5 как виден был :)

tac Jun 30 2012 at 13:02

Это я просто неправильные ссылки в статье поставил — они на http. А нужны на ftp

tac Jun 30 2012 at 10:54

Ан, нет виден… по ссылке www.ncbi.nlm.nih.gov/genbank/ftp/

tac Jun 30 2012 at 11:00

> Вам, скорее всего, не нужны сырые данные с ftp

О нет, извините, но инструменты ваши меня не устраивают, а то что есть на ftp самое то

> Вы серьезно полагаете, что сможете с кучкой энтузиастов на коленке сделать лучше? Вы хотя бы объем данных представляете?

Да, думаю можно. Объемы не стоит преувеличивать — порядка сотен гигов все геномы которые есть. А так все бактерии — 20 гигов.

Но, конечно, контакт с NCBI — помог бы… может они сами захотят исправить свои ошибки ;)

tac Jun 30 2012 at 11:06

> «Ошибки» типа сдвига на 1-2-3 основания — это, скорее всего, не ошибки, а норма. Ключевое слово (одно из многих) — frame.

О нет! речь не идет о белках в данном случае, речь о РНК. И рамка считывания тут не причем.

> инструменты типа blast

выравнивание тут не нужно, речь о другом.

gleb_kudr Jun 30 2012 at 11:13

Налицо полное непонимание основ секвенирования и принципов наполнения геномных баз данных.

1. Сиквенсы бывают длинными и короткими. Для длинных велики ошибки чтения, для коротких — ошибки сборки.
2. Секвенирование всегда ведется неоднократно.
3. Различие в сиквенсах может свидетельствовать не об инструментальной ошибке, а о различных мутациях.
4. Единого центра верификации нет, любой человек может послать последовательность. Люди используют в работе то, что считают нужным и явный шлак отбраковывают.
5. Сиквенс отдельно от эксперимента в котором он получен — бессмысленен. Хотя бы из-за различных методик секвенирования.

Ваши претензии сродны тем, что в яндексе по важным ключевым словам кроме правильных ссылок находятся кривые домашние странички и говносайты. Ну так, елси оно не нужно — фильтруйте, кто ж мешает.

tac Jun 30 2012 at 11:18

Налицо не понимание того о чем вы читаете в моей статье — а бред который вы говорите я даже обсуждать не буду, так далеко вы не правы.

tac Jun 30 2012 at 11:34

Впрочем, для читателя поясню, а то еще вам поверят :)

> 3. Различие в сиквенсах может свидетельствовать не об инструментальной ошибке, а о различных мутациях.

Речь именно о ошибках. В статье разжевано для малышей — написано что в организме №1 ген начинается с позиции N, а на самом деле он начинается скажем с позиции N-3. Почему? Потому что в другом организме №2 ген указан правильно. Берем его и идем обратно в полный сиквенс ДНК — и без проблем находим там правильную последовательность, для нее просто не правильно идентифицированно местоположение.

В общем для желающих я могу объяснить как это им посмотреть самим, если не верите.

> 1. Сиквенсы бывают длинными и короткими. Для длинных велики ошибки чтения, для коротких — ошибки сборки. 2. Секвенирование всегда ведется неоднократно. 4. Единого центра верификации нет, любой человек может послать последовательность. Люди используют в работе то, что считают нужным и явный шлак отбраковывают.

То как идет секвенирование тут совершенно не причем. А вот то, что нет элементарного кросс-анализа при верификации — это и проблема. Там не шлак — там просто неточные данные.

> Ну так, елси оно не нужно — фильтруйте, кто ж мешает.

Оно нужно, так как геномов бактерий всего 2000, а так я отфильтрую 60% — я предпочитаю исправить.

tac Jun 30 2012 at 11:41

еще раз, правильность файла fna я проверить не могу. Речь идет о массовых ошибках в файлах .frn, .rnt (аналогично для белков, но это отдельных разговор).

Kalobok Jun 30 2012 at 20:35

Я сам не очень разбираюсь в геномных вещах, но могу вас связать с людьми, которые отвечают именно за это. Они вам объяснять, почему данные именно такие, а не другие. Сильно подозреваю, что это именно результат сырости. Используя правильные данные и правильные инструменты вы получите правильный ответ. Конечно, ошибки случаются у всех, но когда вы говорите про половину брака — это явно ваше непонимание происходящего, а не плохая работа профессионалов.

tac Jun 30 2012 at 21:36

Нужно начинать с малого если говорить по сути. В статье описан «один самый простой пример» — давайте начнем с того, что вы признаете что в данном конкретном месте ошибка.

tac Jun 30 2012 at 13:05

> любой человек может послать последовательность

Это не верно, любой био. институт да — но не человек

tac Jun 30 2012 at 14:07

Эта ветка дискуссии из темы рядом — на самом деле относится к этой статье. И мне стыдно за специалиста который так говорит… но судите сами.

-1

Kalobok Jun 30 2012 at 20:47

Вы жа там бред несете. Еще раз: свяжитесь со специалистами, они вам объяснят, что к чему. NCBI отвечает на вопросы пользователей довольно оперативно. Если, конечно, это нормальный вопрос по делу, а не наезд профана, возомнившего себя гением в духе «вы там все дураки сидите, давайте я вас сейчас научу, как надо».

tac Jun 30 2012 at 21:37

В чем же бред?

tac Jun 30 2012 at 21:39

Впрочем давайте оставим эмоциональные оценки в пользу разговора по сути и на конкретном пример.

stalkerg Aug 14 2012 at 17:48

Году так в 2003 когда этим занимался, мы тоже подымали вопрос об качестве секвенированных данных (искали рекомбинации в имунно-глабулиновых генах). Тогда пришли к мнению о 70% достоверности и возможности только статистических исследований. Сейчас наверное многое изменилось хотя я недавно статейку в «В мире науки»(SciAmerican) читал кок-раз про низкое качество данных для исследований и ограничений современных методов секвенирования. На первых порах наверное это не сильно влияло на исследования, но сейчас всё сильнее и сильнее.

stalkerg Aug 14 2012 at 17:50

реквестирую удаление или редактирование комментариев. >_<

Show the best of all time