Comments 20
1. NCBI — это институт (контора, грубо говоря). База со структурами называется Genbank. И она не единственная.
2. Вам, скорее всего, не нужны сырые данные с ftp. У нас есть куча инструментов, специально предназначенных для поиска данных. Как онлайновых, так и оффлайновых. С удобным доступом к свежим данным в базе, а не к тому, что лежит на ftp.
3. Если вас чем-то не устраивают готовые инструменты, вы можете написать свой. Для этого есть специальный toolkit, которым я, собственно, и занимаюсь.
4. Обработкой данных и написанием инструментария занимаются сотни людей. На это тратятся весьма немалые деньги. Вы серьезно полагаете, что сможете с кучкой энтузиастов на коленке сделать лучше? Вы хотя бы объем данных представляете? Точно не скажу, но ориентироваться надо на терабайты в день новых поступлений. Конечно, в базу кладется гораздо меньше, но тоже весьма прилично.
5. «Ошибки» типа сдвига на 1-2-3 основания — это, скорее всего, не ошибки, а норма. Ключевое слово (одно из многих) — frame. Дальше сложновато для комментария. Есть еще полезные слова: SNP, например. Все это описано в базе. Для сравнения разных структур есть специальный вид данных — alignment, который тоже есть в базе. Именно поэтому люди и не работают с сырыми данными, а используют инструменты типа blast.
Если вы биолог (биохомик/биофизик) и вам интересна эта тема — обращайтесь в личку. Попробую вывести на нужных людей (сам я, хоть и биофизик, но занимаюсь довольно низкоуровневыми частями вышеупомянугого тулкита). Но для начала я посоветовал бы полазить по нашему сайту и почитать документацию. И просто книжки по биохимии, какие найдете.
2. Вам, скорее всего, не нужны сырые данные с ftp. У нас есть куча инструментов, специально предназначенных для поиска данных. Как онлайновых, так и оффлайновых. С удобным доступом к свежим данным в базе, а не к тому, что лежит на ftp.
3. Если вас чем-то не устраивают готовые инструменты, вы можете написать свой. Для этого есть специальный toolkit, которым я, собственно, и занимаюсь.
4. Обработкой данных и написанием инструментария занимаются сотни людей. На это тратятся весьма немалые деньги. Вы серьезно полагаете, что сможете с кучкой энтузиастов на коленке сделать лучше? Вы хотя бы объем данных представляете? Точно не скажу, но ориентироваться надо на терабайты в день новых поступлений. Конечно, в базу кладется гораздо меньше, но тоже весьма прилично.
5. «Ошибки» типа сдвига на 1-2-3 основания — это, скорее всего, не ошибки, а норма. Ключевое слово (одно из многих) — frame. Дальше сложновато для комментария. Есть еще полезные слова: SNP, например. Все это описано в базе. Для сравнения разных структур есть специальный вид данных — alignment, который тоже есть в базе. Именно поэтому люди и не работают с сырыми данными, а используют инструменты типа blast.
Если вы биолог (биохомик/биофизик) и вам интересна эта тема — обращайтесь в личку. Попробую вывести на нужных людей (сам я, хоть и биофизик, но занимаюсь довольно низкоуровневыми частями вышеупомянугого тулкита). Но для начала я посоветовал бы полазить по нашему сайту и почитать документацию. И просто книжки по биохимии, какие найдете.
+4
Извиняюсь, а как вы, собственно, сумели зайти на наш ftp? Он, вроде, снаружи не должен быть виден.
0
:) Вот теперь почему то стал не виден, а так лет 5 как виден был :)
0
Ан, нет виден… по ссылке www.ncbi.nlm.nih.gov/genbank/ftp/
+1
> Вам, скорее всего, не нужны сырые данные с ftp
О нет, извините, но инструменты ваши меня не устраивают, а то что есть на ftp самое то
> Вы серьезно полагаете, что сможете с кучкой энтузиастов на коленке сделать лучше? Вы хотя бы объем данных представляете?
Да, думаю можно. Объемы не стоит преувеличивать — порядка сотен гигов все геномы которые есть. А так все бактерии — 20 гигов.
Но, конечно, контакт с NCBI — помог бы… может они сами захотят исправить свои ошибки ;)
О нет, извините, но инструменты ваши меня не устраивают, а то что есть на ftp самое то
> Вы серьезно полагаете, что сможете с кучкой энтузиастов на коленке сделать лучше? Вы хотя бы объем данных представляете?
Да, думаю можно. Объемы не стоит преувеличивать — порядка сотен гигов все геномы которые есть. А так все бактерии — 20 гигов.
Но, конечно, контакт с NCBI — помог бы… может они сами захотят исправить свои ошибки ;)
0
> «Ошибки» типа сдвига на 1-2-3 основания — это, скорее всего, не ошибки, а норма. Ключевое слово (одно из многих) — frame.
О нет! речь не идет о белках в данном случае, речь о РНК. И рамка считывания тут не причем.
> инструменты типа blast
выравнивание тут не нужно, речь о другом.
О нет! речь не идет о белках в данном случае, речь о РНК. И рамка считывания тут не причем.
> инструменты типа blast
выравнивание тут не нужно, речь о другом.
0
Налицо полное непонимание основ секвенирования и принципов наполнения геномных баз данных.
1. Сиквенсы бывают длинными и короткими. Для длинных велики ошибки чтения, для коротких — ошибки сборки.
2. Секвенирование всегда ведется неоднократно.
3. Различие в сиквенсах может свидетельствовать не об инструментальной ошибке, а о различных мутациях.
4. Единого центра верификации нет, любой человек может послать последовательность. Люди используют в работе то, что считают нужным и явный шлак отбраковывают.
5. Сиквенс отдельно от эксперимента в котором он получен — бессмысленен. Хотя бы из-за различных методик секвенирования.
Ваши претензии сродны тем, что в яндексе по важным ключевым словам кроме правильных ссылок находятся кривые домашние странички и говносайты. Ну так, елси оно не нужно — фильтруйте, кто ж мешает.
1. Сиквенсы бывают длинными и короткими. Для длинных велики ошибки чтения, для коротких — ошибки сборки.
2. Секвенирование всегда ведется неоднократно.
3. Различие в сиквенсах может свидетельствовать не об инструментальной ошибке, а о различных мутациях.
4. Единого центра верификации нет, любой человек может послать последовательность. Люди используют в работе то, что считают нужным и явный шлак отбраковывают.
5. Сиквенс отдельно от эксперимента в котором он получен — бессмысленен. Хотя бы из-за различных методик секвенирования.
Ваши претензии сродны тем, что в яндексе по важным ключевым словам кроме правильных ссылок находятся кривые домашние странички и говносайты. Ну так, елси оно не нужно — фильтруйте, кто ж мешает.
0
Налицо не понимание того о чем вы читаете в моей статье — а бред который вы говорите я даже обсуждать не буду, так далеко вы не правы.
0
Впрочем, для читателя поясню, а то еще вам поверят :)
> 3. Различие в сиквенсах может свидетельствовать не об инструментальной ошибке, а о различных мутациях.
Речь именно о ошибках. В статье разжевано для малышей — написано что в организме №1 ген начинается с позиции N, а на самом деле он начинается скажем с позиции N-3. Почему? Потому что в другом организме №2 ген указан правильно. Берем его и идем обратно в полный сиквенс ДНК — и без проблем находим там правильную последовательность, для нее просто не правильно идентифицированно местоположение.
В общем для желающих я могу объяснить как это им посмотреть самим, если не верите.
> 1. Сиквенсы бывают длинными и короткими. Для длинных велики ошибки чтения, для коротких — ошибки сборки. 2. Секвенирование всегда ведется неоднократно. 4. Единого центра верификации нет, любой человек может послать последовательность. Люди используют в работе то, что считают нужным и явный шлак отбраковывают.
То как идет секвенирование тут совершенно не причем. А вот то, что нет элементарного кросс-анализа при верификации — это и проблема. Там не шлак — там просто неточные данные.
> Ну так, елси оно не нужно — фильтруйте, кто ж мешает.
Оно нужно, так как геномов бактерий всего 2000, а так я отфильтрую 60% — я предпочитаю исправить.
> 3. Различие в сиквенсах может свидетельствовать не об инструментальной ошибке, а о различных мутациях.
Речь именно о ошибках. В статье разжевано для малышей — написано что в организме №1 ген начинается с позиции N, а на самом деле он начинается скажем с позиции N-3. Почему? Потому что в другом организме №2 ген указан правильно. Берем его и идем обратно в полный сиквенс ДНК — и без проблем находим там правильную последовательность, для нее просто не правильно идентифицированно местоположение.
В общем для желающих я могу объяснить как это им посмотреть самим, если не верите.
> 1. Сиквенсы бывают длинными и короткими. Для длинных велики ошибки чтения, для коротких — ошибки сборки. 2. Секвенирование всегда ведется неоднократно. 4. Единого центра верификации нет, любой человек может послать последовательность. Люди используют в работе то, что считают нужным и явный шлак отбраковывают.
То как идет секвенирование тут совершенно не причем. А вот то, что нет элементарного кросс-анализа при верификации — это и проблема. Там не шлак — там просто неточные данные.
> Ну так, елси оно не нужно — фильтруйте, кто ж мешает.
Оно нужно, так как геномов бактерий всего 2000, а так я отфильтрую 60% — я предпочитаю исправить.
0
еще раз, правильность файла fna я проверить не могу. Речь идет о массовых ошибках в файлах .frn, .rnt (аналогично для белков, но это отдельных разговор).
0
Я сам не очень разбираюсь в геномных вещах, но могу вас связать с людьми, которые отвечают именно за это. Они вам объяснять, почему данные именно такие, а не другие. Сильно подозреваю, что это именно результат сырости. Используя правильные данные и правильные инструменты вы получите правильный ответ. Конечно, ошибки случаются у всех, но когда вы говорите про половину брака — это явно ваше непонимание происходящего, а не плохая работа профессионалов.
0
> любой человек может послать последовательность
Это не верно, любой био. институт да — но не человек
Это не верно, любой био. институт да — но не человек
0
Эта ветка дискуссии из темы рядом — на самом деле относится к этой статье. И мне стыдно за специалиста который так говорит… но судите сами.
-1
Вы жа там бред несете. Еще раз: свяжитесь со специалистами, они вам объяснят, что к чему. NCBI отвечает на вопросы пользователей довольно оперативно. Если, конечно, это нормальный вопрос по делу, а не наезд профана, возомнившего себя гением в духе «вы там все дураки сидите, давайте я вас сейчас научу, как надо».
0
Году так в 2003 когда этим занимался, мы тоже подымали вопрос об качестве секвенированных данных (искали рекомбинации в имунно-глабулиновых генах). Тогда пришли к мнению о 70% достоверности и возможности только статистических исследований. Сейчас наверное многое изменилось хотя я недавно статейку в «В мире науки»(SciAmerican) читал кок-раз про низкое качество данных для исследований и ограничений современных методов секвенирования. На первых порах наверное это не сильно влияло на исследования, но сейчас всё сильнее и сильнее.
+1
Sign up to leave a comment.
Геномы секвенированных организмов — ошибки в базах