Comments
Неорганических химических веществ может быть огромное количество — от 10**18

Это не совсем так. Дело в том, что неорганические соединения с количеством химических элементов более 3 (кватернарные, квинтернарные и т.д.) склонны к вырождению, т.е. их свойства в основном определяются 2-3 элементами. Таким образом, формально ваше утверждение верно, но на практике — нет. С этим связана идея high-throughput materials design, поиска новых материалов путём простого перебора.

Все-таки Вы майните *список работ* на тему генов, влияющих на прогноз, а не список таких генов.
Малость позанудствую.
В этой статье я приведу примеры составления списка генов ответственных за плохой прогноз по выживаемости от рака и код поиска органических соединений и их номеров среди всех химических молекул базы ПабЧем.

Для поиска упоминаний в тексте растения используем .find(' plant'). В конце сохраняем файл с получившимися органическими соединениями и их номерами в ПабЧем-е.

Поскольку PubChem — база данных химических соединений и смесей, Chem — это, по идее, сокращение от слова chemical, которое читается приблизительно как «кемикл». Это я к тому, что PubChem читается как «пабкем».

Чую, что при таком коде где-то обязательно должна быть ошибка )) статическим анализатором бы это проверить...

Data mining в pubmed существенно интереснее, если поднять его локально. Особенно метаанализ. Полная база данных и апдейты скачиваются с ftp.

Only those users with full accounts are able to leave comments. Log in, please.