Comments 15
Ленточная диаграмма — схематичное трехмерное изображение структуры белка. Альфа-спирали на диаграмме изображаются лентами, бета-листы — стрелками, случайные спирали — линиями или тонкими трубками. Направление, в котором рассматривается цепочка, может быть отображено плавным изменением цвета ленты.
«Стрелками» обозначают бета-листы. Также есть альфа-спирали, которые обозначаются буквально как спирали. «Ниточками» же обозначают элементы без вторичной структуры, например, петли.
А что же тогда с Foldit, где надо белки самому руками «крутить»? Баловство или? Потому что они это позиционируют как альтернативу вычислительной биологии.
Foldit решает задачу фолдинга, то есть задачу предсказания структуры одной молекулы. В принципе, если есть время, то можно экспериментально получить структуру этой молекулы, не прибегая ни к каким инструментам и сервисам, и результат будет качественным. Но времени обычно нет, поэтому структурные биологи прибегают к помощи автоматических инструментов, которые гарантированно выдают какой-то более-менее разумный результат за маленький промежуток времени!
Насколько я понимаю, с Foldit этой гарантии получения результата за конечное время нет.
В основе FoldIt лежит весьма серьезная вычислительная биология — статистический потенциал Rosetta, пожалуй, лучший на сегодняшний момент. Именно он оценивает, на сколько хороша текущая конформация белка. Фишка FoldIt немного в ином: даже имея супер-клевый и максимально сглаженный потенциал, вы все равно будете бороться с задачей поиска глобального максимума невыпуклого функционала. Это вычислительно очень сложная задача, чаще всего просто нерешаемая. А вот человеки такие задачки, потенциально, решают хорошо.
Подход, действительно, можно использовать и для фолдинга (в том числе многоцепочечных белков, где докинг — часть процесса), и для поиска не супер-стабильных комплексов типа антитело-антиген. И хоть несколько раз ручной подход давал неплохие результаты, это явно не индустриальное решение, где требуется сворачивать и предсказывать комплексы для сотен белков в год. Здесь гораздо правильнее руководствоваться правилом, что хоть упомянутые задачи и неразрешимы для всех белков, они могут быть решены для каждого белка. То есть искать закономерности, характерные для конкретного класса и всячески их утилизировать. Что Александр в своей работе и делал.
Встречал упоминания использования суперкомпьютеров для похожих (насколько могу судить) задач. Также встречал упоминания использования FPGA, но это были скорее рекламные проспекты, так что не знаю, насколько можно им доверять.
Как я понял, ваш докинг моделирует PPI (белок-белковые взаимодействия). PPI — задача вычислительно сложная из-за большой потенциальной площади соприкосновения двух белков (это одна из причин, почему в драг-дизайне лекарства обычно маленькие). Сколько примерно пар аминокислот вовлечено во взаимодействие в ваших моделях? Судя по картинке с красными петлями, порядка 10-20. (Мне это интересно для своих целей.)
Второе. Насколько я понял из описания алгоритмов, ваш докинг — жесткий, т.е. меняется только взаиморасположение молекул, но не их структура. Между тем общеизвестно, что петли лабильны, и это учитывается всегда, когда возможно. Вы не используете гибкий докинг потому что это не нужно или потому что это пока еще невозможно?
По первому вопросу! Я тут посмотрел на наши тестовые комплексы, и результаты там примерно следующие. Количество взаимодействующих пар аминокислотных остатков разнится от комплекса к комплексу: может быть действительно 20 пар, а может быть и 50!
По второму вопросу. Сейчас мы не используем гибкий докинг ни в каком виде, но очень надо бы: даже в нашей тестовой выборке есть примеры комплексов, которые по-другому не предсказать. У нас есть понимание того, как добавить «гибкость» в существующий алгоритм (например, можно посемпилировать конформации петель перед его запуском), но пока до этого руки, увы, не дошли!
complexes.sort(lambda candidate_complex: score_complex(candidate_complex))
Хорошая, жирная лямбда. Неужто в ИТМО такому учат?
Всё-таки я не зря учился! Как клёвые алгоритмы и школьные формулы помогают создавать инновационные лекарства