kate_artamonova Jul 21 2020 at 17:31

Всё-таки я не зря учился! Как клёвые алгоритмы и школьные формулы помогают создавать инновационные лекарства

16 min

10K

Образовательные проекты JetBrains corporate blogMathematics*Biotechnologies

+30

Comments 15

Nick_Shl Jul 22 2020 at 00:22

А что значат все эти петли, тонкие нитки, стрелочки и так далее?

Enverest Jul 22 2020 at 01:28

Википедия

Ленточная диаграмма — схематичное трехмерное изображение структуры белка. Альфа-спирали на диаграмме изображаются лентами, бета-листы — стрелками, случайные спирали — линиями или тонкими трубками. Направление, в котором рассматривается цепочка, может быть отображено плавным изменением цвета ленты.

masha_kupina Jul 22 2020 at 10:45

спасибо, интересно, лаконично, информативно, жаль плюсануть не могу)

AlexKaneRUS Jul 22 2020 at 08:04

Вообще, так принято обозначать вторичную структуру белков! Она отвечает за некоторые биологические свойства молекул.

«Стрелками» обозначают бета-листы. Также есть альфа-спирали, которые обозначаются буквально как спирали. «Ниточками» же обозначают элементы без вторичной структуры, например, петли.

v1000 Jul 22 2020 at 09:20

А что же тогда с Foldit, где надо белки самому руками «крутить»? Баловство или? Потому что они это позиционируют как альтернативу вычислительной биологии.

AlexKaneRUS Jul 22 2020 at 11:07

Вообще, я ни разу не встречал случаев применения Foldit в продуктовых проектах!

Foldit решает задачу фолдинга, то есть задачу предсказания структуры одной молекулы. В принципе, если есть время, то можно экспериментально получить структуру этой молекулы, не прибегая ни к каким инструментам и сервисам, и результат будет качественным. Но времени обычно нет, поэтому структурные биологи прибегают к помощи автоматических инструментов, которые гарантированно выдают какой-то более-менее разумный результат за маленький промежуток времени!

Насколько я понимаю, с Foldit этой гарантии получения результата за конечное время нет.

nanmen Jul 22 2020 at 13:46

В Фолдите докинг тоже есть

AlexKaneRUS Jul 22 2020 at 13:57

Не знал!

Но, кажется, ситуация при решении задачи докинга получается аналогичная. Вычислительные методы — быстро, дёшево и понятно. Foldit — клёвый эксперимент, применимость которого для решения продуктовых задач пока изучена плохо!

zmactep Jul 23 2020 at 14:46

В основе FoldIt лежит весьма серьезная вычислительная биология — статистический потенциал Rosetta, пожалуй, лучший на сегодняшний момент. Именно он оценивает, на сколько хороша текущая конформация белка. Фишка FoldIt немного в ином: даже имея супер-клевый и максимально сглаженный потенциал, вы все равно будете бороться с задачей поиска глобального максимума невыпуклого функционала. Это вычислительно очень сложная задача, чаще всего просто нерешаемая. А вот человеки такие задачки, потенциально, решают хорошо.

Подход, действительно, можно использовать и для фолдинга (в том числе многоцепочечных белков, где докинг — часть процесса), и для поиска не супер-стабильных комплексов типа антитело-антиген. И хоть несколько раз ручной подход давал неплохие результаты, это явно не индустриальное решение, где требуется сворачивать и предсказывать комплексы для сотен белков в год. Здесь гораздо правильнее руководствоваться правилом, что хоть упомянутые задачи и неразрешимы для всех белков, они могут быть решены для каждого белка. То есть искать закономерности, характерные для конкретного класса и всячески их утилизировать. Что Александр в своей работе и делал.

Brak0del Jul 22 2020 at 13:44

Если не секрет, чем считают описанные вещи у вас в организации и чувствуется ли потребность в каком-то специфическом железе?
Встречал упоминания использования суперкомпьютеров для похожих (насколько могу судить) задач. Также встречал упоминания использования FPGA, но это были скорее рекламные проспекты, так что не знаю, насколько можно им доверять.

AlexKaneRUS Jul 22 2020 at 14:34

Совсем не секрет! Наш алгоритм докинга в процессе своей работы использует некоторое количество ГПУ V100. ЦПУшки абсолютно стандартные и никакого интереса не представляют!

Но да, на каком-нибудь суперкомпьютере можно было бы получать намного боле точные результаты!

Brak0del Jul 22 2020 at 14:49

Вас понял, благодарю.

zv347 Jul 23 2020 at 06:18

Спасибо за прекрасное описание алгоритмов, понятно даже биологу.

Как я понял, ваш докинг моделирует PPI (белок-белковые взаимодействия). PPI — задача вычислительно сложная из-за большой потенциальной площади соприкосновения двух белков (это одна из причин, почему в драг-дизайне лекарства обычно маленькие). Сколько примерно пар аминокислот вовлечено во взаимодействие в ваших моделях? Судя по картинке с красными петлями, порядка 10-20. (Мне это интересно для своих целей.)

Второе. Насколько я понял из описания алгоритмов, ваш докинг — жесткий, т.е. меняется только взаиморасположение молекул, но не их структура. Между тем общеизвестно, что петли лабильны, и это учитывается всегда, когда возможно. Вы не используете гибкий докинг потому что это не нужно или потому что это пока еще невозможно?

AlexKaneRUS Jul 23 2020 at 15:38

Рад, что было понятно :)

По первому вопросу! Я тут посмотрел на наши тестовые комплексы, и результаты там примерно следующие. Количество взаимодействующих пар аминокислотных остатков разнится от комплекса к комплексу: может быть действительно 20 пар, а может быть и 50!

По второму вопросу. Сейчас мы не используем гибкий докинг ни в каком виде, но очень надо бы: даже в нашей тестовой выборке есть примеры комплексов, которые по-другому не предсказать. У нас есть понимание того, как добавить «гибкость» в существующий алгоритм (например, можно посемпилировать конформации петель перед его запуском), но пока до этого руки, увы, не дошли!

longclaps Mar 10 2021 at 01:09

complexes.sort(lambda candidate_complex: score_complex(candidate_complex))

Хорошая, жирная лямбда. Неужто в ИТМО такому учат?