Portah 30 янв 2012 в 09:44

Практическая биоинформатика ч.3. Оценка значимости экспериментальных данных

9 мин

6.1K

Биотехнологии

+17

Комментарии 11

yellow 31 янв 2012 в 15:50

Фигасе, более суток назад пост написан. И не одного комента. Наверное, никто ничего не понял. Либо не стал даже читать. А я сам мельком глянул.

vxsw 31 янв 2012 в 19:11

При чтении подобных постов я ощущаю себя ребенком, впервые увидевшим код на бейсике:)

Portah 31 янв 2012 в 19:22

Ну не так уж и страшен черт, как его малюют. Тут, вопрос только в том, насколько применим Пуассон в таком контексте. Т.е. этот метод оправдан, даст ли он искомый результат? Но судя по статьям, и то, что его используют, многие думают, что оправдан. Хотя я уже читал, что биноминальное распределение более точно описывает. А так чего сложного-то вычислить lambda, подсчитать k по известным данным, да подставить их в формулу.

dunordavind 31 янв 2012 в 20:58

А почему порог выбран именно 1e-16?

Portah 31 янв 2012 в 21:17

Параметр p value, характеризует: с каким процентом ошибки мы согласны мириться. Обычно, все довольны результатом с p value < 0.05 (5%), так что наша оцнка будет считаться очень хорошей.

dunordavind 1 фев 2012 в 01:56

Я знаю что такое pvalue, но мне все-таки непонятно как я смогу например в статье обосновать выбор порога. Да, 0.05 — все привыкли, а 1e-16 выглядит немного непривычно. Почему не 1e-10 или -5? А кроме того, множественное тестирование в данном случае не принимается в расчет?

Portah 1 фев 2012 в 02:02

Надо смотреть на данные, я же не сказал, что все обязанны придерживатся. Если вас устроивает ошибка в 1% так и берите 0.01. Мы хотели посмотреть на больше количество вариантов.

Потом это один из подходов. Вот скоро будет вводная часть в ZINBA, тогда будет рассуждать а чтоже там такое.
Пока нет в библиотеке контроля не понятно, что с ней делать. Это один из методов как пощупать результат.

Portah 1 фев 2012 в 02:31

Так же если посмотреть, на сами данные то этому значению p value будет соответствовать примерно 8-11 ридов, на окно в 500. Интересно, что можно получить из этих данных?

Portah 1 фев 2012 в 04:35

А теперь правильный ответ, пришлось подтянуть мат часть.

Имеем N окон, для каждого из которого проверям нулевую гипотезу (множественное тестирование). Тогда в расчет принимается Bonferoni correction, и в нашем случае получается следующее: мы готовы мириться с тем, что хотя бы один фрагмент будет считаться обогащенным ошибочно с вероятностью 1%. Значит для каждого окна потребуем, чтобы p value было меньше чем 0.01/N. Т.е. p value должно быть меньше 0.01/4565206.228 примерно равно 2.19E-9, я написал 1E-15 что ещё меньше.

С биологической точки зреня это p value слишком строга, так как вероятность внесения ошибки на биологической стороне существенно больше.

dunordavind 1 фев 2012 в 20:34

Спасибо. Я тоже примерно прикидывал с учетом Бонефрони, потому и спрашивал. Тут меня удивило то, что биологи обычно требуют предоставить им как можно больше данных и очень не любят когда эти данные всячески фильтруют. Поэтому часто они просят максимально «натянуть» порог.

Portah 1 фев 2012 в 20:39

Ну мы сначала, взяли все, что получили из машинки, скормили кластеринг и в хитмэп — получили кашу Стали думать, что да как, стали смотреть вокруг старт сайтов только — каша. Загнали все в геном браузер и глазками, поняли, что смотрим немного не там. Появилась едея… в общем сейчас будем смотреть с помощью ZINBA глазками. Если что прорисуется — будет замечательно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Практическая биоинформатика ч.3. Оценка значимости экспериментальных данных

Комментарии 11

Публикации

Истории