Как стать автором
Обновить

Комментарии 11

Фигасе, более суток назад пост написан. И не одного комента. Наверное, никто ничего не понял. Либо не стал даже читать. А я сам мельком глянул.
При чтении подобных постов я ощущаю себя ребенком, впервые увидевшим код на бейсике:)
Ну не так уж и страшен черт, как его малюют. Тут, вопрос только в том, насколько применим Пуассон в таком контексте. Т.е. этот метод оправдан, даст ли он искомый результат? Но судя по статьям, и то, что его используют, многие думают, что оправдан. Хотя я уже читал, что биноминальное распределение более точно описывает. А так чего сложного-то вычислить lambda, подсчитать k по известным данным, да подставить их в формулу.
А почему порог выбран именно 1e-16?
Параметр p value, характеризует: с каким процентом ошибки мы согласны мириться. Обычно, все довольны результатом с p value < 0.05 (5%), так что наша оцнка будет считаться очень хорошей.
Я знаю что такое pvalue, но мне все-таки непонятно как я смогу например в статье обосновать выбор порога. Да, 0.05 — все привыкли, а 1e-16 выглядит немного непривычно. Почему не 1e-10 или -5? А кроме того, множественное тестирование в данном случае не принимается в расчет?
Надо смотреть на данные, я же не сказал, что все обязанны придерживатся. Если вас устроивает ошибка в 1% так и берите 0.01. Мы хотели посмотреть на больше количество вариантов.

Потом это один из подходов. Вот скоро будет вводная часть в ZINBA, тогда будет рассуждать а чтоже там такое.
Пока нет в библиотеке контроля не понятно, что с ней делать. Это один из методов как пощупать результат.
Так же если посмотреть, на сами данные то этому значению p value будет соответствовать примерно 8-11 ридов, на окно в 500. Интересно, что можно получить из этих данных?
А теперь правильный ответ, пришлось подтянуть мат часть.

Имеем N окон, для каждого из которого проверям нулевую гипотезу (множественное тестирование). Тогда в расчет принимается Bonferoni correction, и в нашем случае получается следующее: мы готовы мириться с тем, что хотя бы один фрагмент будет считаться обогащенным ошибочно с вероятностью 1%. Значит для каждого окна потребуем, чтобы p value было меньше чем 0.01/N. Т.е. p value должно быть меньше 0.01/4565206.228 примерно равно 2.19E-9, я написал 1E-15 что ещё меньше.

С биологической точки зреня это p value слишком строга, так как вероятность внесения ошибки на биологической стороне существенно больше.
Спасибо. Я тоже примерно прикидывал с учетом Бонефрони, потому и спрашивал. Тут меня удивило то, что биологи обычно требуют предоставить им как можно больше данных и очень не любят когда эти данные всячески фильтруют. Поэтому часто они просят максимально «натянуть» порог.
Ну мы сначала, взяли все, что получили из машинки, скормили кластеринг и в хитмэп — получили кашу Стали думать, что да как, стали смотреть вокруг старт сайтов только — каша. Загнали все в геном браузер и глазками, поняли, что смотрим немного не там. Появилась едея… в общем сейчас будем смотреть с помощью ZINBA глазками. Если что прорисуется — будет замечательно.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации