Comments 7
Из статьи не совсем понятно, зачем всё это надо?

То есть, мы взяли некие данные, посмотрели их некоторые распределения. Где цели — зачем мы всё это делаем, какие гипотезы хотим проверить? Где выводы — что же мы получили в итоге?
Цель всего цикла статей — выяснить, что интересного можно сделать с открытыми данными в таком виде, в каком они есть сейчас, можно ли, скажем, сделать целую систему аналитики только на открытых данных, которая бы обладала прогностической способностью, может ли это быть полезным для нас, простых людей? Относительно выводов: в статье предполагались две гипотезы, нулевая — средние распределений статистически не различаются, альтернативная — различие есть. Вывод — в рамках предложенной методологии данные поддерживают нулевую гипотезу.
Тогда это неудачный формат для Хабра, как мне кажется. Потому что сейчас пост выглядит как заявление: «смотрите, я знаю R и умею строить распределения!»

Надо сначала выяснить, что можно сделать с этими данными, потом с ними что-то сделать, и только потом опубликовать выводы, понятные для обычного человека. Например: количество ДТП изменилось/не изменилось/ изменилось, но статистически недостоверно.
Спасибо за практику! Очень актуально полезно. Спасибо за код и примеры.
Only those users with full accounts are able to leave comments. Log in, please.