i_shutov 21 фев 2019 в 16:04

Использование вычислительных возможностей R для проверки гипотезы о равенстве средних

4 мин

3.9K

Data Mining*Big Data*R*

+19

Комментарии 18

mini_nightingale 22 фев 2019 в 09:20

Использование вычислительных возможностей R для проверки стат. гипотез

Вычислительные мощности это же то что хатактеризует «железо», при чем тут язык?

i_shutov 22 фев 2019 в 09:36

Допустим, что это утверждение верно. Как в рамках этой гипотезы характеризовать, например, следующие кейсы:

Кейс #1. Мощный компьютер на котором есть только ОС и компилятор ассемблера. Сможет ли пользователь рассчитать элементарную линейную регрессию по данным, предоставленным в excel файле?

Кейс #2. К чему относятся вычислительные возможности, предоставляемые SQL (structured query language) ?

Кейс #3. К чему относятся возможности проведения символьных расчетов в Wolfram Mathematica?

Кейс #4. Времена 286 процессоров. Неважно, был установлен мат. сопроцессор или нет, операции умножения и деления для чисел с плавающей точкой были доступны в C.

=============
R — это экосистема "язык + пакеты", исполняемая поверх определенного программно-аппаратного комплекса (железо + ос).

mini_nightingale 22 фев 2019 в 12:02

Фразы «вычислительные возможности» в контексте языка программмирования — я не встречал вообще. На столько что прочитал как «вычислительные мощности»(каюсь).
Вроде для языка это будет «выразительные возможности». Такая фраза встречается не редко в литературе по ЯП.

R — это экосистема «язык + пакеты», исполняемая поверх определенного программно-аппаратного комплекса (железо + ос).

Как и Октава, Матлаб, Питон(скажем в Анаконде(там кстати и R есть)).
Но в итоге то всё упирается в железо.

Alexey_mosc 22 фев 2019 в 14:32

Всех расчетов было на «выпить чашечку кофе».

>t.test(x=x,y=y) #всех расчетов на зевнуть…

:o)

i_shutov 22 фев 2019 в 15:02

Ну да, в первом абзаце об этом и было сказано.

Ровно по этой причине и возникает огромное количество "ложных" открытий. Как правильно применять методы, какие условия должны быть соблюдены, что нужно проверить, как превращать результаты в конкретные действия. Это не только про статистику, а вообще про численные методы.

Кто из присутствующих возьмет на себя смелость сказать, что он досконально знает мат. статистику? Теперь студенты 2-го, 3-го курсов ведущих вузов не могут объяснить, что такое проекция вектора.

puff1n 22 фев 2019 в 14:53

Проверка статистических гипотез — это формулировка гипотезы, определение уровня значимости, вычисление статистики, построение критических областей и вывод. У вас заголовок со статьей не вяжется.

То, что бустреппинг хорош для повышения надежности статистических тестов — не новость, но тесты все равно остаются тестами.

i_shutov 22 фев 2019 в 15:07

Здесь нет новости, здесь один из кейсов.
В целом, есть типовая практическая задача по проверке гипотезы о возможности случайного отклонения средних показателей группы A и B. Имея под руками компьютер можно для этого использовать Монте-Карло, результаты проще доносить до бизнеса. Все, никакого скрытого подтекста.

puff1n 22 фев 2019 в 15:28

Значит, я неправильно понял, хотя проверка статистических гипотез — вполне себе сформировавшееся словосочетание, которое обозначает конкретную процедуру.

i_shutov 22 фев 2019 в 15:29

я могу переименовать, как было бы лучше?

random133 22 фев 2019 в 16:18

У вас анализируется конкретный случай использования R для визуализации данных и проверки гипотезы о равенстве средних.

i_shutov 22 фев 2019 в 16:24

ок

random133 22 фев 2019 в 14:53

доверительные интервалы для разницы средних (у вас неверно — «для среднего») можно рассчитать и без бутстрапа. Тем более, что диаграммы вообще не сильно их иллюстрируют, эти диаграммы представляют собой разновидность бокс-плотов (ящиков-с-усами), которые есть в MS Excel, начиная с версии 2016. Для бизнеса можно ими ограничиться.

Еще по теории. Разница средних — это лишь «сырой» показатель эффекта. Лучше рассчитать d Коэна или g Хеджесса, и построить доверительные интервалы для них.

Вообще рекомендую книги R.Wilcox. У него есть свой пакет в R — WRS2

i_shutov 22 фев 2019 в 15:17

Спасибо, исправил.

Эти представления предложил Мартин Гарднер, надеюсь, многие помнят его книги про математические головоломки. Интересно было ознакомиться с первоисточником, ссылка на статью в тексте.
"Ящик с усами" требует понимания понятия перцентиль. Мой опыт показывает, что далеко не все в бизнесе знают, что это такое.
За ссылку на книги спасибо. Жаль нет времени все прочесть, у меня отложено еще несколько десятков книг. Приходится глядеть урывками по актуальной теме дня. Просто применять пакет\функцию без понимания базовых принципов и идей алгоритмов "под капотом" не очень люблю, можно получить неприятные неожиданности.

random133 22 фев 2019 в 16:00

Уточню тогда еще один момент. Кто такой Мартин Гарднер, я не знаю, но понятие доверительных интервалов появилось в 1930-х в работах Е.Неймана и Э.Пирсона. В учебники оно начало проникать в 1950-х. Понятно, что время на книги — дефицит, но рискну порекомендовать книгу ученика Неймана — Эрика Леманна (Erich L.Lehmann) — Fisher, Neyman, and the Creation of Classical Statistics. Без зубодробительной математики. 100 с небольшим страниц, читается легко.
А главный сторонник доверительных интервалов для меня — это G.Cumming. У него есть прикольный бесплатный образовательный проект для Excel — ESCI, крайне наглядный. На ютьюбе есть его ролики.

Alexey_mosc 22 фев 2019 в 20:00

Кроме ошибок первого рода (alpha) в бизнесе могут быть важны и ошибки второго рода (beta). И отсюда понятие мощности теста (power = 1 — beta).

А вообще, я не советую понял, почему отбутстрапленое распределение выбор.статистики более понятно для бизнеса, чем t-статистика, или p-value, которое в простом варианте трактовки является ошибкой первого рода.

random133 22 фев 2019 в 20:42

все-таки лучше не смешивать значение p и уровень ошибок первого рода.

Бизнесу понятнее картинки как представление данных. Но при этом без эконометрики сегодня бизнес не может. Само по себе понятие доверительного интервала мало кто интерпретирует правильно, это да. Впрочем, как и значение p.

Cumming G. Understanding replication: Confidence intervals, p-values, and what's likely to happen next time
Fidler F. Should psychology abandon p-values and teach CIs instead? Evidence-based reforms in statistics education

Alexey_mosc 23 фев 2019 в 14:49

Правильно. Но манагеру можно впихнуть: "вероятность, что я тут ошибаюсь, делая вывод о тестовой выборке, равна 1/100К." А если начать, "Это вероятность, что статистика критерия больше наблюдаемого значения при истинности нулевой гипотезы" то совещание просто остановиться. Ха ха ))) Опять же в какой сфере. В Align Tech я репортовал p value, power, effect size. Менеджер был phd from MIT. То есть и бизнес то разный.

А вот картинку можно сгенеририть и без бутстрапа, просто посчитать SE и построить density средневыборочных или их разницы. Будет даж краше выглядеть, каждый манагеру вешает себе медальку, когда узнает нормальную плотность вероятности! Ха ха ха )))

i_shutov 25 фев 2019 в 13:18

Бизнес разный, это точно.
Хорошо тем, у кого менеджеры думают и понимают, а не сидят на KPI.
И нарисовать можно все на миллиметровке и МК-52 в руках.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Использование вычислительных возможностей R для проверки гипотезы о равенстве средних

Комментарии 18

Публикации

Истории