Sistemaalex Jul 7 2019 at 03:37

, в маркетинговом опросе и в больших данных

2 min

3.1K

Semantics*Big Data*Mathematics*Internet marketing*

Comments 22

Andy_U Jul 7 2019 at 12:27

Механизм градации есть и он хорошо используется банками при определении подлогов в финансовых документах. Это закон распределения Бенфорда, который, в 1984, доказал Ted Hill.

Из той же википедии:

Закон обычно не действует для распределений с заданными минимальными или максимальными значениями (список компаний с доходом от 50000 до 100000 долларов). Также не подходят распределения, охватывающие только один или два порядка величин (IQ взрослых)

Sistemaalex Jul 7 2019 at 14:29

То что в википедии написано, говорит о том, что если мы искусственно ограничиваем поле в котором функционирует закон, то в этом случае закон распределения Бенфорда не действует. А частотность слов, используемых миллионами пользователей, которые они выбрали для себя самостоятельно, разве ограничивается каким-нибудь критерием, как, в используемом Вами примере: «список компаний с доходом от 50000 до 100000 долларов»? Нет. То есть, как человечество выбрало естественным образом десятичную систему счисления, а информтехнологии двоичную и шестнадцатеричную, так и взаимное расположение, друг относительно друга, качественных оценок, выбрано всеми пользователями языка, естественным образом.
Тут есть еще один аспект к распределению Бенфорда, прочитал в одном из материалов, закон распределения Бенфорда действует в том пространстве, которое выбирает человек. Как для ряда чисел без разницы, в каком счислении мы считаем, то закон Бенфорда начинает действовать только тогда, когда мы (люди) начинаем использовать четкую систему счисления.
Основное требование к ряду качественных характеристик, ряд распределения вероятностей понятий должен расти экспоненциально. И он это делает, пусть и не всегда гладко накладываясь на экспоненциальную кривую.
А тут предлагается, этот ряд, частности использования прилагательных, наложить на кривую Бенфорда и по ней выбирать систему исчисления, там или 2, как используют социологи, или шестеричную как примере. И по этой системе разделять качественные признаки с присвоением им количественной оценки

Sistemaalex Jul 7 2019 at 14:44

Добавлю. Вот посмотрите, в финансовой отрасли, закон Бенфорда позволяет разделить действие людей. То есть обозначить границу, где проведение человеком финансовых операций, определяется естественными процессами в экономике от действий людей по проведению финансовых операций, которые не поощряются экономической системой. То есть закон Бенфорда позволяет разделить действия людей, но слабо соотносится с объективными, независимыми от людей распределениями.
Пример использования простой. Допустим какой-то рекламный текст изобилует характеристиками: «Прекрасный», «изумительный», «превосходный», то частотность этого интервала начинает существенно отличаться от естественного, который естественно определен по распределению Бенфорда. То есть, как минимум, позволяет выделить этот текст из общей массы с отнесением его к категории предвзятых текстов.

Sistemaalex Jul 7 2019 at 15:16

Вот, нарисовался, еще виртуальный пример.
Допустим, что кто-то, преследуя свои цели, решил залить на Хабр 10000 публикаций, сделанных с помощью машинного интеллекта. Даже соблюдая, при их создании публикаций, закон Бенфорда, что мы увидим, проанализировав, на соответствие закону Бенфорда? Скорей всего, что остаточная дисперсия не будет подчиняться нормальному закону распределения, с параметрами индивидуальными для участников Хабра, так как машинный интеллект будет минимизировать отклонения. Можно предположить, что это, заинтересованное лицо, заложит в алгоритм создания, фальсифицированных текстов и поправку на нормальность остаточной дисперсии. Тогда, либо нужно будет искать, другие инструменты, либо этот злодей добьется своих целей.

Andy_U Jul 7 2019 at 15:05

если мы искусственно ограничиваем поле в котором функционирует закон, то в этом случае закон распределения Бенфорда не действует.

В вашем примере вы ограничили число вариантов ответа пятью вариантами. Да? Или я ваших наукообразных слов ниже не понял. Ну и совершенно непонятно, как можно численно отсортировать идиотские варианты ответов. См. картинку про ответы про Депардье. Что в цифрах больше, удивление или интерес? Та же фигня в первой картинке. «Затрудняюсь ответить» — никак не ложится в цифровую шкалу «мало»-«много», которая кстати, обычно в психологии, психиатрии и пр. нормализуется с помощью так называемых стенов.

Далее:

Основное требование к ряду качественных характеристик, ряд распределения вероятностей понятий должен расти экспоненциально.

Это еще что такое и почему?

А тут предлагается, этот ряд, частности использования прилагательных, наложить на кривую Бенфорда и по ней выбирать систему исчисления, там или 2, как используют социологи, или шестеричную как примере. И по этой системе разделять качественные признаки с присвоением им количественной оценки

Это не всегда возможно. Отсортируйте показания обычных аналоговых часов. Ну пусть для простоты, без минутной стрелки и показывающих 12, 15, 18 и 21 час. Найдите среднее время.

Sistemaalex Jul 7 2019 at 15:35

В вашем примере вы ограничили число вариантов ответа пятью вариантами. Да?

Нет, я в примере выбрал систему счисления шестеричную.

у нас основание системы счисления b (b > 2), то для цифры d (d ∈ {1, …, b − 1})

А так как выбрана шестеричная система исчисления, то количество интервалов должно быть d ∈ {1, …, b − 1}, то есть d = 6-1 = 5.
Ну, с Депардье, просто картинку выбрал, для примера по ярче.
Там, с Депардье, во-первых, количество ответов, в том опросе, которые мог дать респонденты, было больше чем один. Второе, там шкала тоже неплохо раскладывается по возрастающей: возмущение, раздражение, удивление, безразличие, интерес, гордость.

Отсортируйте показания обычных аналоговых часов. Ну пусть для простоты, без минутной стрелки и показывающих 12, 15, 18 и 21 час.

Часы показывают время, вне зависимости от того, нравится это человеку или нет. А распределение Бенфорда разделяет людей на тех, кому эти показания часов безразличны, от той группы, в которой субъекты любят подводит стрелки.

расти экспоненциально

Это качество данных определили до меня. Я просто на нем акцентирую внимание

Andy_U Jul 7 2019 at 16:17

А так как выбрана шестеричная система исчисления, то количество интервалов должно быть d ∈ {1, …, b − 1}, то есть d = 6-1 = 5.

Ай, вы про ноль напрочь забыли. В той же десятиричной системе 10 интервалов:

От 0 до 1 (да, да, бывают и такие числа)
от 1 до 2
…
от 9 до 10.

И далее, еще десять.

от 10 до 11
…
от 19 до 20.

И так далее…

И про то, что существуют числа, меньшие единицы… Ну и глянул я на вашу ссылку на предыдущий пост на хабре и очень мне понравился оттуда комментарий, что в двоичной системе счисления первая цифра целого числа — это всегда единица, после чего интерес к данной теме пропал. Забавно, и не более того.

Sistemaalex Jul 7 2019 at 17:17

Не спорю забавно. Особенно тем людям, которым вменили в вину противоправные финансовые операции. В США их уже не мало. Да и у нас, когда из банка требуют объяснений о подозрительных операциях, по сигналам системы мониторинга, где распределение Бенфорда, один из ключевых показателей. Там предпринимателям, тоже не скучно

Andy_U Jul 7 2019 at 18:16

Ой, бросьте, предположим, я езжу на работу на метро и плачу карточкой. Итого у меня ведущей цифрой будет 4 или 5, несмотря на другие варианты использования карточки. Кстати, та же фигня случится и с транзакциями самого метрополитена. И в многих других случаях.

Ну и я все равно не понимаю, как это можно применить к соц.опросам. Или вы объединяете ответы (1, 100, 1000), (2, 20, 200) и так далее?

Sistemaalex Jul 7 2019 at 18:49

Давайте так. Для того, чтобы это все разъяснить нужно более объемная публикация. Когда эту публикацию делал, пытался в компактной форме все изложить, так как иногда забирался в материалы нобелевских лауреатов по экономике. И не уйти в дебри было достаточно непросто. Сейчас смотрю на реакции читателей и видно, что им вопросы из этой публикации интересны. А значит попытаюсь раскрыть все это. Даже на первый взгляд, тут направлений хватит штук на пять и, каждая объемом раза в четыре больше этой должна быть.
Тут вот писал в ответах о виртуальном злодее, который решил захватить Хабр.
Можно один вопрос к Вам: Если составлю материал под названием — «Киберрейдерский сценарий — как захватить ХАБР». Это зацепит читателей?

eziemeli Jul 7 2019 at 15:40

Когда речь заходит о качестве надо знать из чего оно состоит: КАЧЕСТВО= КОЛИЧЕСТВО+УПОРЯДОЧЕННОСТЬ.
Любое количество может по разному упорядоченно и качество будет зависеть не только от количества но и от упорядоченности.
видео

Sistemaalex Jul 7 2019 at 15:44

А тут не предлагается определять степень качества. Здесь показывается, что можно соотнести отношение к качеству двух и более различных людей. То есть сопоставить их оценки качества на единой шкале, кривой Бенфорда, пусть, и, с доверительным интервалом.

bougakov Jul 8 2019 at 01:13

Автор с восторгом неофита принялся решить вопрос шкалирования.

Что мы без без вас раньше делали? Книжки дурацкие читали многотомные, бились без толку, и тут пришло спасение!

bougakov Jul 8 2019 at 01:25

используют, в основном, трехдиапазонную шкалу (плохо/норма/хорошо). В случаях более детальных вопросов, шкала увеличивается до 5-6 единиц, но редко

Вы феерически заблуждаетесь. То, что вам в инфографике шкалу огрубляют до 3 позиций, совершенно не означает, что в анкете было именно 3 позиции.

А ведь ещё бывает культурный контекст — например, в экс-СССР школа насаждает 5-балльную шкалу, которая на самом деле 4-балльная. Можно предлагать респондентам 7-балльную, или 10 — но они ей не умеют пользоваться. То, есть ли у шкалы среднее значение, или число баллов чётное — имеет драматически сильный эффект. Дефолтное значение маркера на слайдере в онлайн-опросе — также имеет драматический эффект. А иногда лучше вовсе предложить человеку MaxDiff или Choice based conjoint, чтобы не заставлять его пользоваться шкалами…

И добью вас этим:

Пожалуйста, вынырните из «биг-даты» и почитайте что-нибудь про методы социологических исследований, шкалирование — очевидно, что вам это будет полезно. И оставьте старика Бенфорда в покое, к множествам в single digits его формулы неприменимы.

Sistemaalex Jul 8 2019 at 05:44

Ответ ниже

Sistemaalex Jul 8 2019 at 05:21

Вы феерически заблуждаетесь. То, что вам в инфографике шкалу огрубляют до 3 позиций, совершенно не означает, что в анкете было именно 3 позиции.

Это проверял, в первую очередь. Во всех результатах исследований обязательно представляется текст анкеты. Этим серьезные исследовательские фирмы не грешат.

А иногда лучше вовсе предложить человеку MaxDiff или Choice based conjoint

Я нигде не говорил, что этот инструмент не имеет конкурентов. В материале говориться, что инструмент распределения Бенфорда дает более надежный, на мой взгляд, инструмент в понимании качественных оценок, которые дают люди. Так как проводящие опрос специалисты не могут физически внести в опросный лист все варианты и синонимы, которые люди используют при описании того или иного уровня качества. И эти оценки люди дают не только в ситуациях, когда они поставлены перед выбором (допустим в опросах), но и когда они это делают по собственной инициативе и использование шкалы Бенфорда позволяет шкалировать и эти оценки, путем сопоставление с естественно сложившейся ситуацией. Социологи предпочитают уходить от многошкальных оценок используя в основном трехшкальную. И одна из этих причин, заключается в том, что инструмент, на основе Бенфорда, работает только с одной стороны шкалы + или -, то есть нужно определять параметры два раза с отрицательной и положительной стороны. И если Вы посмотрите на индексы настроение, то соцопросы в основном дают их, как разницу между положительными и отрицательными ответами. То есть по сути у них даже двушкальный диапазон.
Если посмотреть на MaxDiff или Choice based conjoint, то это экспертные методы, который, по сути, начали применять после работ Т.Саати. И эти методы имеют со шкалой по Бенфорду, одно общее свойство — они безхвостовые.
Про СССР. Закон Бенфорда был доказан в 1984 году. А уже в 1985 СССР был занят перестройкой и развалом и до школьных оценок дела не было никому.
Возможно, я не смог полностью показать, все что представилось, но старался подчеркнуть, что закон Бенфорда не отменяет использование нормального распределения. По простой причине, когда вы получили частотности, то эти частотности Вы можете натянуть на график нормально распределенной величины и работайте с ней. Никаких проблем и полученные результаты никаким образом не изменяться. Ну может будут точнее, это мое предположение.
А на представленных Вами графиках сикстильное разделение диапазона, как квантили (по четвертям) и децили (на десять интервалов) всей оси Х. Закон Бенфорда ничего из этого не отменяет, он позволяет:
1) выбирать более значимую, и возможно или, при необходимости, неравномерную шкалу (цветные области на Ваших графиках);
2) Избавляется от неопределенности отброшенных или объединенных хвостов.

bougakov Jul 8 2019 at 16:18

Социологи предпочитают уходить от многошкальных оценок используя в основном трехшкальную.

Вы спорите с человеком, у которого «социология» указана в дипломе и за плечами 15 лет в отрасли с неплохим, как кажется, послужным списком. Вы заблуждаетесь.

Вы решаете не ту проблему. Более того, расскажу страшную вещь — нам на шкалы и их нормальность зачастую плевать. Если у меня есть кривенькая шкала, но с богатой нормативной базой, я предпочту её «более лучшей». Если у меня будет возможность обойтись без шкал вообще — я обойдусь, и возьму MaxDiff, потому что я с помощью eye tracker и прочего нейро-оборудования не раз смотрел, КАК люди работают с разными инструментами. Не забывайте, мы связаны тем, что электрод респонденту вставить нельзя, поэтому мы вынуждены респондента использовать и как измерительный прибор, и как подопытного.

Мы как отрасль в принципе сейчас пытаемся отползти подальше от шкал в сторону штук типа этой — vimeo.com/225889274 Причина — реальное потребительское поведение лучше коррелирует с эмоциональными реакциями, нежели чем с ответами, которые люди из себя вымучали. Хомо сапиенс, скотина такая, он же ж подо всё убедительное обоснование может подогнать…

Sistemaalex Jul 8 2019 at 17:22

Ну сложилось такое решение, представил. Может кому-то поможет. Постарался предупредить, чтоб за границы не выходили, так как там, такие дебри наступают, вы их кстати увидели и отреагировали нормальной человеческой реакцией. Предполагаю, что если бы эти дебри показать работникам госкомстата, то, у 45% произошел бы инфаркт, у 45% — инсульт, а остальные, испытали бы сильный когнитивный диссонанс.
А представил ее для бойцов Бигдаты, по основной причине, это борьба с хвостами. Это, не такая уж часто встречаемая задача, о которой материал так, как вы сами сказали, что стараетесь перевести решение этой задачи в другую плоскость. Это же делают и другие.
Но системы координат тоже бывают разные, где в какой системе координат эта задача материализуется, никто сказать не может.
Да спецы, от бигдаты, уже сейчас сталкиваются с такими проблемами, которые не стояли перед деятелями науки 25 лет назад. Наверное, деятели от науки, им уже и помочь не смогут. Так как они любят весь ряд пролистать, сам этим грешу, а если ему 70 лет и дали 10 млн. строк проанализировать, то он 5-ом миллионе умрет, просто от старости. А задача так и останется не решенной :)

bougakov Jul 8 2019 at 20:05

Вы не поверите, я месяц назад выступал на расширенной коллегии Росстата перед главой ведомства, министром экономики и всем трудовым коллективом. Про бигдату. Никто не упал ни в инфаркт, ни в инсульт. Мило шутили, что мы все занимаемся суровой энтерпрайзной отчётностью ещё с тех времён, когда чемпионы Kaggle ещё осваивали горшок…

Sistemaalex Jul 8 2019 at 20:34

Не спорю, по отчетности, их не переплюнешь :)

Sistemaalex Jul 8 2019 at 05:45

Добавлю.
Распределение Бенфорда является безхвостовым методом. Когда вы используете нормальное распределение, то обычно, хвосты либо отсекаются, либо объединяются. И эта операция вносит искажение в результаты, а когда хвосты могут быть огромными, это уже серьезная проблема. Потом производится оценка полученных результатов с некоторой надежностью, то есть с поправкой на случайный процесс. Вопрос, а часто видели в практике, чтоб производилась поправка на отброшенные или объединенные хвосты в реальной практике? Да за счет свойств нечеткости случайной величины, эти поправки могут накладываться друг на друга. Но, по свойствам случайной величины могут и добавляться.
И когда социолог формирует вопросы он, в большинстве случаев, старается сделать их, в анкете так, чтобы хвосты были минимальны.
Повторяю, а при исследовании больших данных, эти хвосты могут составлять до трети объема совокупности. И что делать аналитику в этом случае?

Sistemaalex Jul 8 2019 at 06:10

Вот на рисунке представил, что делает шкала Бенфорда, с нормальным распределением. И все. Дальше работайте, также как обычно. Никаких революций

Show the best of all time