lingvolab 29 мар 2016 в 16:45

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

5 мин

33K

Блог компании PalitrumLabБлог компании Brand AnalyticsСемантика*Data Mining*Big Data*

Из песочницы

+38

Комментарии 44

l7l 29 мар 2016 в 17:20

А с динамикой употребления обсценной лексики во время до кризиса и во время кризиса все ясно: до кризиса мы переживаем, волнуемся, пишем сообщения в духе «Лишь бы Х не случилось...», «Б, вот-вот все П накроется!», «Е как страшно-то!» и так далее) А как кризис наступит там слов много не надо, достаточно одного емкого П. Или продолжительного Е.

+10

volodyaPetrov 29 мар 2016 в 17:20

О***енно!

+10

BubaVV 30 мар 2016 в 12:55

Очень качествЕННО?

elingur 29 мар 2016 в 17:21

Ну наконец-то! Теперь понятно, что делать.

Neftedollar 29 мар 2016 в 17:49

Спасибо! Очень интересно!
Не ожидал, что у группы П такое большое кол-во глагольных форм.

OlegTar 29 мар 2016 в 20:29

Я знаю только две. Может здесь просто употребление считается? А не количество форм

dannk 29 мар 2016 в 21:17

вот вам для затравки: говорить, бить, обманывать, украсть...

+10

OlegTar 29 мар 2016 в 21:40

а, точно, про последние две забыл

lingvolab 29 мар 2016 в 21:43

Не следует забывать про приставки и суффиксы (до-, на-, от-, с-, -ова-ть, — е-ть, -и-ть и т.д.).

reji 29 мар 2016 в 18:12

Интересно поставить звукозаписывающее устройство в комнату к админам, и посмотреть на корреляцию с релизом, факапами, кол-ву закрытых задач и других "нестандартных решений".

stigory 30 мар 2016 в 05:10

Судя по моему опыту, когда в админскую заглядывает милый пушистый зверек, то не то что матов не слышно, разговаривать перестают. Слышно обычно только пыхтение и злобное шипение.
Но, когда зверек уходит, вот тогда держись. Накопленное прорывается.

Indexator 29 мар 2016 в 18:24

Мат. часть

Неоднозначно…

+10

acidnik 29 мар 2016 в 19:27

А почему, б*я, совсем нет слов на Б — междометий?

vanxant 29 мар 2016 в 19:58

вот кстати да
видимо в существительные (обращения?) посчиталось.

Ohar 29 мар 2016 в 20:18

Тоже интересно. Мне кажется, они что-то с определением частей речи напутали.

lingvolab 29 мар 2016 в 21:49

Более-менее точно можно определить только глаголы и прилагательные, существительные могут выступать как междометия, а иногда и как частицы или наречия. Для этого нужен контекст. Согласен, "б*я" — чаще всего междометие.

TheGodfather 29 мар 2016 в 20:12

Было бы интересно посмотреть графики для динамики на более длинном периоде, два месяца — не очень показательно. Год или два — вот это да.

lingvolab 29 мар 2016 в 22:05

На таких объемах — 45 млрд. слов — показательно. Ошибки сглаживаются. Другое дело, что причины такого поведения кривых не очень понятны. А на более длинном периоде — согласен, можно посмотреть с привязкой к разным событиям, поискать корреляцию с разного сорта лексикой.

Slavenkof 29 мар 2016 в 20:13

А у меня вот такой вопрос. Известно, что обсценная лексика обладает следующим свойством: междометия и существительные омонимичны (т.е. пишутся одинаково). Например:
1) «Б, как страшно-то!» «Вот и все, П...»
2) «Я тут свою б навещал...» «П нагрянул неожиданно и бесповоротно»
В первом случае мы имеем дело с междометиями, а во втором с существительными.
Насколько хорошо автоматика справляется с определением части речи в таких случаях?

OlegTar 29 мар 2016 в 20:44

Говорят, что в первом случае Б должно оканчиваться на ть, в другом — на дь

MiXei4 29 мар 2016 в 21:16

"-ть" — это просто неправильно написанное "-дь". Или как модно нынче оправдываться — "Неологизмъ".

Ohar 30 мар 2016 в 11:14

Говорят неправильно.

lingvolab 29 мар 2016 в 21:59

На таких объемах (до 100 сообщений в секунду) мы не включали pos-tagger — затратно для такой задачи, т.е. части речи проставляли вручную по результату. А вообще, это зависит от того, на каком материале систему обучить. Обычно у междометий высокая точность определения — около 99%.

SaturnTeam 30 мар 2016 в 05:00

Не совсем понял рисунок 9. Вы строили график употребления слова из групп по отношению ко всем остальным словам в этот же день?

lingvolab 30 мар 2016 в 10:36

Нет, это изменение сложности текста в указанный период по всем сообщениям (по всем словам, не только из группы). Оказалось, что это коррелирует с динамкой изменения обсценной лексики.

НЛО прилетело и опубликовало эту надпись здесь

lingvolab 30 мар 2016 в 10:39

Ну как же: б*овать, и его вариации с приставками.

kvaps 30 мар 2016 в 10:50

забыли еще слово на букву З — или оно тоже в группе O?

OlegTar 30 мар 2016 в 10:53

это группа Е же

kvaps 30 мар 2016 в 11:16

Нет, я про ту, что меет непосредственное отношение к МПХ :)

lingvolab 30 мар 2016 в 13:09

Действительно забыли… Спасибо, что напомнили. Оно бы вошло в группу О — она, правда, не так частотна, но требует отдельного изучения.

hdfan2 30 мар 2016 в 11:33

Вывод: а @#$ его знает…

elingur 30 мар 2016 в 15:46

Интересно вот что: если представить соц.медиа как некий живой организм, то а можно как-то прогнозировать (диагностировать) его поведение (отклонения) на какие-либо события, и наоборот, по его поведению предсказывать возможные события (например, в экономике)?

lingvolab 30 мар 2016 в 16:29

О том и речь! За экономику не ручаюсь, но прогнозировать что-то можно. Пока, скажем, это первая попытка найти связи между эмоциями и событиями.

kretuk 31 мар 2016 в 11:11

Как известно, связи, при желании, можно найти чего угодно и с чем угодно.

lingvolab 31 мар 2016 в 11:14

Можно. Но на больших данных ошибки нивелируются, а закономерности всплывают. Вопрос в другом: их не всегда можно объяснить, да и связаны эти закономерности могут быть с чем-то совершенно другим. Но игнорировать их уже нельзя.

Gryphon88 30 мар 2016 в 16:10

Мне кажется, интересная задача оценить встречаемость и сложность по отраслям (новостные ленты, политика, экономика, религия, технические науки, материнство и детство, отношения и семья), по посещаемости и по обязательности регистрации.

lingvolab 30 мар 2016 в 16:25

А с какой целью? Для классификации сообщений по отраслям? Можно, но это не очень точный алгоритм. Тут скорее нужно искать корреляции лексики/сложности по отраслям к описываемым событиям. Но пока не очень понятно, как — параметров получается очень много.

Gryphon88 31 мар 2016 в 01:23

Лично мне интересны следующие вопросы (ожидает подтверждение/опровержение для утверждений):

Российскую политику и экономику (почти) невозможно обсуждать без использования обсценной лексики. Предположительно, лидирует группа П
Официальные новостные ленты модерируются активнее, чем либеральные
Матерятся в основном анонимусы
На женских форумах матерятся не меньше, чем на мужских. Или меньше, но сложнее.
На технических ресурсах матершина реже, но сложнее.
С ростом популярности ресурса растёт частота, но падает сложность. При падении популярности — процесс обратный.
Про возраст тоже очень интересно. Я ожидаю параболу в осях сложность/возраст, если от 12 до 50 брать.
С регионами будет сложно, советую вооружиться двухтомничком "Энциклопедия русского мата", там учитываются региональные особенности. Как в той шутке, "а у нас, в Новгороде, говорят через Ярослав" (про самый популярный глагол группы Е)

lingvolab 31 мар 2016 в 09:28

Ну это больше социологические вопросы. Наиболее интересен шестой пункт, т.к. менее всего очевиден.
Мы не учитываем региональные особенности, но учитываем наиболее частотные употребления: Я вместо Е имеется.
Собираемся посмотреть распределение по регионам, по полу и по возрасту. Надеюсь, публикуем в скором времени.

LoadRunner 30 мар 2016 в 17:52

А данные были без привязки к чему-либо? Интересно было бы увидеть распределение групп по возрасту употребляющих.

lingvolab 30 мар 2016 в 17:54

Да-да, в процессе. Собираемся сделать распределение по возрасту, полу и регионам.

hdfan2 31 мар 2016 в 09:22

Вспомнился анекдот в тему (и, кстати, вопрос: учитываются ли указанный тип слов?)
Урок русского языка. Учительница дает задание:
(У) — Дети, назовите несколько слов на букву "х".
Вовочка тянет руку. (У), зная Вовочкин словарный запас, слова ему не дает.
(У) — Ну, давай ты, Леша.
(Л) — Хвостики!!!
(У) — Молодец! Ну, давай ты, Оля.
(О) — Хомутики!!!
(У) — Очень хорошо! Теперь назовите слова на букву "р".
Вовочка отчаянно тянет руку. (У), не вспомнив ни одного плохого слова на "р", дает слово Вовочке.
(В, выбегая из класса) — Хвостики! Хомутики! Расп3.14здяи!!! Я из-за вас чуть не обоссался!!!

Winny63 27 июн 2023 в 13:18

а как обрабатывались "многоэтажные" фразы?
разбивались сначала на "корневые" части по словарю?
или они не очень "частотны" в исследуемой среде?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий