Как стать автором
Обновить

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

Время на прочтение5 мин
Количество просмотров33K
Всего голосов 42: ↑40 и ↓2+38
Комментарии44

Комментарии 44

А с динамикой употребления обсценной лексики во время до кризиса и во время кризиса все ясно: до кризиса мы переживаем, волнуемся, пишем сообщения в духе «Лишь бы Х не случилось...», «Б, вот-вот все П накроется!», «Е как страшно-то!» и так далее) А как кризис наступит там слов много не надо, достаточно одного емкого П. Или продолжительного Е.
Очень качествЕННО?
Ну наконец-то! Теперь понятно, что делать.
Спасибо! Очень интересно!
Не ожидал, что у группы П такое большое кол-во глагольных форм.
Я знаю только две. Может здесь просто употребление считается? А не количество форм
вот вам для затравки: говорить, бить, обманывать, украсть...
а, точно, про последние две забыл
Не следует забывать про приставки и суффиксы (до-, на-, от-, с-, -ова-ть, — е-ть, -и-ть и т.д.).
Интересно поставить звукозаписывающее устройство в комнату к админам, и посмотреть на корреляцию с релизом, факапами, кол-ву закрытых задач и других "нестандартных решений".
Судя по моему опыту, когда в админскую заглядывает милый пушистый зверек, то не то что матов не слышно, разговаривать перестают. Слышно обычно только пыхтение и злобное шипение.
Но, когда зверек уходит, вот тогда держись. Накопленное прорывается.
Мат. часть
Неоднозначно…
А почему, б*я, совсем нет слов на Б — междометий?
вот кстати да
видимо в существительные (обращения?) посчиталось.
Тоже интересно. Мне кажется, они что-то с определением частей речи напутали.
Более-менее точно можно определить только глаголы и прилагательные, существительные могут выступать как междометия, а иногда и как частицы или наречия. Для этого нужен контекст. Согласен, "б*я" — чаще всего междометие.
Было бы интересно посмотреть графики для динамики на более длинном периоде, два месяца — не очень показательно. Год или два — вот это да.
На таких объемах — 45 млрд. слов — показательно. Ошибки сглаживаются. Другое дело, что причины такого поведения кривых не очень понятны. А на более длинном периоде — согласен, можно посмотреть с привязкой к разным событиям, поискать корреляцию с разного сорта лексикой.
А у меня вот такой вопрос. Известно, что обсценная лексика обладает следующим свойством: междометия и существительные омонимичны (т.е. пишутся одинаково). Например:
1) «Б, как страшно-то!» «Вот и все, П...»
2) «Я тут свою б навещал...» «П нагрянул неожиданно и бесповоротно»
В первом случае мы имеем дело с междометиями, а во втором с существительными.
Насколько хорошо автоматика справляется с определением части речи в таких случаях?
Говорят, что в первом случае Б должно оканчиваться на ть, в другом — на дь
"-ть" — это просто неправильно написанное "-дь". Или как модно нынче оправдываться — "Неологизмъ".
Говорят неправильно.
На таких объемах (до 100 сообщений в секунду) мы не включали pos-tagger — затратно для такой задачи, т.е. части речи проставляли вручную по результату. А вообще, это зависит от того, на каком материале систему обучить. Обычно у междометий высокая точность определения — около 99%.
Не совсем понял рисунок 9. Вы строили график употребления слова из групп по отношению ко всем остальным словам в этот же день?
Нет, это изменение сложности текста в указанный период по всем сообщениям (по всем словам, не только из группы). Оказалось, что это коррелирует с динамкой изменения обсценной лексики.
НЛО прилетело и опубликовало эту надпись здесь
Ну как же: б*овать, и его вариации с приставками.
забыли еще слово на букву З — или оно тоже в группе O?
это группа Е же
Нет, я про ту, что меет непосредственное отношение к МПХ :)
Действительно забыли… Спасибо, что напомнили. Оно бы вошло в группу О — она, правда, не так частотна, но требует отдельного изучения.
Вывод: а @#$ его знает…
Интересно вот что: если представить соц.медиа как некий живой организм, то а можно как-то прогнозировать (диагностировать) его поведение (отклонения) на какие-либо события, и наоборот, по его поведению предсказывать возможные события (например, в экономике)?
О том и речь! За экономику не ручаюсь, но прогнозировать что-то можно. Пока, скажем, это первая попытка найти связи между эмоциями и событиями.
Как известно, связи, при желании, можно найти чего угодно и с чем угодно.
Можно. Но на больших данных ошибки нивелируются, а закономерности всплывают. Вопрос в другом: их не всегда можно объяснить, да и связаны эти закономерности могут быть с чем-то совершенно другим. Но игнорировать их уже нельзя.
Мне кажется, интересная задача оценить встречаемость и сложность по отраслям (новостные ленты, политика, экономика, религия, технические науки, материнство и детство, отношения и семья), по посещаемости и по обязательности регистрации.
А с какой целью? Для классификации сообщений по отраслям? Можно, но это не очень точный алгоритм. Тут скорее нужно искать корреляции лексики/сложности по отраслям к описываемым событиям. Но пока не очень понятно, как — параметров получается очень много.
Лично мне интересны следующие вопросы (ожидает подтверждение/опровержение для утверждений):
  1. Российскую политику и экономику (почти) невозможно обсуждать без использования обсценной лексики. Предположительно, лидирует группа П
  2. Официальные новостные ленты модерируются активнее, чем либеральные
  3. Матерятся в основном анонимусы
  4. На женских форумах матерятся не меньше, чем на мужских. Или меньше, но сложнее.
  5. На технических ресурсах матершина реже, но сложнее.
  6. С ростом популярности ресурса растёт частота, но падает сложность. При падении популярности — процесс обратный.
    Про возраст тоже очень интересно. Я ожидаю параболу в осях сложность/возраст, если от 12 до 50 брать.
    С регионами будет сложно, советую вооружиться двухтомничком "Энциклопедия русского мата", там учитываются региональные особенности. Как в той шутке, "а у нас, в Новгороде, говорят через Ярослав" (про самый популярный глагол группы Е)
Ну это больше социологические вопросы. Наиболее интересен шестой пункт, т.к. менее всего очевиден.
Мы не учитываем региональные особенности, но учитываем наиболее частотные употребления: Я вместо Е имеется.
Собираемся посмотреть распределение по регионам, по полу и по возрасту. Надеюсь, публикуем в скором времени.
А данные были без привязки к чему-либо? Интересно было бы увидеть распределение групп по возрасту употребляющих.
Да-да, в процессе. Собираемся сделать распределение по возрасту, полу и регионам.
Вспомнился анекдот в тему (и, кстати, вопрос: учитываются ли указанный тип слов?)
Урок русского языка. Учительница дает задание:
(У) — Дети, назовите несколько слов на букву "х".
Вовочка тянет руку. (У), зная Вовочкин словарный запас, слова ему не дает.
(У) — Ну, давай ты, Леша.
(Л) — Хвостики!!!
(У) — Молодец! Ну, давай ты, Оля.
(О) — Хомутики!!!
(У) — Очень хорошо! Теперь назовите слова на букву "р".
Вовочка отчаянно тянет руку. (У), не вспомнив ни одного плохого слова на "р", дает слово Вовочке.
(В, выбегая из класса) — Хвостики! Хомутики! Расп3.14здяи!!! Я из-за вас чуть не обоссался!!!

а как обрабатывались "многоэтажные" фразы?
разбивались сначала на "корневые" части по словарю?
или они не очень "частотны" в исследуемой среде?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий