Комментарии 44
А с динамикой употребления обсценной лексики во время до кризиса и во время кризиса все ясно: до кризиса мы переживаем, волнуемся, пишем сообщения в духе «Лишь бы Х не случилось...», «Б, вот-вот все П накроется!», «Е как страшно-то!» и так далее) А как кризис наступит там слов много не надо, достаточно одного емкого П. Или продолжительного Е.
+10
О***енно!
+10
Ну наконец-то! Теперь понятно, что делать.
+4
Спасибо! Очень интересно!
Не ожидал, что у группы П такое большое кол-во глагольных форм.
Не ожидал, что у группы П такое большое кол-во глагольных форм.
+2
Интересно поставить звукозаписывающее устройство в комнату к админам, и посмотреть на корреляцию с релизом, факапами, кол-ву закрытых задач и других "нестандартных решений".
+5
Мат. частьНеоднозначно…
+10
А почему, б*я, совсем нет слов на Б — междометий?
+5
вот кстати да
видимо в существительные (обращения?) посчиталось.
видимо в существительные (обращения?) посчиталось.
+1
Тоже интересно. Мне кажется, они что-то с определением частей речи напутали.
+1
Было бы интересно посмотреть графики для динамики на более длинном периоде, два месяца — не очень показательно. Год или два — вот это да.
+1
А у меня вот такой вопрос. Известно, что обсценная лексика обладает следующим свойством: междометия и существительные омонимичны (т.е. пишутся одинаково). Например:
1) «Б, как страшно-то!» «Вот и все, П...»
2) «Я тут свою б навещал...» «П нагрянул неожиданно и бесповоротно»
В первом случае мы имеем дело с междометиями, а во втором с существительными.
Насколько хорошо автоматика справляется с определением части речи в таких случаях?
1) «Б, как страшно-то!» «Вот и все, П...»
2) «Я тут свою б навещал...» «П нагрянул неожиданно и бесповоротно»
В первом случае мы имеем дело с междометиями, а во втором с существительными.
Насколько хорошо автоматика справляется с определением части речи в таких случаях?
+1
Говорят, что в первом случае Б должно оканчиваться на ть, в другом — на дь
0
На таких объемах (до 100 сообщений в секунду) мы не включали pos-tagger — затратно для такой задачи, т.е. части речи проставляли вручную по результату. А вообще, это зависит от того, на каком материале систему обучить. Обычно у междометий высокая точность определения — около 99%.
+1
Не совсем понял рисунок 9. Вы строили график употребления слова из групп по отношению ко всем остальным словам в этот же день?
+1
НЛО прилетело и опубликовало эту надпись здесь
забыли еще слово на букву З — или оно тоже в группе O?
+1
Вывод: а @#$ его знает…
+2
Интересно вот что: если представить соц.медиа как некий живой организм, то а можно как-то прогнозировать (диагностировать) его поведение (отклонения) на какие-либо события, и наоборот, по его поведению предсказывать возможные события (например, в экономике)?
+1
О том и речь! За экономику не ручаюсь, но прогнозировать что-то можно. Пока, скажем, это первая попытка найти связи между эмоциями и событиями.
+1
Как известно, связи, при желании, можно найти чего угодно и с чем угодно.
0
Мне кажется, интересная задача оценить встречаемость и сложность по отраслям (новостные ленты, политика, экономика, религия, технические науки, материнство и детство, отношения и семья), по посещаемости и по обязательности регистрации.
+1
А с какой целью? Для классификации сообщений по отраслям? Можно, но это не очень точный алгоритм. Тут скорее нужно искать корреляции лексики/сложности по отраслям к описываемым событиям. Но пока не очень понятно, как — параметров получается очень много.
0
Лично мне интересны следующие вопросы (ожидает подтверждение/опровержение для утверждений):
- Российскую политику и экономику (почти) невозможно обсуждать без использования обсценной лексики. Предположительно, лидирует группа П
- Официальные новостные ленты модерируются активнее, чем либеральные
- Матерятся в основном анонимусы
- На женских форумах матерятся не меньше, чем на мужских. Или меньше, но сложнее.
- На технических ресурсах матершина реже, но сложнее.
- С ростом популярности ресурса растёт частота, но падает сложность. При падении популярности — процесс обратный.
Про возраст тоже очень интересно. Я ожидаю параболу в осях сложность/возраст, если от 12 до 50 брать.
С регионами будет сложно, советую вооружиться двухтомничком "Энциклопедия русского мата", там учитываются региональные особенности. Как в той шутке, "а у нас, в Новгороде, говорят через Ярослав" (про самый популярный глагол группы Е)
0
Ну это больше социологические вопросы. Наиболее интересен шестой пункт, т.к. менее всего очевиден.
Мы не учитываем региональные особенности, но учитываем наиболее частотные употребления: Я вместо Е имеется.
Собираемся посмотреть распределение по регионам, по полу и по возрасту. Надеюсь, публикуем в скором времени.
Мы не учитываем региональные особенности, но учитываем наиболее частотные употребления: Я вместо Е имеется.
Собираемся посмотреть распределение по регионам, по полу и по возрасту. Надеюсь, публикуем в скором времени.
+1
А данные были без привязки к чему-либо? Интересно было бы увидеть распределение групп по возрасту употребляющих.
+1
Да-да, в процессе. Собираемся сделать распределение по возрасту, полу и регионам.
+1
Вспомнился анекдот в тему (и, кстати, вопрос: учитываются ли указанный тип слов?)
Урок русского языка. Учительница дает задание:
(У) — Дети, назовите несколько слов на букву "х".
Вовочка тянет руку. (У), зная Вовочкин словарный запас, слова ему не дает.
(У) — Ну, давай ты, Леша.
(Л) — Хвостики!!!
(У) — Молодец! Ну, давай ты, Оля.
(О) — Хомутики!!!
(У) — Очень хорошо! Теперь назовите слова на букву "р".
Вовочка отчаянно тянет руку. (У), не вспомнив ни одного плохого слова на "р", дает слово Вовочке.
(В, выбегая из класса) — Хвостики! Хомутики! Расп3.14здяи!!! Я из-за вас чуть не обоссался!!!
Урок русского языка. Учительница дает задание:
(У) — Дети, назовите несколько слов на букву "х".
Вовочка тянет руку. (У), зная Вовочкин словарный запас, слова ему не дает.
(У) — Ну, давай ты, Леша.
(Л) — Хвостики!!!
(У) — Молодец! Ну, давай ты, Оля.
(О) — Хомутики!!!
(У) — Очень хорошо! Теперь назовите слова на букву "р".
Вовочка отчаянно тянет руку. (У), не вспомнив ни одного плохого слова на "р", дает слово Вовочке.
(В, выбегая из класса) — Хвостики! Хомутики! Расп3.14здяи!!! Я из-за вас чуть не обоссался!!!
+1
а как обрабатывались "многоэтажные" фразы?
разбивались сначала на "корневые" части по словарю?
или они не очень "частотны" в исследуемой среде?
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)