Как стать автором
Обновить
21
0

Пользователь

Отправить сообщение

Кластеризация текстовых документов по семантическим признакам (часть вторая: описание моделей)

Время на прочтение6 мин
Количество просмотров11K

Модели Word2Vec


Как было упомянуто в первой части публикации, модели получаются из classes — представления результата текста word2vec виде ассоциативно-семантических классов путем сглаживания распределений.

Идея сглаживания в следующем.
Читать дальше →
Всего голосов 18: ↑15 и ↓3+12
Комментарии3

Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)

Время на прочтение6 мин
Количество просмотров29K
Существует огромное количество алгоритмов кластеризации. Основная идея большинства из них – объединить одинаковые последовательности в один класс или кластер на основе сходства. Как правило, выбор алгоритма определяется поставленной задачей. Что касается текстовых данных, то здесь сравниваемыми составляющими служат последовательности слов и их атрибутов (например, вес слова в тексте, тип именованной сущности, тональность и пр.). Таким образом, тексты изначально преобразуются в вектора, с которыми производят разного типа манипуляции. При этом, как правило, возникает ряд проблем, связанных с: выбором первичных кластеров, зависимостью качества кластеризации от длины текста, определением общего количества кластеров и т.п. Но наиболее сложной проблемой является отсутствие связи между близкими по смыслу текстами, в которых используется разная лексика. В таких случаях объединение должно происходить не только на основе сходства, а еще и на основе семантической смежности или ассоциативности.


Читать дальше →
Всего голосов 14: ↑9 и ↓5+4
Комментарии9

Элементарно, Ватсон, или анализ соцмедиа по-айбиэмовски

Время на прочтение6 мин
Количество просмотров4.1K
21 век можно по праву назвать веком социальных медиа. Бесчисленное количество постов, репостов, ответов на посты и комментариев, сотни ежесекундно загружаемых видео на Ютьюб и фотографий в Инстаграмм. Если ты не в сети — ты не в тренде. Крупнейшие университеты (как, например Массачусетский Институт Технологий MIT) выкладывают онлайн лекции и учебники. Вопросы, затрагивающие самые разные темы от политики и культуры до кулинарии и особенностей выполнения той или иной асаны в йоге, теперь обсуждаются не только и не столько на кухне или в курилке, а на интернет форумах. Что лучше? Правильная ли экранизация у книги? В том ли направлении двигается сюжет полюбившегося сериала? Будет ли новая модель телефона успешней и круче, чем у конкурентов? Сегодня на эти вопросы отвечает анализ биг дата, да и системы, производящие подобные исследование на данных социальных медиа, хотя еще и не вчерашний день, но уж утро сегодняшнего точно. Одна из подобных систем создана гигантом в сфере программного обеспечения и носит гордое имя верного соратника британского детектива. Стоит отметить, что речь пойдёт лишь о системе аналитики соцмедиа (IBM Watson Analytics for Social Media), а это лишь часть знаменитой когнитивной системы Watson, и приведенные ниже плюсы и минусы касаются непосредственно данного сервиса, который для простоты упоминания в дальнейшем условимся называть просто Ватсоном.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии5

Четыре слова, которые нельзя (часть 2)

Время на прочтение4 мин
Количество просмотров12K
По просьбе хабрачан продолжим публикации об исследовании обсценной лексики. (Если кто не читал первую часть, то можете ознакомиться).

Начнем сразу с картинок.

Итак, картинка первая.


Рис.1. Распределение обсценной лексики по источникам.
Читать дальше →
Всего голосов 14: ↑13 и ↓1+12
Комментарии19

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

Время на прочтение5 мин
Количество просмотров33K
Один мой приятель, учитель латинского языка, в начале урока спрашивал своих студентов, выполнили ли они домашнее задание. Как правило, если не первый, то второй или третий ученик сознавался: простите, господин Учитель, я ничего не сделал. «Фак!» — говорил учитель. «Фак!» — повторял он, вводя в еще большее недоумение своих чад. «Сегодня мы будем проходить глагол третьего спряжения facio делать», который в повелительном наклонении единственного числа так и произносится: fac! – делай!

Нет, мы не собираемся витийствовать о том, что не бывает хороших и плохих слов, а есть наша оценка оных. Также мы не будем говорить об истоках и функциях русской брани, не будем обсуждать моральную сторону вопроса, как и искать причинно-следственные связи ее употребления. Мы проведем небольшое исследование обсценной лексики на материалах русскоязычных соц. медиа, сделаем ряд замеров и расчетов на большой выборке из интернет-источников.
Читать дальше →
Всего голосов 42: ↑40 и ↓2+38
Комментарии44

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность