Как было упомянуто в первой части публикации, модели получаются из classes — представления результата текста word2vec виде ассоциативно-семантических классов путем сглаживания распределений.
Существует огромное количество алгоритмов кластеризации. Основная идея большинства из них – объединить одинаковые последовательности в один класс или кластер на основе сходства. Как правило, выбор алгоритма определяется поставленной задачей. Что касается текстовых данных, то здесь сравниваемыми составляющими служат последовательности слов и их атрибутов (например, вес слова в тексте, тип именованной сущности, тональность и пр.). Таким образом, тексты изначально преобразуются в вектора, с которыми производят разного типа манипуляции. При этом, как правило, возникает ряд проблем, связанных с: выбором первичных кластеров, зависимостью качества кластеризации от длины текста, определением общего количества кластеров и т.п. Но наиболее сложной проблемой является отсутствие связи между близкими по смыслу текстами, в которых используется разная лексика. В таких случаях объединение должно происходить не только на основе сходства, а еще и на основе семантической смежности или ассоциативности.
21 век можно по праву назвать веком социальных медиа. Бесчисленное количество постов, репостов, ответов на посты и комментариев, сотни ежесекундно загружаемых видео на Ютьюб и фотографий в Инстаграмм. Если ты не в сети — ты не в тренде. Крупнейшие университеты (как, например Массачусетский Институт Технологий MIT) выкладывают онлайн лекции и учебники. Вопросы, затрагивающие самые разные темы от политики и культуры до кулинарии и особенностей выполнения той или иной асаны в йоге, теперь обсуждаются не только и не столько на кухне или в курилке, а на интернет форумах. Что лучше? Правильная ли экранизация у книги? В том ли направлении двигается сюжет полюбившегося сериала? Будет ли новая модель телефона успешней и круче, чем у конкурентов? Сегодня на эти вопросы отвечает анализ биг дата, да и системы, производящие подобные исследование на данных социальных медиа, хотя еще и не вчерашний день, но уж утро сегодняшнего точно. Одна из подобных систем создана гигантом в сфере программного обеспечения и носит гордое имя верного соратника британского детектива. Стоит отметить, что речь пойдёт лишь о системе аналитики соцмедиа (IBM Watson Analytics for Social Media), а это лишь часть знаменитой когнитивной системы Watson, и приведенные ниже плюсы и минусы касаются непосредственно данного сервиса, который для простоты упоминания в дальнейшем условимся называть просто Ватсоном.
Один мой приятель, учитель латинского языка, в начале урока спрашивал своих студентов, выполнили ли они домашнее задание. Как правило, если не первый, то второй или третий ученик сознавался: простите, господин Учитель, я ничего не сделал. «Фак!» — говорил учитель. «Фак!» — повторял он, вводя в еще большее недоумение своих чад. «Сегодня мы будем проходить глагол третьего спряжения facio – делать», который в повелительном наклонении единственного числа так и произносится: fac! – делай!
Нет, мы не собираемся витийствовать о том, что не бывает хороших и плохих слов, а есть наша оценка оных. Также мы не будем говорить об истоках и функциях русской брани, не будем обсуждать моральную сторону вопроса, как и искать причинно-следственные связи ее употребления. Мы проведем небольшое исследование обсценной лексики на материалах русскоязычных соц. медиа, сделаем ряд замеров и расчетов на большой выборке из интернет-источников.