Как стать автором
Обновить
21
0

Пользователь

Отправить сообщение
Спасибо за содержательные комментарии. Да, словари порядка 1,5 млн. слов. Совершенно согласен, что чем «тоньше» разбиение, тем лучше может быть точность. Но в данном случае хотелось примерно понять, насколько эта зависимость будет линейна и есть ли максимумы (наверно, имело смысл получить графики зависимостей «мощности» кластеров от разбиения). К тому же задача искать не точные совпадения, а реализовать а-ля ассоциативно-семантический поиск. Вообще изначально была мысль: а не существует ли оптимального набора «смыслов» на лексическом пространстве для каждого языка. Пока гипотеза не подтвердилась.

В общем, это решение «в лоб» уже дает результат. Скорее всего Вы правы, поиск центров кластеров и построение многомерного пространства должно улучшить результат. Вопрос, на сколько это утяжелит решение.
topic models — да, лет 10-15 назад с этого все и началось: LDA, LSA, pLSA etc. Порой что-то получалось. Но, к слову, даже очень неплохая разработка д. ф.-м. н. тов. Воронцова не показала требуемых результатов на Big data. А нам нужен результат, а не досужие опусы.
В том-то и дело, что темы заранее не определены: может быть поток соц медиа, а может СМИ. Поэтому приходится решать обратную задачу: сначала получить кластеры, а потом с помощью NER или концептов того же вики выяснять между ними отношения.Так просто быстрее на больших объемах.
Если говорить о когнитивной системе Ватсон в большом смсысле — аналогов в России нет. Если речь идет о системах мониторинга социальных медиа, то пример Brand Analytics
Вы совершенно правы. Ватсон используется для создания многих сервисов. В этой статье акцент уделялся именно анализу соцмедиа, как относительно новому направлению в семье IBM. Ваше замечание принято к сведению, поправки для прояснения ясности внесены.
Именно рисунок 6 нормирован на модальных глаголах, их частота не сильно колеблется по времени и месту, особенно когда речь идет о больших числах (более 700 тыс. вхождений).
Данное микро исследование не является заявкой на истину, и никак не привязано ни к бизнесу, ни к аналитике. Показано состояние употребления обсценной лексики в определенный период времени. Картинка может меняться в зависимости от причин, которые было бы интересно выяснить, например.
Да, к сожалению, пока нет хорошего инструмента нормировки (в разработке). Ниже мы написали подробнее почему и как нормировали для рисунка 6.
Попробую объяснить, это не очень тривиальная нормировка. Нормировать на все население региона некорректно, т.к. разное проникновение интернета, разная активность и пр. Нормировать на количество пользователей наверно можно, но тут, опять же, влияет разная активность пользователей (у одного через слово, а у другого всего один раз), да и инструмент визуализации в Brand Analytics пока не реализован. Поэтому нормировка производилась на количество некоторых общеупотребительных слов, которые более-менее равномерно распределены по регионам. Это могут быть союзы, модальные глаголы, или другие слова, которые всегда в топе частотного словаря и имеют маленькую дисперсию по времени и месту. Пробовали разные варианты, картинка практически не меняется, за исключением «крайних точек» — регионов с очень низкой активностью, откуда очень мало сообщений (как Чукотка, например).
Теория — теорией, но хотелось бы и побольше практики. В связи с этим есть вопрос, или даже просто узнать мнение автора. Понятно, что при обработке изображений нейросети доказали свое преимущество. Но в обработке текста — пока бабушка надвое сказала: статистические (вероятностные) методы пока проще, а главное точнее. Скажем, Марковские случайные поля ( в частности CRF) показывают неплохие результаты. По сути CRF — это графическая модель, где для регуляризации весов клик графа используются разные методы. Например, линейная регрессия показывает не очень хорошие результаты, а обычный персептрон — уже лучше. Хорошо, когда вершин немного (т.е. мало исходных атрибутов), но когда много — и обучение может длиться неделями, и точность падает. Я правильно понимаю, что как раз тут можно было бы накатить байесовские нейросети? Или это только усложнит и без того непростой метод?
Можно. Но на больших данных ошибки нивелируются, а закономерности всплывают. Вопрос в другом: их не всегда можно объяснить, да и связаны эти закономерности могут быть с чем-то совершенно другим. Но игнорировать их уже нельзя.
Ну это больше социологические вопросы. Наиболее интересен шестой пункт, т.к. менее всего очевиден.
Мы не учитываем региональные особенности, но учитываем наиболее частотные употребления: Я вместо Е имеется.
Собираемся посмотреть распределение по регионам, по полу и по возрасту. Надеюсь, публикуем в скором времени.
Да-да, в процессе. Собираемся сделать распределение по возрасту, полу и регионам.
О том и речь! За экономику не ручаюсь, но прогнозировать что-то можно. Пока, скажем, это первая попытка найти связи между эмоциями и событиями.
А с какой целью? Для классификации сообщений по отраслям? Можно, но это не очень точный алгоритм. Тут скорее нужно искать корреляции лексики/сложности по отраслям к описываемым событиям. Но пока не очень понятно, как — параметров получается очень много.
Действительно забыли… Спасибо, что напомнили. Оно бы вошло в группу О — она, правда, не так частотна, но требует отдельного изучения.
Ну как же: б*овать, и его вариации с приставками.
Нет, это изменение сложности текста в указанный период по всем сообщениям (по всем словам, не только из группы). Оказалось, что это коррелирует с динамкой изменения обсценной лексики.
На таких объемах — 45 млрд. слов — показательно. Ошибки сглаживаются. Другое дело, что причины такого поведения кривых не очень понятны. А на более длинном периоде — согласен, можно посмотреть с привязкой к разным событиям, поискать корреляцию с разного сорта лексикой.
На таких объемах (до 100 сообщений в секунду) мы не включали pos-tagger — затратно для такой задачи, т.е. части речи проставляли вручную по результату. А вообще, это зависит от того, на каком материале систему обучить. Обычно у междометий высокая точность определения — около 99%.
1

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность