PalitrumLab corporate blog
Semantics
Data Mining
Big Data
19 September 2015

Сколько твитов нужно, чтобы узнать ваш характер?

Экстенсивный рост количества неструктурированных данных (твитов, постов, комментов, фото и видео), генерируемый человечеством – и фантастические возможности, и головная боль для многих старых и новых индустрий.

На днях мы уже приводили фактографию по объемам количества сообщений, производимых человечеством в сутки, понятно, что миллиарды высказываний требуют совершенно других решений и технологий. «Старые» (ужас, прошло 3-5 лет, и уже старые) подходы и люди, их разрабатывающие, борются за место под солнцем. Но…

image

В качестве классического примера приводим перевод недавнего материала от подразделения IBM Watson:

======
IBM Watson может распознавать эмоциональный тон сообщения
(источник)

Исследователи из IBM создали IBM Watson Tone Analyzer, приложение для суперкомпьютеров, которое может сообщение прочитать и определить передаваемые в нём эмоции.

Эта задача из разряда тех, что естественно легко выполняется человеком, но, как правило, для принятия верного решения требуется гораздо больше информации о мире, нежели та, которой «владеет» компьютер.

Рама Аккираджу, инженер и опытный изобретатель в IBM Watson User Technologies, написал в блоге: «Может ли компьютер автоматически распознавать передаваемые в сообщении эмоции достаточно точно? Помощь людям в оценке и улучшению эмоционального тона в письменной коммуникации — интересное испытание в областях искусственного интеллекта и когнитивных наук. С помощью IBM Watson мы, наконец, сможем начать отвечать на этот вопрос.»

Всё это звучит так, как будто здесь за занавесом всё таки присутствует человек. Но ещё в 2013 году, мы писали, как исследователи из IBM могут “расшифровать” ваш характер всего в 200 твитов.

Порой эмоциональный тон сообщения может быть упущен, нежелателен или в недостаточной мере раскрыт автором. IBM Watson Tone Analyzer уже доступен в экспериментальном режиме, это сервис, который поможет оценить и улучшить эмоциональный тон в письменной коммуникации.”

Технологическая составляющая похожа на лингвистический анализ, который используется в IBM Watson Personality Insights. Tone Analyzer анализирует выбранный текст и предоставляет информацию об эмоциональных, социальных и письменных акцентах, отраженных в тексте. Подобная информация может быть применена для целого ряда задач, включая личные и бизнес коммуникации, брендинг, исследования рынка, PR и контактный центр», — говорит Аккираджу.

Основные эмоциональные элементы тональности включают жизнерадостность, негативные эмоции и злость. “Жизнерадостность подразумевает под собой позитивные эмоции, такие как радость, оптимизм, довольство, вдохновение и счастье. Негативные эмоции включают в себя чувства страха, отвращение, отчаянья, вины, и унижения. Злость тоже есть вид негативных эмоций с наиболее сильным эмоциональным окрасом, как например раздражение, враждебность, агрессия, боль, разочарование и ярость”.

IBM Watson также может распознавать социальные тональности, такие как открытость, уступчивость и добросовестность. “Открытость же есть мера готовности человека к занятию новыми видами деятельности; уступчивость – тенденция к сопереживанию и активному взаимодействию с окружающими; добросовестность — это склонность к организованному и продуманному действию. Мы используем эти три измерения для иллюстрации открытости, уступчивости и добросовестности автора, как отражено в тексте”.
=================

Казалось бы – все замечательно? Но судя по последним действиям «Голубого гиганта» на рынке, подобные «черепашьи» скорости в разработке лингвистики никак не устраивают руководство. Несколько лет (как минимум с 2013 года) решать задачу семантического анализа и автоматического определения тональности с окраской высказываний – непозволительная медлительность разработки в наше время, когда бизнесу нужна оперативность решений.

Итог: IBM весной покупает за $100 млн AlchemyAPI (см. 9-ю серию сериала про Big Data), компанию, которая умеет быстро обрабатывать англоязычные потоки неструктурированных данных.

Подобные проблемы не только у IBM, но у всех «китов» (SAP, Google, MS, HP и т.д.), занимающихся разработкой продуктов и систем обработки неструктурированных данных. Если с английским языком (с точки зрения лингвистики достаточно простым) еще как-то более-менее, то с другими, типа немецкого или русского – просто беда.

Общаясь с европейскими центрами впечатляет, когда после многолетних изысканий и требований сверху «Вы срываете сроки!», рождаются решения типа: переведем с русского на английский и возьмем тональность текста перевода. И это не шутка.

Для тех, кто интересуется лингвистикой: поработать с русскоязычной лингвистикой можно на сайте Eureka Engine, там же и подробное описание различных лингво-модулей.

Для желающих проверить "Правило 200 твитов/постов" от исследователей из IBM: возьмите сообщения кого-то из лидерующих медиа-персон в разных соцмедиа (см. публичный Рейтинг авторов и групп) и проверьте, насколько лингвисты ошибаются :-)

А если у кого-то из читателей возникнет желание сделать полноценную «обертку» в виде системы "Кто ты есть в твоих постах?", то мы предоставим доступ к данным (сообщениям) и API Eureka Engine. Кто знает, вдруг «Она вращается!»?

+9
16.4k 90
Comments 7
Top of the day