Информация

Дата основания
Местоположение
Россия
Сайт
team.mail.ru
Численность
5 001–10 000 человек
Дата регистрации

Блог на Хабре

Обновить
Комментарии 3
Отличный обзор, спасибо!
К теме следующей статьи — на мой взгляд основная сложность в установлении тональности текстов практически любой тематики, которая сложнее отзывов на товары и фильмы — это низкая степень согласия кодировщиков между со собой. В статье Measuring the Reliability of Hate Speech Annotations показано, что альфа-Криппендорфа в ответе на вопрос содержит ли текст язык вражды, не превышает 0.29 при минимальном рекомендуемом значении в 0.66.

Для более-менее сносной классификации таких текстов необходимо 1) выделять разные аспекты тональности, 2) делать синтаксический парсинг (для русского языка подойдёт SyntaxNet, например) и определять тональность на уровне субъектов и объектов в отдельных предложениях (или нескольких предложений).
Спасибо!
Да, проблема с низким уровнем inter-rater agreement однозначно есть, и к ее решению можно подходить разными способами. Один из них – создание четких и пошагово расписанных гайдлайнов для аннотации тестов, которые особо важны при разметке силами асессоров без лингвистической подготовки. В заключительной статье есть раздал про это.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.