Как стать автором
Обновить
38
0
Sergey Smetanin @sismetanin

Engineering Manager

Отправить сообщение
Спасибо!
Да, проблема с низким уровнем inter-rater agreement однозначно есть, и к ее решению можно подходить разными способами. Один из них – создание четких и пошагово расписанных гайдлайнов для аннотации тестов, которые особо важны при разметке силами асессоров без лингвистической подготовки. В заключительной статье есть раздал про это.
Нет, с SAP HANA не работал. Не уверен, что коммерческие решения подобного рода можно использовать в SemEval.
вы внедрили супер фоновый режим IAUs

In-App Updates – это новый механизм обновления приложений, который позволяет через Google Play получать информацию о доступных для обновления версиях, отображать нативное диалоговое окно Google Play для обновления приложения, загружать обновление в фоне и устанавливать его. Таким образом, IAUs – это гораздо больше, чем просто загрузка в фоне.
пользователи обновлялись не потому что вы внедрили супер фоновый режим IAUs, а просто потому что предложили обновиться?

Да, именно это и проверялось в рамках A/B-теста. Одной группе пользователей был
показан диалог IAUs с предложением обновиться, а другой группе – нет.
Спасибо за вопрос!
Коллеги из Google говорили, что пока что у них нет синхронизации загрузки с автоматическими обновлениями через Google Play. Так что теоретически возможна ситуация, когда APK будет скачан дважды.
Thank you for your comment, that's a complicated question concerning user behaviour issues. Within our research, we didn't deep dive into the reasons for the user decision to update or not to update the app. Obviously, in order to provide an answer to this question, it's necessary to conduct a broader UX research, that probably goes beyond the basic A/B test.
Да, все верно.
Тоже склоняюсь к варианту с русскими и французскими словами, но однозначно дать ответ на вопрос не могу, так как необходимо более подробно изучать данные.
В этом направлении двигается Microsoft с Visual Studio App Center.
Проверяли ошибку на неразмеченных твитах, какая она там?

Какую ошибку имеете в виду? Точность, полноту и F-меру там нельзя посчитать из-за того, что данные не размечены по классам тональности.

ttype есть еще нейтральные вроде, может если сделать 3 класса и упростить модель (не вижу смысла в такой сложно если последовательная дает примерно ту же ошибку) — ошибка будет меньше?

Касательно добавления еще одного класса, скорее всего, качество классификации упадет. Это подтверждется результатами соревнования SemEval-2017 Task 4: Sentiment Analysis in Twitter: при бинарной классификации (Subtask B) удалось достичь показателя точности (accuracy) 0.882, когда при классификации на три класса (Subtask A) максимальная точность составила лишь 0.681. При подведении итогов организаторы отметили, что такая разница преимуществено обусловлена разным количеством классов.
По поводу сложности модели, я хотел рассмотреть именно применение сверточных нейронных сетей. Обоснование выбранной архитектуры описал в разделе «Архитектура».

в русском языке в отличие от английского одно и то же слово может быть токенизировано множеством вектором по вашему коду, так как есть суффиксы и окончания

Да, я не рассматривал стемминг и нормализацию для уменьшения размера словаря, но упомянул их в заключении. Эти техники действительно могут увеличить качество работы классификатора.
Не могу полностью согласиться, что такой проблемы нет в английском языке. Все таки там тоже есть суффиксы и окончания, но их гораздо меньше, чем в русском. К примеру, там есть окончание s, указывающее на множественное число.
Спасибо, исправил, должно быть по 10. Обучал модель именно с таким количеством слоев для каждой высоты.
Спасибо за отзыв!
а почему сравнивается с MNB, а не с RNN сетями, которые сильно лучше на данной задаче?

Поскольку статья обзорно-вводная, я старался акцентировать внимание преимущественно на CNN, её архитектуре и обучении, а MNB взял как базовый подход для анализа тональности, хорошо себя зарекомендовавший в прошлом. Про сравнение CNN и RNN полностью согласен, особенно интересно было бы это рассмотреть в разрезе разного формата данных: длинные и короткие тексты, разговорная и литературная речь и т.д. Думаю, это отличная тема для ещё одной статьи.
На Хабре уже был материал по анализу тональности твитов с помощью LSTM, но там качество классификации измеряли только в точности (accuracy), поэтому не стал включать ее в статью для сравнения.

А предобученные не пробовали юзать?

Опять же из-за характера статьи, я хотел показать полную последовательность действий, в том числе построение семантической модели на текстах из предметной области. Если рассматривать более глубокий подход, то да, можно взять предобученную модель (к примеру, из проекта RusVectōrēs) и дообучить на своих данных.

местные кернелы просто кладезь по SotA текст классификации

Спасибо, обязательно ознакомлюсь. В новом SemEval-2019 есть схожие треки: по обнаружению ненависти и оскорблений.

Информация

В рейтинге
Не участвует
Откуда
Великобритания
Работает в
Зарегистрирован
Активность