Pull to refresh

Comments 3

Строго говоря, задачу можно решать и без машинного обучения — с помощью rule-based систем (в самом простом варианте — с помощью регулярных выражений). Это кажется устаревшим и неэффективным, однако нужно понимать, если у вас ограничена и четко очерчена предметная область и если сущность, сама по себе, не обладает большой вариативностью, то задача NER решается с помощью rule-based методов достаточно качественно и быстро.

Поэтому применять их имеет смысл только для ограниченных доменов и на простых и четко отделимых от остального текста сущностях.

Система которая заняла первое место на factRuEval-2016 www.pullenti.ru rule-based. Получается при большом желании можно и на непростых сущностях

Было бы интересно почитать про решение NER, которое используется в Abbyy
Интересная статья, в качестве продолжения хотелось бы увидеть рассказ о том, как собирать данные для задач NER, в условиях отсутствия нормальных датасетов на русском, с помощью unsupervised и semi supervised (human in the loop and etc) методов, для обогащения существующих выборок и для адаптации на новые домены.
По поводу символьных эмбеддингов, отличные результаты показывает предварительное обучении двунаправленной рекуррентной сети предсказывать следующий символ. Получается, что информацию о структуре языка можно добавить в модель, используя неразмеченные текстовые данные, коих невероятное количество на просторах сети. А после слоев погружения уже основная, тоже двунаправленная рекуррентная сеть. Такое решение авторы назвали FLAIR, кстати есть код в открытом доступе. Я применял несколько модифицированную архитектуру. И разница в результатах с предобучением погружений и без него очень существенна. Кстати лучший вариант обучения погружений, это обучаться на всей литературе в предметной области. Например в юридической сфере статьи и книги о юриспруденции и праве.
Таким образом погружения несут в себе не просто информацию о Русском языке, а информацию о юридическом стиле языка.
Правда все это дает существенный прирост на небольших объемах данных, но для Русского языка, пока что не приходится говорить о больших размеченных данных в задачах выделения именованных сущностей.
Sign up to leave a comment.