Pull to refresh
0
0
Илья Кузнецов @zubasty

User

Send message
Расскажите потом о результатах!
Я скорее о том, что в английском достаточно жесткий порядок слов и слабая морфология, а в русском наоборот. Кроме того, в английском омонимия полная, а у нас часто бывает омонимия по форме, т.е. нужно выбрать не часть речи как таковую, а правильную комбинацию «слово+форма» (были = прошедшее от «быть» или множественное от «быль»? Сочи = город или повелительное наклонение от «сочить»?). В общем, на мой взгляд, задачи разные.
И всё-таки та же самая задача решается путем написания ресурсов под какую-нибудь платформу (хотя бы и гейт, хотя машинное обучение мне там не очень нравится) и встраивания их в свою систему. Так экономится масса усилий, кроме того, ваш продукт будет совместим с другими продуктами, опирающимися на ту же платформу.
На мой взгляд, хотя в плане экзерсиса написать что-то своё всегда полезно, в промышленном отношении лучше всё-таки держаться поближе к большим платформам и стандартам и изобретать своё только в крайних случаях.
Хорошо, что вы обрабатываете не немецкий язык!:)
Но проблемы будут и для русского. Ведь у нас с большой первой буквы пишутся почти все named entities, так что с таким методом (если я правильно вас понял) точность будет не очень. Если делаете поиск персон (да и вообще NER), лучше сразу обзавестись тестовым корпусом и отслеживать качество работы модуля.
Unsupervised POS-тэггер — интересно, надо попробовать. Для оценки-то и 180 тыс. из НКРЯ хватит :)
Боюсь, правда, что английский POS очень сильно отличается от русского, и там придётся половину переделывать.
Но всё равно спасибо за наводку!
Скажите, а были ли какие-нибудь попытки посмотреть, как будет меняться качество, если увеличить число студентов на каждый пример? Ведь увеличение числа аннотаторов, как кажется, должно бы повысить точность разметки, не будут же они совсем случайно отвечать.
Без большого корпуса заниматься NLP грустно.
А с какого объёма можно уже тренировать снятие морфологической неоднозначности?
Ведь с какого-то момента можно было бы обучаться на том, что уже размечено, или по крайней мере ускорить процесс дальнейшей разметки хотя бы за счёт снятия частеречной омонимии (как понял из вашей диаграммы, она ещё не вполне снята)

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Date of birth
Registered
Activity