Comments / Profile of zubasty / Habr

Илья Кузнецов @zubasty

User

Profile Publications Comments 8Bookmarks 3

«Он видел их семью своими глазами»

zubasty Dec 10 2012 at 13:06

Расскажите потом о результатах!

Look

«Он видел их семью своими глазами»

zubasty Dec 10 2012 at 12:18

Я скорее о том, что в английском достаточно жесткий порядок слов и слабая морфология, а в русском наоборот. Кроме того, в английском омонимия полная, а у нас часто бывает омонимия по форме, т.е. нужно выбрать не часть речи как таковую, а правильную комбинацию «слово+форма» (были = прошедшее от «быть» или множественное от «быль»? Сочи = город или повелительное наклонение от «сочить»?). В общем, на мой взгляд, задачи разные.

Look

Text Mining Framework (Java)

zubasty Nov 11 2012 at 17:51

И всё-таки та же самая задача решается путем написания ресурсов под какую-нибудь платформу (хотя бы и гейт, хотя машинное обучение мне там не очень нравится) и встраивания их в свою систему. Так экономится масса усилий, кроме того, ваш продукт будет совместим с другими продуктами, опирающимися на ту же платформу.
На мой взгляд, хотя в плане экзерсиса написать что-то своё всегда полезно, в промышленном отношении лучше всё-таки держаться поближе к большим платформам и стандартам и изобретать своё только в крайних случаях.

Look

Text Mining Framework (Java)

zubasty Nov 11 2012 at 17:43

Хорошо, что вы обрабатываете не немецкий язык!:)
Но проблемы будут и для русского. Ведь у нас с большой первой буквы пишутся почти все named entities, так что с таким методом (если я правильно вас понял) точность будет не очень. Если делаете поиск персон (да и вообще NER), лучше сразу обзавестись тестовым корпусом и отслеживать качество работы модуля.

Look

«Он видел их семью своими глазами»

zubasty Oct 22 2012 at 22:26

Unsupervised POS-тэггер — интересно, надо попробовать. Для оценки-то и 180 тыс. из НКРЯ хватит :)
Боюсь, правда, что английский POS очень сильно отличается от русского, и там придётся половину переделывать.
Но всё равно спасибо за наводку!

Look

«Он видел их семью своими глазами»

zubasty Oct 22 2012 at 20:09

Скажите, а были ли какие-нибудь попытки посмотреть, как будет меняться качество, если увеличить число студентов на каждый пример? Ведь увеличение числа аннотаторов, как кажется, должно бы повысить точность разметки, не будут же они совсем случайно отвечать.

Look

«Он видел их семью своими глазами»

zubasty Oct 22 2012 at 18:01

Без большого корпуса заниматься NLP грустно.
А с какого объёма можно уже тренировать снятие морфологической неоднозначности?
Ведь с какого-то момента можно было бы обучаться на том, что уже размечено, или по крайней мере ускорить процесс дальнейшей разметки хотя бы за счёт снятия частеречной омонимии (как понял из вашей диаграммы, она ещё не вполне снята)

Look

InsidersTalk — интервью с людьми разных профессий

zubasty Sep 30 2010 at 23:52

здорово

Look