Это как раз для того, чтобы разную автоматику сравнить с условным идеалом, оценить и осознать перспективы.
Компрено поможет, но сделает результаты оценки слегка перекошенными в сторону тех примеров, которые Компрено понимает хорошо. Оценить само Компрено при этом будет проблематично, а хочется. Поэтому делаем всё чисто, т.е. вручную.
Спасибо.
Нет, не он. Скорее всего вы делали это через Facebook или другую соцсеть. Мы давно используем Loginza для интеграции с ними. Последнее время Loginza глючит.
Попробуйте следующее:
1. повторить попытку входа тем же способом (иногда это помогает)
Если первое не поможет:
2. сделать другой логин прямо на OpenCorpora. Если вы раньше уже заходили через соцсеть, пришлите, пожалуйста, ссылку на профиль, через который заходили. Мы свяжем два профиля у себя в один.
Кол-во вариантов толкования можно посчитать по дампу (см. пример ниже, ссылки на дамп в начале opencorpora.org/?page=downloads ). Варианты толкования — это теги v. В данном примере их три.
Об этой возможности мы думаем и тоже её хотим. Однажды сделаем и напишем об этом.
5.9%, в данном случае, это не ошибки, а процент расхождений с двумя другими участниками. Теоретически, у Вас вообще может не быть ошибок. По мере модерации появится и кол-во ошибок.
1. для большинства лингвистических задач (т.е. для поиска примеров употребления чего-нибудь) НКРЯ лучше, т.к. он больше.
2. если собрать корпус из Часкора и Википедии/Викиновостей/Викитеки, а потом разметить его автоматически, то это будет куда более осмысленно, т.к. это будет современный язык + не очень маленький объём.
3. в Открытом корпусе поиск нужнее всего модераторам, т.к. им нужно искать по нашим граммемам.
Итого, есть две задачи:
— научиться генерировать корпус из MediaWiki dump и HTML Часкора
— поднять <a href=«cwb.sourceforge.net/>CWB на этом корпусе
Тут нужны добровольцы, которые хотят заниматься этим в свободное от работы время.
Про ускорить за счёт подключения машины: думаем подключатать машину на этапе модерации, т.е. представлять её как ещё одного аннотатора. Но разработчика, который бы взялся за реализацию этой затеи, у нас пока нет. От человека потребуется большая самостоятельность.
Из известных мне статей про снятие морфологической неоднозначности в тексте на русском, три использовали НКРЯ:
— Сокирко и Толодова (2004)
— Зеленков, Сегалович, Титов (2005)
— Шаров и Nivre (2011)
Похоже, что речь шла о 5 млн слов, но это не везде очевидно. Точность получалась в диапазоне 94 — 97%.
Есть ещё хабрапост, в котором использовалась доступная выборка из НКРЯ в 180 тыс. слов (её и сейчас можно скачать). Там получилась точность 92%, что ниже, чем обычно приводят в работах про POS-tagging.
Вот тут ещё есть про POS tagging текста на болгарском. Говорят о 97% при использовании корпуса около 300К слов. Там, правда, не только машинное обучение, но и правила, составленные вручную лингвистами.
Я думаю, что:
1. 180 тыс. слов и только машинное обучение, вероятно, мало
2. 300 тыс. слов для машинного обучения + правила от лингвистов, возможно, достаточно
3. есть ли существенная разница между 1 млн и 5 млн — непонятно
Мы хотим 1 млн со снятой неоднозначностью. Потом ещё раз подумаем ;)
Да. В рамках одного предложения это неснимаемая неоднозначность. Надо нажать «Другое» и написать в комментарий об этом. Модератор видит ссылки на полный контекст и решит ;)
До границ предложения контекст можно расширить при помощи многоточий в начале и в конце примера. Попробуйте сейчас ;)
Показать несколько предложений не можем. Бывают неоднозначные примеры (не очень часто) — нажимайте «Другое» и пишите в коммент «Неснимаемая неоднозначность» + почему Вы так думаете.
Шанса, что пример никто не возьмёт нет, т.к. те примеры, которые никто не берёт, размечают самые опытные участники, модераторы, разработчики и т.д… Потом, если однотипных непонятных примеров много, про них пишутся разделы инструкции. Так что смело нажимайте «Пропустить», если пример непонятен.
Компрено поможет, но сделает результаты оценки слегка перекошенными в сторону тех примеров, которые Компрено понимает хорошо. Оценить само Компрено при этом будет проблематично, а хочется. Поэтому делаем всё чисто, т.е. вручную.
Чем-то похожим, на то, о чём вы пишите, занимается (или занимался) vk.com/componavt. Возможно, что вы сможете объединить усилия.
Скажите, пожалуйста, идентификатор текста (он в урле).
Нет, не он. Скорее всего вы делали это через Facebook или другую соцсеть. Мы давно используем Loginza для интеграции с ними. Последнее время Loginza глючит.
Попробуйте следующее:
1. повторить попытку входа тем же способом (иногда это помогает)
Если первое не поможет:
2. сделать другой логин прямо на OpenCorpora. Если вы раньше уже заходили через соцсеть, пришлите, пожалуйста, ссылку на профиль, через который заходили. Мы свяжем два профиля у себя в один.
Прошу прощения за неудобство.
code.google.com/p/opencorpora/issues/detail?id=323
Кол-во вариантов толкования можно посчитать по дампу (см. пример ниже, ссылки на дамп в начале opencorpora.org/?page=downloads ). Варианты толкования — это теги v. В данном примере их три.
5.9%, в данном случае, это не ошибки, а процент расхождений с двумя другими участниками. Теоретически, у Вас вообще может не быть ошибок. По мере модерации появится и кол-во ошибок.
Про поиск:
1. для большинства лингвистических задач (т.е. для поиска примеров употребления чего-нибудь) НКРЯ лучше, т.к. он больше.
2. если собрать корпус из Часкора и Википедии/Викиновостей/Викитеки, а потом разметить его автоматически, то это будет куда более осмысленно, т.к. это будет современный язык + не очень маленький объём.
3. в Открытом корпусе поиск нужнее всего модераторам, т.к. им нужно искать по нашим граммемам.
Итого, есть две задачи:
— научиться генерировать корпус из MediaWiki dump и HTML Часкора
— поднять <a href=«cwb.sourceforge.net/>CWB на этом корпусе
Тут нужны добровольцы, которые хотят заниматься этим в свободное от работы время.
Начинать можно даже с полностью неоднозначного корпуса по методу E.Brill ( citeseerx.ist.psu.edu/viewdoc/summary;jsessionid=4FAD01411F0CB33045D20880B2E63998?doi=10.1.1.128.9159 ). Это статья 1995 года, но можно найти и ещё по запросу «unsupervised part of speech tagging». В этом случае корпус со снятой вручную неоднозначностью нужен будет для оценки результата.
Из известных мне статей про снятие морфологической неоднозначности в тексте на русском, три использовали НКРЯ:
— Сокирко и Толодова (2004)
— Зеленков, Сегалович, Титов (2005)
— Шаров и Nivre (2011)
Похоже, что речь шла о 5 млн слов, но это не везде очевидно. Точность получалась в диапазоне 94 — 97%.
Есть ещё хабрапост, в котором использовалась доступная выборка из НКРЯ в 180 тыс. слов (её и сейчас можно скачать). Там получилась точность 92%, что ниже, чем обычно приводят в работах про POS-tagging.
Вот тут ещё есть про POS tagging текста на болгарском. Говорят о 97% при использовании корпуса около 300К слов. Там, правда, не только машинное обучение, но и правила, составленные вручную лингвистами.
Я думаю, что:
1. 180 тыс. слов и только машинное обучение, вероятно, мало
2. 300 тыс. слов для машинного обучения + правила от лингвистов, возможно, достаточно
3. есть ли существенная разница между 1 млн и 5 млн — непонятно
Мы хотим 1 млн со снятой неоднозначностью. Потом ещё раз подумаем ;)
Сейчас мы сосредоточились на одной цели, т.к. морфологическая разметка — это трудоёмкая и очень нужная задача. Все силы идут в эту сторону.
До границ предложения контекст можно расширить при помощи многоточий в начале и в конце примера. Попробуйте сейчас ;)
Показать несколько предложений не можем. Бывают неоднозначные примеры (не очень часто) — нажимайте «Другое» и пишите в коммент «Неснимаемая неоднозначность» + почему Вы так думаете.
Шанса, что пример никто не возьмёт нет, т.к. те примеры, которые никто не берёт, размечают самые опытные участники, модераторы, разработчики и т.д… Потом, если однотипных непонятных примеров много, про них пишутся разделы инструкции. Так что смело нажимайте «Пропустить», если пример непонятен.