Как стать автором
Обновить
43
0
Бочаров Виктор @bocharov

natural language processing

Отправить сообщение
Это как раз для того, чтобы разную автоматику сравнить с условным идеалом, оценить и осознать перспективы.

Компрено поможет, но сделает результаты оценки слегка перекошенными в сторону тех примеров, которые Компрено понимает хорошо. Оценить само Компрено при этом будет проблематично, а хочется. Поэтому делаем всё чисто, т.е. вручную.
На всякий случай отписываюсь здесь о том, что ошибку нашли и исправили ;)
Спасибо!
Чем-то похожим, на то, о чём вы пишите, занимается (или занимался) vk.com/componavt. Возможно, что вы сможете объединить усилия.
Спасибо. Разбираемся.
Скажите, пожалуйста, идентификатор текста (он в урле).
Спасибо.
Нет, не он. Скорее всего вы делали это через Facebook или другую соцсеть. Мы давно используем Loginza для интеграции с ними. Последнее время Loginza глючит.

Попробуйте следующее:

1. повторить попытку входа тем же способом (иногда это помогает)

Если первое не поможет:

2. сделать другой логин прямо на OpenCorpora. Если вы раньше уже заходили через соцсеть, пришлите, пожалуйста, ссылку на профиль, через который заходили. Мы свяжем два профиля у себя в один.

Прошу прощения за неудобство.
Вернули ещё немного простых заданий.
Первые два комплекта этих заданий кончились. Потом когда-нибудь будут ещё.
Да. Хорошая идея. Спасибо.
Тоже хочу, чтобы было Android / iOS приложение. Тема чуть-чуть обсуждается вот тут:

code.google.com/p/opencorpora/issues/detail?id=323
Спасибо. Не надо в прокуратуру. Там всё сложнее, чем кажется на первый взгляд.
Спасибо за идею ;)

Кол-во вариантов толкования можно посчитать по дампу (см. пример ниже, ссылки на дамп в начале opencorpora.org/?page=downloads ). Варианты толкования — это теги v. В данном примере их три.

<token id="3" text="злословия">
  <tfr t="злословия">
    <v>
      <l id="115766" t="злословие">
        <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="sing"/><g v="gent"/>
      </l>
    </v>
    <v>
      <l id="115766" t="злословие">
        <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="plur"/><g v="nomn"/>
      </l>
    </v>
    <v>
      <l id="115766" t="злословие">
        <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="plur"/><g v="accs"/>
      </l>
    </v>
  </tfr>
</token>

Об этой возможности мы думаем и тоже её хотим. Однажды сделаем и напишем об этом.

5.9%, в данном случае, это не ошибки, а процент расхождений с двумя другими участниками. Теоретически, у Вас вообще может не быть ошибок. По мере модерации появится и кол-во ошибок.
Спасибо!

Про поиск:

1. для большинства лингвистических задач (т.е. для поиска примеров употребления чего-нибудь) НКРЯ лучше, т.к. он больше.

2. если собрать корпус из Часкора и Википедии/Викиновостей/Викитеки, а потом разметить его автоматически, то это будет куда более осмысленно, т.к. это будет современный язык + не очень маленький объём.

3. в Открытом корпусе поиск нужнее всего модераторам, т.к. им нужно искать по нашим граммемам.

Итого, есть две задачи:

— научиться генерировать корпус из MediaWiki dump и HTML Часкора
— поднять <a href=«cwb.sourceforge.net/>CWB на этом корпусе

Тут нужны добровольцы, которые хотят заниматься этим в свободное от работы время.
Про ускорить за счёт подключения машины: думаем подключатать машину на этапе модерации, т.е. представлять её как ещё одного аннотатора. Но разработчика, который бы взялся за реализацию этой затеи, у нас пока нет. От человека потребуется большая самостоятельность.
Мы сейчас где-то сделали около 7% (280 тыс ответов из ожидаемых 4 млн), но сегодня процесс идёт раз в 20 быстрее, чем обычно. Что очень радует.

Начинать можно даже с полностью неоднозначного корпуса по методу E.Brill ( citeseerx.ist.psu.edu/viewdoc/summary;jsessionid=4FAD01411F0CB33045D20880B2E63998?doi=10.1.1.128.9159 ). Это статья 1995 года, но можно найти и ещё по запросу «unsupervised part of speech tagging». В этом случае корпус со снятой вручную неоднозначностью нужен будет для оценки результата.

Из известных мне статей про снятие морфологической неоднозначности в тексте на русском, три использовали НКРЯ:

— Сокирко и Толодова (2004)
— Зеленков, Сегалович, Титов (2005)
— Шаров и Nivre (2011)

Похоже, что речь шла о 5 млн слов, но это не везде очевидно. Точность получалась в диапазоне 94 — 97%.

Есть ещё хабрапост, в котором использовалась доступная выборка из НКРЯ в 180 тыс. слов (её и сейчас можно скачать). Там получилась точность 92%, что ниже, чем обычно приводят в работах про POS-tagging.

Вот тут ещё есть про POS tagging текста на болгарском. Говорят о 97% при использовании корпуса около 300К слов. Там, правда, не только машинное обучение, но и правила, составленные вручную лингвистами.

Я думаю, что:

1. 180 тыс. слов и только машинное обучение, вероятно, мало
2. 300 тыс. слов для машинного обучения + правила от лингвистов, возможно, достаточно
3. есть ли существенная разница между 1 млн и 5 млн — непонятно

Мы хотим 1 млн со снятой неоднозначностью. Потом ещё раз подумаем ;)
спасибо! Он сохранился.
Да. В рамках одного предложения это неснимаемая неоднозначность. Надо нажать «Другое» и написать в комментарий об этом. Модератор видит ссылки на полный контекст и решит ;)
Да, имели ввиду именно множественное число.

Сейчас мы сосредоточились на одной цели, т.к. морфологическая разметка — это трудоёмкая и очень нужная задача. Все силы идут в эту сторону.
Спасибо, что попробовали!

До границ предложения контекст можно расширить при помощи многоточий в начале и в конце примера. Попробуйте сейчас ;)

Показать несколько предложений не можем. Бывают неоднозначные примеры (не очень часто) — нажимайте «Другое» и пишите в коммент «Неснимаемая неоднозначность» + почему Вы так думаете.

Шанса, что пример никто не возьмёт нет, т.к. те примеры, которые никто не берёт, размечают самые опытные участники, модераторы, разработчики и т.д… Потом, если однотипных непонятных примеров много, про них пишутся разделы инструкции. Так что смело нажимайте «Пропустить», если пример непонятен.
1

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург и область, Россия
Дата рождения
Зарегистрирован
Активность