Pull to refresh

Comments 116

Респект таким парням, даже с недоступным корпусом русского языка они не забывают о лингвистике, у них есть цель в жизни, они не опустили руки, а вы сидите за компьютерами и бессмысленно проводите свою жизнь…
а вы сидите за компьютерами и бессмысленно проводите свою жизнь…

Вы так говорите, как будто это что-то плохое.
Пацаны, дух старой школы живёт только в OpenCorpora, где пацаны живут морфологией, угорают по метатекстам. Только прикладная лингвистика, только хардкор!
Не так, вот так дословно: — «Ты так говоришь, как будто это плохо!»
Замечательный проект, обязательно буду участвовать и распространять информацию.
UFO just landed and posted this here
UFO just landed and posted this here
Как я понимаю, товарищи не собираются ограничиваться одним корпусом.
Я в частности крайне жду параллельных многоязычных корпусов.
Да, имели ввиду именно множественное число.

Сейчас мы сосредоточились на одной цели, т.к. морфологическая разметка — это трудоёмкая и очень нужная задача. Все силы идут в эту сторону.
С НКРЯ можно попробовать расправиться через краулинг ответов с высокочастотными словами.
Правда после тысячного запроса, клиент банится по IP.
До какого-то момента я с ними возился. Но потом это все надоело.

+ У них есть серьезная проблема с интерфейсом. Иногда оно зависает и пытается выдать много одинаковых ответов на одну и ту же страничку. Много — в смысле, очень очень много. При попытке воспоизвести это в браузере привело к его падению. Хорошо, что такое поведение не регулярно.
А нельзя им написать «вы не охренели там?» и попросить открыть данные для скачивания?
Ну там в принципе на почту не отвечают.
Да ладно, писать краулер самому и парсить все это через html5lib было интересно.
Ну, парсер-то вы напишите, но техническая сторона тут не главный камень преткновения. Вы понимаете, что публиковать под открытой лицензией чужие закрытые данные полученные без согласия владельца — это совершенно другой вопрос, чем «насколько технологически сложно для этого написать парсер?»
В исследовательских целях — можно. Мне более и не надо было.
Результатом стало вот это:
www.slideshare.net/w-495/dsmts-diploma

В конце концов, я же никого не хакнул, а просто автоматизировал получение доступной информации.
На тему лицензий, если уж совсем серьезно, то про них ничего вообще не сказано.
А потом, какой закон, и какую конкретно статью нарушит некто, решивший таки такое опубликовать в каких-то своих никому неведомых целях?

Думаю, тут скорее действует профессиональная этика что-ли.
При общении с некоторыми людьми из коллектива НКРЯ скорее просится выражение «профессиональная жадность».

Это как человек (реально существующий), который уже лет 20, если не больше, делает какой-то семантический суперсловарь, рассказывает о нём на конференциях и всё надеется найти на него покупателя. А человеку уже за 60.
Хоть бы цену кто-то озвучил. Думаю, найдутся те, кто готов был бы это купить.
Ну или какую-то часть словаря.
Там нельзя открыть по юридическим причинам: во-первых, исходные тексты под копирайтом (естественно), во-вторых, разметка, которую исправляло несколько сотен человек, тоже охраняется законом, а получить постфактум разрешение у каждого из этих сотен нереально.
Там большая проблема это права на сами тексты, а не на их разметку.
В веб-выдаче они все равно с нарушенным порядком предложений, и сами произведения перемешаны. Автоматизировать разрешенные действия — сомневаюсь, что в этом есть что-то противозаконное. Блокировка по ip они делают все скорее для защиты от чрезмерных нагрузок.
Попробовал помочь. Не хватает кнопки увеличения количества слов в примере, когда неясен контекст. Такие примеры, конечно, можно пропускать, но есть шанс, что их так никто и не «возьмёт».
Спасибо, что попробовали!

До границ предложения контекст можно расширить при помощи многоточий в начале и в конце примера. Попробуйте сейчас ;)

Показать несколько предложений не можем. Бывают неоднозначные примеры (не очень часто) — нажимайте «Другое» и пишите в коммент «Неснимаемая неоднозначность» + почему Вы так думаете.

Шанса, что пример никто не возьмёт нет, т.к. те примеры, которые никто не берёт, размечают самые опытные участники, модераторы, разработчики и т.д… Потом, если однотипных непонятных примеров много, про них пишутся разделы инструкции. Так что смело нажимайте «Пропустить», если пример непонятен.
Спасибо. В комменте ниже уже сказали про троеточие. Действительно, в IE есть. Похоже, адблокер в лисе развлекается :)
Странно, у меня Firefox 13 с последним Адблоком и всё видно.
У меня кастомные фильтры ещё есть. Один, написанный моими кривыми ручками, мешался :)
Вот у меня был такой странный пример только что. Нужно было определить число — единственное или множественное.
«игры воображения, игры таланта, игры ума.» Если бы это была часть предложения (либо «и нет у него игры воображения, игры таланта, игры ума» либо «именно у таких людей чаще всего встречаются игры воображения, игры ума, игры таланта») было бы просто, но когда я понял, что это предложение целиком — я встал в ступор. Что хотел сказать этим предложением высказывающийся? Имху — самое правильное — это в данном случае смотреть контекст по соседним фразам, одним предложением не ограничиться.
Да. В рамках одного предложения это неснимаемая неоднозначность. Надо нажать «Другое» и написать в комментарий об этом. Модератор видит ссылки на полный контекст и решит ;)
Я комментарий сделал, но вместо «другое» выбрал «пропустить». Свой комментарий я не могу увидеть, но надеюсь, сохранилось при этом.
У меня есть — нужно нажать на 3 точки в сером прямоугольнике слева или справа.
Группу «habrahabr» создал, пока до топ 11 дотянул — велкам.
Присоединился вторым, через полчаса нас уже восемь.
Не хватает ачивок.
А в остальном, это по сути один из немногих способов сделать что-то действительно полезное в жизни для многих офисных работников.
Достаточно часто стало появляться javascript'овое окошко «Что-то пошло не так. Попробуйте перезагрузить страницу» — уже раз пять появлялось. Правда, после перезагрузки всё дальше работает.
Win7, Firefox 16.0.1

Куда вообще багрепорты писать?
Лучше б сказали, где эта ссылка там в интерфейсе ;)
UPD: кажись, на странице FAQ есть
Ubuntu 12.04 LTS, Gnome 2, Chromium 20.0.1132.47 — аналогично.
Думаю, это просто таймауты. Хабраэффект.
Надеюсь, выдаваемые разным людям задания накладываются друг на друга? Для точности было бы хорошо, чтобы для каждого спорного случая было несколько вариантов разметки от разных людей, с очевидным выбором наиболее вероятного.
Да, каждый пример выдаётся трём разным людям.

Правда, случается, что ошибаются все трое, и мы думаем, помимо людей, использовать обученного робота, который мог бы находить такие аномалии статистически.
Когда был в Питере, забыл попросить. Постер пришлите, распечатаю на А4-А3 в институте развешу.
Да. Хорошая идея. Спасибо.
Тогда можно и мне, я в Перми повешу.
Ежик птица гордая… Так что я полез сразу в самые сложные задания винительный\родительный) и подзавис… Но потом открыл правило и все стало просто: для того, чтобы отличить винительный падеж от родительного подставляем вместо одушевленного слова, которое в обоих падежах отвечает на вопрос «кого?», неодушевленное, отвечающее на «чего?» (родительный) и «что?» (винительный) и жить становится проще.

Пример (не думать над смыслом, только над морфологией!):
«Главная причина слепоты у лиц среднего и пожилого возраста»
После замены:
«Главная причина слепоты у столов среднего и пожилого возраста»
столы:
кого? — столов
что? столы

Значит имеет родительный падеж, которого, кстати, большинство.

Успехов.
Да, так и есть, спасибо за коммент. У нас пока не дошли руки написать про это инструкцию, но со временем напишем про все виды заданий.
После логина через google и обновления страницы

Ошибка 310 (net::ERR_TOO_MANY_REDIRECTS): Обнаружено слишком много переадресаций.
И добавьте ачивментов, пожалуйста :) Это же мотивация дополнительная.
Да, ачивменты в разработке. Одна из проблем — у нас некому нарисовать красивые бейджики :) Если в топике есть доктор дизайнер, мы бы с радостью приняли его помощь.
Ошибку 310 не могу воспроизвести. В какой момент нужно обновить страницу?
Про винительный\родительный.
Странно, что не распознаются легко алгоритмизируемые моменты, например «среди » — X — родительный падеж.
Если, известны к каким частям речи принадлежат остальные слова, то еще можно "<числительное> X", X — родительный падеж. Это из того, что первое пришло в голову по хожу разметки.
Они сравнительно легко алгоритмизуются, но если точность не 100% (а 100% она не будет), то потом всё равно нужно проверять руками.
Понятно, что проверять руками, но может быть сделать «предполагаемый вариант» в подобных случаях и выделять его каким-нибудь зелененьким?

Как часто происходят проверки размеченного?
У нас есть в отдалённых планах провести на это эксперимент, но коллеги-психолингвисты, которые делали похожие вещи, говорят, что это увеличивает процент ошибок.

Проверка происходит постоянно, но довольно медленно, к сожалению. Мы сейчас исследуем, какой процент ошибок получаем, если доверяем всем примерам, где все три человека согласились. Если окажется, что таких ошибок, условно, одна на миллион, мы сможем увеличить скорость проверки в несколько раз (зависит от типа заданий).
Капец какая занудная регистрация у вас… opencorpora.org/login.php?act=register

Сделайте, блин, проверку ДО нажатия кнопки «зарегистрироваться»

Ну и прямо на страничке подскажите какие у вас где допустимые символы…

Я много где регистрировался и я в какой то степени чайник… У вас только с 5 раза…
Да, подсказку сделаем, спасибо.

Если хочется иметь какие-то спецсимволы в имени пользователя, то можно поставить в настройках имя, которое будет показываться в статистике, оно не обязано совпадать с логином.
Вам нужно завербовать школьников, чтобы они делали это вместо домашки по русскому )
Если сделать это обязательным — результаты будут не очень. Уже был опыт со студентами :-)
Скажите, а были ли какие-нибудь попытки посмотреть, как будет меняться качество, если увеличить число студентов на каждый пример? Ведь увеличение числа аннотаторов, как кажется, должно бы повысить точность разметки, не будут же они совсем случайно отвечать.
Пока не было.

Тут примерно такая дилемма: увеличивая число аннотаторов, мы получаем в среднем больше случаев, когда их ответы не совпадают и должны быть просмотрены модератором => растёт нагрузка на модератора. Выигрыш мы получаем только в том случае, если все (допустим) трое предыдущих отвечавших ответили неверно, а четвёртый ответил верно.
UFO just landed and posted this here
Без большого корпуса заниматься NLP грустно.
А с какого объёма можно уже тренировать снятие морфологической неоднозначности?
Ведь с какого-то момента можно было бы обучаться на том, что уже размечено, или по крайней мере ускорить процесс дальнейшей разметки хотя бы за счёт снятия частеречной омонимии (как понял из вашей диаграммы, она ещё не вполне снята)
Мы сейчас где-то сделали около 7% (280 тыс ответов из ожидаемых 4 млн), но сегодня процесс идёт раз в 20 быстрее, чем обычно. Что очень радует.

Начинать можно даже с полностью неоднозначного корпуса по методу E.Brill ( citeseerx.ist.psu.edu/viewdoc/summary;jsessionid=4FAD01411F0CB33045D20880B2E63998?doi=10.1.1.128.9159 ). Это статья 1995 года, но можно найти и ещё по запросу «unsupervised part of speech tagging». В этом случае корпус со снятой вручную неоднозначностью нужен будет для оценки результата.

Из известных мне статей про снятие морфологической неоднозначности в тексте на русском, три использовали НКРЯ:

— Сокирко и Толодова (2004)
— Зеленков, Сегалович, Титов (2005)
— Шаров и Nivre (2011)

Похоже, что речь шла о 5 млн слов, но это не везде очевидно. Точность получалась в диапазоне 94 — 97%.

Есть ещё хабрапост, в котором использовалась доступная выборка из НКРЯ в 180 тыс. слов (её и сейчас можно скачать). Там получилась точность 92%, что ниже, чем обычно приводят в работах про POS-tagging.

Вот тут ещё есть про POS tagging текста на болгарском. Говорят о 97% при использовании корпуса около 300К слов. Там, правда, не только машинное обучение, но и правила, составленные вручную лингвистами.

Я думаю, что:

1. 180 тыс. слов и только машинное обучение, вероятно, мало
2. 300 тыс. слов для машинного обучения + правила от лингвистов, возможно, достаточно
3. есть ли существенная разница между 1 млн и 5 млн — непонятно

Мы хотим 1 млн со снятой неоднозначностью. Потом ещё раз подумаем ;)
Unsupervised POS-тэггер — интересно, надо попробовать. Для оценки-то и 180 тыс. из НКРЯ хватит :)
Боюсь, правда, что английский POS очень сильно отличается от русского, и там придётся половину переделывать.
Но всё равно спасибо за наводку!
Попробовать можно, Стэнфордский парсер отлично обучается, а уж в английском частеречная омонимия намного богаче, чем в русском.
Я скорее о том, что в английском достаточно жесткий порядок слов и слабая морфология, а в русском наоборот. Кроме того, в английском омонимия полная, а у нас часто бывает омонимия по форме, т.е. нужно выбрать не часть речи как таковую, а правильную комбинацию «слово+форма» (были = прошедшее от «быть» или множественное от «быль»? Сочи = город или повелительное наклонение от «сочить»?). В общем, на мой взгляд, задачи разные.
Согласен. К тому же, из-за флективности русского языка количество n-грамм растёт в разы (пытались обучать Moses, дообучали до пяти с чем-то гигабайт).

Через пару неделю попробую Стэнфордский парсер обучить, самому интересно.
Расскажите потом о результатах!
Про ускорить за счёт подключения машины: думаем подключатать машину на этапе модерации, т.е. представлять её как ещё одного аннотатора. Но разработчика, который бы взялся за реализацию этой затеи, у нас пока нет. От человека потребуется большая самостоятельность.
Нужны какие-нибудь баллы, соревновательность, так было бы интереснее.

Да даже банальный счётчик, сколько % сделал из задания — уже лучше, чем сейчас. Сейчас через некоторое время надоедает и скучно.
Да, как уже написано выше, геймификация в процессе, не хватает дизайнера. Банальный счётчик почти сделали, может быть, на днях будет.
хехе… Сделайте капчу на основе вашего сервиса — наподобие того, как google re-captcha оцифровывает книжки =) Шучу.

Ну а так — да, какую-то игровую механику нужно внедрить, ибо просто так этим заниматься быстро надоест.
Почему шутишь? Капчу и надо. На «Грамоте» или на «Вики» была бы очень в тему именно такая.
off: С днём рождения!

on: А как всё-таки обычному тупому лингвисту пользоваться открытым корпусом? Вы не предполагаете веб-мордочку для поиска, например? Вот мне хочется найти какую-нибудь статистическую информацию. И что? Срочно выходить замуж за программиста, который осилит разобраться? :-)
upd: понятно, что есть поиск по НКРЯ, но у вас же с ним очень разные тексты. И ещё хотелось бы какую-то инфу по составу корпуса, какие жанры в каком процентном соотношении представлены, и всё такое.
Какую, например, статистическую информацию?

Про жанры есть на странице «Статистика» внизу. Или имеется в виду что-то другое?
Жанры — в принципе, да, но у вас странно как-то получилось: в одном ряду «ЧасКор» и «художественная литература». Может, объединить источники в жанровые группы?
Спасибо!

Про поиск:

1. для большинства лингвистических задач (т.е. для поиска примеров употребления чего-нибудь) НКРЯ лучше, т.к. он больше.

2. если собрать корпус из Часкора и Википедии/Викиновостей/Викитеки, а потом разметить его автоматически, то это будет куда более осмысленно, т.к. это будет современный язык + не очень маленький объём.

3. в Открытом корпусе поиск нужнее всего модераторам, т.к. им нужно искать по нашим граммемам.

Итого, есть две задачи:

— научиться генерировать корпус из MediaWiki dump и HTML Часкора
— поднять <a href=«cwb.sourceforge.net/>CWB на этом корпусе

Тут нужны добровольцы, которые хотят заниматься этим в свободное от работы время.
А кстати, насколько хороша получилась автоматическая разметка?
Напои меня чаем, напишу что-нибудь =)
Про первой ссылке (http://opencorpora.org/tasks.php?act=annot&pool_id=571) падежи прилагательных спрашиваются, что меня как-то с толку сбивает. Там нет возможности у вас в таких случаях падеж определяемого ими существительного использовать?
Это бы прекрасно работало, если бы определяемое существительное стояло сразу после определяемого им прилагательного или если бы у нас был синтаксический анализатор со 100% точностью (а если меньше 100%, то всё равно вручную проверять).
Я что-то пропустил — в разметке корпуса не предполагается связи прилагательных и существительных определять и хранить?
Предполагается, но пока этого нет, поскольку это уже синтаксис, а мы пока занимаемся морфологией.

Теоретически — да, можно было бы вместо того, чтобы просить людей определять падеж прилагательного, просить их связывать прилагательное с существительным. Наверное, когда-нибудь сделаем и так.
Мож, стоит тогда перенаправить усилия людей на более полезные задания, скрыв такие вот, которые автоматом будут решены при других неизбежных работах? Чтоб не распылять… ведь автоопределению синтаксических связей эта работа не сильно поможет, вроде… то есть, всё равно же ту задачу решать, а после неё эта задача будет решена автоматом?
Тут есть, как мне кажется, два аргумента.

1. Эти «неизбежные работы» могут занять неопределённое время. Мы больше двух лет потратили только на адаптацию словаря и выработку разных решений по морфологии.
2. Большинству потенциальных потребителей наших данных даже корпус без связей, а только со снятой морфологической омонимией уже будет очень полезен.
И «хочу ещё примеров» воспринимается так, как будто я подсказки прошу. «пример» и «задачка» всё же разные слова, «Пример» в смысле задания я только в младшей школе встречал, и то с трудом понимал, почему там задачи примерами называют.
А как лучше написать? «Хочу ещё заданий»?
Не можем обещать, но обсудим :-)
Мне вот тоже всё время хочется там увидеть «Ещё!» :-)
Было бы здорово опубликовать подборку самых крутых / зрелищных/ занятных неоднозначностей, типа этих семи глаз.

Интересно, у каких слов вашего корпуса сейчас рекордное количество вариантов толкования?
Спасибо за идею ;)

Кол-во вариантов толкования можно посчитать по дампу (см. пример ниже, ссылки на дамп в начале opencorpora.org/?page=downloads ). Варианты толкования — это теги v. В данном примере их три.

<token id="3" text="злословия">
  <tfr t="злословия">
    <v>
      <l id="115766" t="злословие">
        <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="sing"/><g v="gent"/>
      </l>
    </v>
    <v>
      <l id="115766" t="злословие">
        <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="plur"/><g v="nomn"/>
      </l>
    </v>
    <v>
      <l id="115766" t="злословие">
        <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="plur"/><g v="accs"/>
      </l>
    </v>
  </tfr>
</token>

Была бы интересна возможность посмотреть свои ошибки.
Я вижу 5.9% ошибок в статистике. Любопытство теперь не даёт покоя, в чем был не прав.
Об этой возможности мы думаем и тоже её хотим. Однажды сделаем и напишем об этом.

5.9%, в данном случае, это не ошибки, а процент расхождений с двумя другими участниками. Теоретически, у Вас вообще может не быть ошибок. По мере модерации появится и кол-во ошибок.
Виктор, Дмитрий, поздравляю!

Кстати, вечером добавил отдельную статью OpenCorpora на NLPub. Если есть неточности — прошу вас, исправьте :)
А в прокуратуру можно написать, чтобы в открытый доступ выложили то, что по идее нам и принадлежит — ведь куда ни плюнь — госконтора или госгрант: ruscorpora.ru/corpora-about.html

Хотя… там яндекс есть — вот кто во всем виноват :)

Я бы сосредоточился на выведении в общую собственность того, за что итак уже наши налоги были заплачены. Хотя это можно параллельно делать. Есть же на хабре юристы? Подскажите, как это организовать и насколько это реально?
Спасибо. Не надо в прокуратуру. Там всё сложнее, чем кажется на первый взгляд.
Про капчу уже писали. Я бы предложил шире — посылать нахер на сервис всех граммар-наци. Иной раз от умников аж в глазах рябит. А так, будь добр не в комментариях гадить, а пойти и доказать делом. Не хочешь делом, а хочешь исходить на говно и ссылаться на tsya.ru — только чтение или бан. Нужны плагины к форумным движкам :)
У нас в течение нескольких месяцев, предположительно, появится API, тогда все желающие смогут сделать плагин хоть для чего.
Делаете очень полезное/нужное дело, и отличная короталка времени во время ожидания.
Еще б не плохо было закачать сколько то примеров, ответить на них офлайн, а потом синхронизироваться.
Вот это было бы просто замечательно. Какая страшная куча времени уходит на пасьянс в телефоне, когда интернета нет!.. :-)
А что по этому поводу думает компания ABBYY? Они же вроде именно этим и занимаются. У них разве нет никаких корпусов текста? Они делиться совсем не хотят, даже получив государственный грант в Сколково?
UFO just landed and posted this here
Кончились задания на единственное/множественное число.
Верните! Дайте возможность даже самым безграмотным причаститься тела филологии!
Первые два комплекта этих заданий кончились. Потом когда-нибудь будут ещё.
А может на вашем движке оставите раздел загадок? Для тех, кто хочет не столько помочь, сколько поразвлекаться таким образом, и желает не мешать в сложных серьёзных вопросах, где не уверен в себе?

С учётом того, что отгадки известны — можно сразу и рейтинг игрока считать…
Вернули ещё немного простых заданий.
Она схватила ему за руку и неоднократно спросила: где ты девал деньги?
UFO just landed and posted this here
UFO just landed and posted this here
Sign up to leave a comment.

Articles