Pull to refresh

Comments 39

Полезное начинание — «Одобрямс».
Языковые технологии надо всячески развивать и поддерживать.
Удачи автору.

Когда мне нужны будут инструменты и словари, непременно воспользуюсь ресурсом для вдохновения.

Планируете ли вы делать еще публичный API для сервисов?
Спасибо!

Каких именно сервисов? Цель ресурса — собрать сведения, о предоставлении интерфейса на «поиграться» я не задумывался. Для некоторых инструментов (тот же TreeTagger) есть описание как установить и пользоваться. Некоторые решения имеют демонстрационные странички на собственных сайтах.

Быть может, я неправильно понял сообщение?
Имелось в виду API к различным языковым сервисам, наподобие google API. Например сервис синонимов, антонимов, проверка орфографии, «реверсивные» словари, поиск слов по смыслу, поиск по действию.

Через какой-нибудь RPC-протокол по http запрашиваешь и получаешь ответ в нужном формате. Ну собственно есть DICT, но он очень примитивен и не совсем удобен. В вашем проекте собственно говоря уже есть условия для реализации этого.

Причем можно развить идею: сервисы можно при необходимости разместить локально на своей территории.
Интересная и хорошая мысль, обеспечить как «игровую площадку», так и единую точку входа для внешних сервисов. Организационно NLPub вполне соответствует данной идее, но у меня пока нет видения, как такой Linguistic API должен работать.

Однозначно, я запомню это предложение и через некоторое время подумаю ещё раз. Спасибо!
как такой Linguistic API должен работать.

Стандартный сервис через http с реализацией стандартных протоколов rpc: RPC-JSON, SOAP, просто JSON+AJAX

Пример: en.wikipedia.org/wiki/JSON-RPC

Еще добавьте раздел: полезные приемы и алгоритмы (или другое название). Суть: сборник рецептов и паттернов для задач лингвистики.

Например: когда-то придумал алгоритм, призванный находить «неправильные» слова в большой БД. Работал он так: найти все слова, состоящие из подмножества согласных, не содержащих или содержащих мало гласных. Данный алгоритм позволял находить «мусор» в базе. Хорошо бы иметь коллекцию таких оригинальных методов. На вашем ресурсе самое им там место.
Сверху всё очевидно: XML-RPC или REST+WADL. Не совсем понятно, как организовать сервисы внутри. Думаю, мне тут пока больше нечего сказать.

Рецепты и паттерны — очень круто. Есть желание присоединиться?
Возможно. Надо обдумать. Спасибо за предложение.

Не совсем понятно, как организовать сервисы внутри.

Ну как организовывать? Кодить и ставить ))
ого, я бы таким пользовался даже за деньги
Спасибо за поддержку. Это легко реализовать на мой взгляд.
Я часто об этом думал в своё время, но у меня никак не складывалась более-менее внятная модель монетизации.

В принципе, подобные штуки довольно легко подбиваются на гранты того же РФФИ (как это сделали коллеги с machinelearning.ru), но схему прямых продаж я здесь в упор не замечаю. Если доведётся и решусь — можно зафигачить заявку.
Это проще можно монетизировать. Доступ для ознакомления и с небольшим трафиком бесплатный + сокрость поменьше. Для тех, кто готов идти дальше: покупает пакетный доступ. Так-же для поддержки и развития кнопки донаций: paypal, webmoney, mobile phone

Для тех кто не хочет платить или не может — тоже нельзя обижать. Отдаются запросы с рекламой + привлекаются рекламодатели. Главное открытость.

А гранты интересно, но долго ждать и распилят все, обдурят. Рано или поздно лед тронется. Ведь это полезное и нужное дело. Технологии развиваются, лингвистика запаздывает. Скоро кроме роботов, вокруг никого не будет. Все будут за компами сидеть. Говорить и читать так можно и разучиться. Нельзя этого допускать.
Прочитал. Идея ясно. Еще почитаю потом пару раз. Не сразу воспринимается — скажу откровенно. С этим понятна картина. Надо делать удобные сервисы и монетизировать для больших объемов. Пока эта вики является отличным началом. Нужно кончено постоянная поддержка проекта. Об этом говорилось выше. Пока достаточно вам разместить несколько кнопок для сбора донаций. Так все проекты живут открытые.
Момент про донат я изначально уточнил в анонсе и даже дал номер Яндекс.Денег, хотя очень не хотел этого делать. Это просто дань традициям, поскольку для меня ценность заключается именно в планируемом сообществе вокруг NLPub. Мне кажется, что я зарабатываю достаточно, чтобы немного заниматься благотворительностью.

Дополнительные средства могут понадобиться на какие-либо инициативы в рамках проекта — делать тестовый полигон, проводить мероприятия IRL или заниматься издательской деятельностью. Но это вопрос не сегодняшнего дня, а повестка дня завтрашнего.
Момент про донат я изначально уточнил в анонсе

Пропустил, не заметил.

делать тестовый полигон, проводить мероприятия IRL или заниматься

Да в общем. Важно, чтобы сформировалось сообщество. Но на сервисы потребуются ресурсы. Проведение мероприятий тоже полезно и вообще развития лингвистики как токовой. Сам факт уже радует. Главное чтобы все было открыто и могло расширятся и дополняться.

Издательская деятельность тоже очень интересно.

Сейчас основной акцент я делаю именно на построение более-менее внятного описания того, что сейчас можно взять и использовать. Чтобы студенты не тратили месяцы на беготню по Интернету, как это время тратил я. Чтобы бизнес сразу мог понять: стоит брать FLOSS-решение или обратиться к коммерческому поставщику. Когда каталог окажется более-менее заполненным и описанным, я бы посмотрел в сторону привлечения исследователей и информационной поддержки соответствующих конференций.

Это пока лишь моё видение и представление. Реальность расставит всё по местам, и какие-то инициативы от самого NLPub мне кажутся достаточно далёкой перспективой, до которой сначала нужно дожить, пройдя «долину смерти».
UFO just landed and posted this here
Круто, добавлю.

Вот уже сейчас начинает вырисовываться ситуация, что куча полезных и замечательных решений (FreeLing, Link Grammar Parser, AGFL, etc) лицензируется под GPL, которая накладывает заметные ограничения в распространении ПО. Получается, что как стартапы, так и сложившиеся бизнесы оказываются вынуждены изобретать велосипеды не от неспособности посмотреть по сторонам, а из-за лицензионных ограничений у существующих продуктов.
Link Grammar Parser

под LGPL => можно использовать как библиотеку в комм. проектах
В OpenCorpora.org словари тоже есть ( opencorpora.org/dict.php ) — но количество лемм с aot.ru сравнивать там некорректно, т.к. у OpenCorpora леммы более «гранулированные» + доступна информация о связях между леммами. У aot.ru связанные (по терминологии OpenCorpora) леммы просто объединены в одну. Лучше imho количество словоформ писать.

Еще пилю github.com/kmike/pymorphy2 потихоньку — там основа готова (подготовка словарей из OpenCorpora, разбор слов по словарю, предсказатель, работа с Cython-расширениями и без них — все со скоростью порядка 100тыс слов/сек и потреблением памяти порядка 15Мб) — нужно подописывать еще документацию, выложить скомпиленные словари и релиз сделать, но, мне кажется, в список тоже добавлять можно.
Согласен, вечером исправлю на количество словоформ, добавлю словари OpenCorpora и hunspell и ударения АОТ. Я бы вообще предложил создать отдельную страницу про pymorphy (аналогичную странице про mystem) и рассказать обо всём этом.

Кстати, ты всё ещё в Екатеринбурге? Дело в том, что моё изучение NLP началось с ковыряния исходников pymorphy с попытками реализовать данную функциональность на Ruby. Всякие АОТ и прочие решения я нашёл уже позже. Так что я бы вообще предложил встретиться и пива попить :)
Можно как-нить (я правда по пиву не очень), ну это в личку уже)
Всё добавил, сделал для pymorphy сноску. Есть есть возможность и желание, то я бы предложил продублировать документацию по адресу http://nlpub.ru/wiki/Pymorphy. Хотя бы краткую.
solarix.ru

сам не пользовался, но на вид лингвистический движок весьма хорош.
Я тоже не щупал Solarix, но слышал немало положительных отзывов. Кстати, они перечислены на NLPub в разделе «Инструменты».
В любом случае буду следить за вашим проектом. Благодарное это дело, да и лицензия подкупает.
Спасибо! А ещё лучше — участвовать, редактировать и повышать интерес людей к этой области! :)
Я пользовался в своей программе. Движок мощный и очень быстрый. Распространяется как в скомпилированном виде, так и в исходных кодах (значительно дороже). Выбрал из-за достаточно подробной документации и наличия большого количества примеров. Да и автор постоянно был на связи и помогал с решением возникавших затруднений.
Так как упоминается словарь синонимов Абрамова, обратите внимание и на эту внушительную разработку:

www.trishin.ru/left/dictionary/

Кажется, на сегодняшний день это самый объёмный словарь синонимов.

Из тезаурусов также хорошо бы упомянуть и полную акцентуированную парадигму Зализняка (см. www.speakrus.ru/dict/).

Насчёт www.speakrus.ru/dict/ долго думал: включать ли все материалы оттуда в NLPub или нет. Наверное, пока сделаю ссылочку на полную акцентуированную парадигму Зализняка.

За словарь Тришина — спасибо!
И если упоминать софт от Информатик, тогда обязательно нужно и разработки от ABBYY описать. Сегодня Lingvo, например, — это лучший агрегатор словарей с возможностями гибкого полнотекстового поиска (а значит — он может работать как корпус), под него оцифровано огромное количество бумажных и сетевых словарей и языковых справочников.
Всему своё время. Сейчас в списке есть ABBYY Compreno, до Lingvo пока руки не дошли и из ABBYY ко мне никто не обращался. Добавлю днём.
Sign up to leave a comment.

Articles