Как стать автором
Обновить

Комментарии 12

Если заканчивается на "." и следующее слово с маленькой буквы — занчит сокращение.
… т. е. Владимир был не прав?
Это ещё смотря какие тексты анализировать. В комментариях и на форумах, например, очень много совершенно безграмотных людей.
Существуют статистические методики на основе анализа последовательности частей речи из которых состоит текст для определения границ предложения. Но сама цель анализа подобных безграмотных предложений достаточно сомнительна — если человек не может составить корректное предложение, то информационная ценность такого текста достаточно низка.
Значит сначала нужно попытаться исправить ошибки в этих комментариях.
Как описанный алгоритм обработает предложения заканчивающиеся на:

?!
???
!?
!!!
Как я уже писал:
Но такие правила (с небольшими изменениями) действуют не во всех информационных доменах – при изменении правил оформления документов или наборного персонала требуется вносить изменения для повышения качества выделения предложений.


Это обобщённый алгоритм, который работает на большинстве тектов, но не гарантирует корректность на всех. Тут как раз та самая ситуация со сменой наборного персонала или стиля написания текста.
Спасибо за ответ.
На практике в питоне можно так делать: в nltk есть реализация Punkt Tokenizer

The Punkt sentence tokenizer. The algorithm for this tokenizer is described in Kiss & Strunk (2006):

Kiss, Tibor and Strunk, Jan (2006): Unsupervised Multilingual Sentence
Boundary Detection. Computational Linguistics 32: 485-525.)

А вот тут: github.com/mhq/train_punkt можно взять натренированные данные для русского языка (хотя лучше, наверное, самому натренировать на корпусе).

Работает, правда, все равно хреново это все)
Приведите примеры реального применения данного алгоритма.
Мне кроме систем машинного перевода как-то на ум ничего не приходит актуального.
Отвечу спустя полгода. :) Просто сейчас копаю сеть на похожую тему и наткнулся на этот пост.

Например, это пригодится, если нужно сделать автоматический генератор тегов к постам, причём такой, чтобы тегами становились не только слова, но и словосочетания. Для такой задачи выделение предложений (точнее их частей) будет подзадачей.
Не всё так просто, как кажется.
Тут правил должно быть очень много + необходимо задействовать специальные словари.
Ваш А. С. Пушкин.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Публикации

Истории