fedor_malyshkin 1 янв 2011 в 14:11

Графематический модуль. Выделение предложений

2 мин

5.3K

Выделение предложений из сплошного текста – процедура необходимая для дальнейшего анализа текста в любой системе анализа естественных языков.

Что такое предложение?

Первый ответ на этот вопрос – это что-то, заканчивающееся на символы «.», «!», или «?». Но если рассмотреть встречающиеся тексты более внимательно, то можно обнаружить, что «.» используется не только для определения конца предложения, но и для аббревиатур и сокращений, а иногда выполняет обе эти роли. Вне зависимости от этого точка в 90% случаев является индикатором конца предложения (Riley 1989).

Но есть исключения знать о которых необходимо: иногда другие знаки пунктуации используются для выделения фрагментов, которые мы могли бы идентифицировать как предложения. Иногда эти фрагменты выделяются с одной стороны (а иногда с обеих сторон) такими знаками как «:», «;» и «-», как например в этом простом примере:
«Сцена была написана быстро и качественно: автор находился в хорошем расположении духа, находясь в Венеции»
Другая проблема, связанная с практикой набора текстов во многих организациях, заключается в помещении закрывающих знаков кавычек после знака точки – т.е. кавычки должны быть включены в состав предложения.
На основе этой информации многие системы разрабатывают свои алгоритмы выделения предложений, но большинство похожи на такой:

Поместить признак окончания предложения после всех вхождений «.», «!» и «?» (а может и после «:», «;» и «-»)
Передвинуть признак окончания предложения после закрывающей кавычки, если таковая существует.
Убрать признак окончания предложения в следующих случаях:
1. Если предыдущее слово – известное сокращение, использование которого не предполагается в конце предложения, например «проф.», «ул.», «д.»
2. Если предыдущее слово – известное сокращение, но за которым не следует слово с заглавной буквы, например: «т.д.», «мл.».
Убрать признак окончания предложения после «?» и «!» в случаяе, если за ними следуют слова без заглавной буквы.

Но такие правила (с небольшими изменениями) действуют не во всех информационных доменах – при изменении правил оформления документов или наборного персонала требуется вносить изменения для повышения качества выделения предложений.

Существуют разработки связанные с использованием статистических данных для вычисления предложений. Riley использовал статистическое дерево классификации для определения границ предложения. Для этого он использовал параметры длин и регистра слов, предшествующих окончанию предложения (хотя для создания этого дерева потребовался довольно большой объём размеченных данных). Хотя есть и другие наработки, с которыми можно познакомиться в Интернете, основанные на нейро-сетях и расчёте энтропии, которые дают точность определения границ предложения 98-99% и 99,25% соответственно.

Литература:

Riley, Michael D. 1989. «Some applications of tree-based modeling to speech and language indexing». In Proceedings of the DARPA Speech and Natural Language Workshop, pp. 339-352. Morgan Kaufmann

Теги:

Хабы:

Data Mining

Графематический модуль. Выделение предложений

Что такое предложение?

Литература:

Публикации

Истории

Работа

Ближайшие события