Как стать автором
Обновить

Графематический модуль. Выделение предложений

Время на прочтение 2 мин
Количество просмотров 5.3K
Выделение предложений из сплошного текста – процедура необходимая для дальнейшего анализа текста в любой системе анализа естественных языков.

Что такое предложение?


Первый ответ на этот вопрос – это что-то, заканчивающееся на символы «.», «!», или «?». Но если рассмотреть встречающиеся тексты более внимательно, то можно обнаружить, что «.» используется не только для определения конца предложения, но и для аббревиатур и сокращений, а иногда выполняет обе эти роли. Вне зависимости от этого точка в 90% случаев является индикатором конца предложения (Riley 1989).


Но есть исключения знать о которых необходимо: иногда другие знаки пунктуации используются для выделения фрагментов, которые мы могли бы идентифицировать как предложения. Иногда эти фрагменты выделяются с одной стороны (а иногда с обеих сторон) такими знаками как «:», «;» и «-», как например в этом простом примере:
«Сцена была написана быстро и качественно: автор находился в хорошем расположении духа, находясь в Венеции»
Другая проблема, связанная с практикой набора текстов во многих организациях, заключается в помещении закрывающих знаков кавычек после знака точки – т.е. кавычки должны быть включены в состав предложения.
На основе этой информации многие системы разрабатывают свои алгоритмы выделения предложений, но большинство похожи на такой:

  1. Поместить признак окончания предложения после всех вхождений «.», «!» и «?» (а может и после «:», «;» и «-»)
  2. Передвинуть признак окончания предложения после закрывающей кавычки, если таковая существует.
  3. Убрать признак окончания предложения в следующих случаях:
    1. Если предыдущее слово – известное сокращение, использование которого не предполагается в конце предложения, например «проф.», «ул.», «д.»
    2. Если предыдущее слово – известное сокращение, но за которым не следует слово с заглавной буквы, например: «т.д.», «мл.».

  4. Убрать признак окончания предложения после «?» и «!» в случаяе, если за ними следуют слова без заглавной буквы.

Но такие правила (с небольшими изменениями) действуют не во всех информационных доменах – при изменении правил оформления документов или наборного персонала требуется вносить изменения для повышения качества выделения предложений.

Существуют разработки связанные с использованием статистических данных для вычисления предложений. Riley использовал статистическое дерево классификации для определения границ предложения. Для этого он использовал параметры длин и регистра слов, предшествующих окончанию предложения (хотя для создания этого дерева потребовался довольно большой объём размеченных данных). Хотя есть и другие наработки, с которыми можно познакомиться в Интернете, основанные на нейро-сетях и расчёте энтропии, которые дают точность определения границ предложения 98-99% и 99,25% соответственно.

Литература:


  • Riley, Michael D. 1989. «Some applications of tree-based modeling to speech and language indexing». In Proceedings of the DARPA Speech and Natural Language Workshop, pp. 339-352. Morgan Kaufmann
Теги:
Хабы:
+13
Комментарии 12
Комментарии Комментарии 12

Публикации

Истории

Работа

Data Scientist
58 вакансий

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн