Pull to refresh
0
Content AI
Решения для интеллектуальной обработки информации

Дореформенный словарь: рецепт

Reading time 4 min
Views 8.8K
Как, наверное, многим хабрапользователям известно, сегодня, 24 мая, отмечают день славянской письменности — праздник тех, для кого слово ОРЕХ означает всё же не «operational expense». Сегодня я расскажу, как можно из современного русского морфологического словаря изготовить словарь русского языка с дореформенной орфографией. Обо всём по порядку.



Как многие из нас знают, революция 1917 года отменила в России не только обязательства по долгам, но и некоторые буквы из русского алфавита. Но дореформенные правила забытыми не остались, текстов, опубликованных до реформы, тоже сохранилось изрядно (даже в моей скромной домашней библиотеке найдётся пара томов), да и вообще тема создания морфологического словаря для той, винтажной, грамматики сама по себе интересна. Реформа состояла в том, что из обращения убрали некоторые буквы (і,ѣ, ѵ и ѳ), а также изменили некоторые правила, прямого отношения к употреблению этих букв не имеющих. Подробнее в википедии.

Сегодня мы поговорим о том, как из морфологического словаря нашего обычного современного русского языка породить морфологический словарь для языка дореформенного.


Что же такое морфологический словарь или словарь с поддержкой морфологии? Я этим термином называю не тот словарь, который просто содержит все возможные словоформы каждого слова, а тот, который знает как по каждому слову эти словоформы порождать. Что, разумеется, не только приводит к экономии места, но и даёт надежду, что мы не забыли вместе со словом "ищущий" добавить и слово "ищущей" (род.п. ср. род). За способ порождения словоформ слова отвечает грамматическая категория слова, каждое слово ссылается на некую грамматическую категорию.
Кроме того, чтобы не было комбинаторных взрывов от таких слов как серо-буро-малиновый, в словарь добавляются так называемые композитные правила. Они нужны для того, чтобы порождать подобные конструкции. Каждое композитное правило ответственно за порождение слов по каким-то законам. У композита может быть явная точка членения (как дефис в приведённом примере), так и неявная, когда части композита просто пристыковывается друг к другу. К примеру, частным случаем композитного правила может быть способ образования глаголов с приставкой "пере": переписать, переделать, передвинуть, перепеть… Для русского языка композиты без явной точки членения могут показаться и ненужными, но те, кто знают немецкий язык, вероятно, согласятся, что они необходимы.

Итак, мы из русского словаря с морфологией делаем словарь для дореформенного русского. Будем смотреть на отличия и вносить их постепенно в новый словарь. Итак, для начала рассмотрим наиболее простые моменты:

Реформа отменила ъ на конце слов, оканчивающихся на согласный (кроме Й). Никаких проблем вернуть его на место нет

Буквы ѵ и ѳ к моменту реформы доживали последние дни, список слов, их содержащих, весьма невелик. Довольно легко восстанавливается.

Буква і употреблялась в слове мір (тот, что вселенная, а не антоним к войне), а также в обычных словах перед гласными и й, кроме тех, что были образованы по композитным правилам (химія, но семиязычный). В словаре основ и грамматических категорий не составляет большого труда это исправить: поиск с заменой в виде регулярного выражения — несложная манипуляция.

Правила с с/з в конце приставок из-, воз-, раз-, роз-, низ (изслѣдованіе, разсказъ) также вносится несложно, как и отмена модификации приставок без-, через-, чрез (безполезный, черезстрочный).

Заметим, что в случае если наш современный русский словарь всё-таки обходился без композитных правил, то эти изменения, как и сохранения -и- в композитах на конце первой части придётся обеспечить вручную.

Далее, поработаем с окончаниями. Прилагательные во множественном числа получают в дополнение к -ые окончание -ыя, а в единственном числе мужского рода винительного падежа заменим -ого и -его на -аго и -яго. Это несложно, как и добавить не очень мудрёные изменении в окончаниях существительных. Добавляем слова ея, онѣ, однѣ, однѣхъ, однѣмъ, однѣми (можно хоть как неизменяемые, если неохота возиться с грамматическими категориями на этот счёт).

И после этих несложных манипуляций мы дошли до самого интересного. Как восстанавливать ѣ?
Тема непростая, в википедии есть отдельная статья на этот счёт. Сначала разберёмся с простыми частями. За творительный, дательный и предложный падежи, сравнительные и превосходные формы прилагательных и глаголы на -ѣть отвечает грамматическая категория. Числительные на двѣ — поменяем вручную, как и возвратные местоимения. Наречий и предлогов несколько больше, но их замена — тоже вполне подъёмная задача. А вот что делать с толпой словарных слов?
Здесь нам на выручку придёт… украинский язык! Неожиданно, не находите ли?

Дѣло въ томъ, что… ой, простите, увлёкся. Украинский и русский языки весьма похожи (ну неужели?), в частности, похожи многие слова. Правило такое — во многих случаях, когда в русском языке использовалась ѣ, в украинском есть очень похожее слово с буквой і на этом месте. Не знаем, какая вторая буква была в слове репа? ОК, проверяем в украинском словаре ріпа и репа. Аналогично, скажем, слово ремонт. Конечно, бывает, что меняется значение слова (к примеру, что означает украинское слово неділя?), но для наших целей это не очень важно. Хуже для нас когда аналога в украинском нет — как для слова “отец”, к примеру. Что ж, полностью от ручной работы избавиться не удастся, порадуемся, что её объём можно сильно сократить. Обладая таким нехитрым знанием и украинским морфологическим словарём автоматизировать разметку станет легче.
Небольшое отступление: лингвистика
Причина этого явления видимо в том, что когда-то, до разделения общего праязыка на русский и украинский ѣ и е произносились по-разному, но русский и украинский язык далее разошлись и в русском ѣ стали произноситься так же, как е, а в украинском как і.
Есть, кстати, ещё одно проверочное правило — если в корне под ударением используется буква ё, то без ударения — буква е, но и здесь не обошлось без ислючений сѣло — сёла.


А если украинского словаря под рукой не оказалось? Дуже шкода :) Придётся положиться на собственную аккуратность и порадоваться хотя бы, что корней с ѣ всё же менее 9000.

После всех манипуляций следует разобраться с дореформенными, более строгими, чем современные, правилами переноса — если вы планируете поддержать их для своего словаря.
Въ результатѣ мы получимъ морфологическій словарь русскаго языка использующій дореформенную орѳографію.
Спасибо за внимание, и
З днем ​​слов'янської писемності!

UPD: По просьбе paulousky (а также редактора блога) добавил примеров.
Tags:
Hubs:
+34
Comments 5
Comments Comments 5

Articles

Information

Website
www.contentai.ru
Registered
Founded
Employees
101–200 employees
Location
Россия