Комментарии
Как вы оцениваете опасность того, что средневековые тексты, которые находятся в общественном достоянии, при помощи такой базы данных опять вернутся под авторское право, а свободное их использование будет запрещено?

Как НИТУ смог достичь согласия с Историческим музеем и получить право копировать средневековые книги, находящиеся в музее? Наверное, за это пришлось заплатить по 100 рублей за одну страницу, или даже больше?

Спасибо.

ответ авторов проекта:
В вопросах авторского и смежных прав в отношении древних манускриптов нужно иметь в виду два аспекта. С одной стороны, по очевидным причинам не приходится говорить о правах самих авторов или их наследников. С другой стороны, владельцы манускриптов (а это могут быть как государственные и церковные организации, так и частные лица), как правило, не горят желанием предоставлять свободный доступ к книгам, и подчас это вполне оправдано ввиду их ветхости.
Однако, со многими владельцами можно работать в этом направлении. Кроме того, конкретно в случае древних славянских рукописей всё не так плохо. Во-первых, имеется довольно большой объём книг, принадлежащих российским государственным музеям, которые уже были отсканированы в хорошем качестве и выложены в открытый доступ для всех заинтересованных исследователей. Во-вторых, есть основания полагать, что вовлечённые в проект церковные структуры предоставят сканы текстов имеющихся у них манускриптов на таких же условиях. Вообще, расширение объёма доступного для исследователей материала — одна из важных задач проекта.

Уточню проблему.

1) Тексты средневековых книг находятся в общественном достоянии. Будет ли корпус общественным достоянием? Или он будет выпущен по лицензии Creative Commons? Или он будет собственностью создателей, то есть они захватят общественное достояние под своё авторское право?

2) Мне кажется, вы ответили о тех рукописях, которые уже отсканированы и находятся в интернете. А что же с теми книгами, которые ещё не сканированы? Сколько музеи требуют за каждую страницу?

3) Как НИТУ смог достичь согласия с Государственным историческим музеем и получить право копировать средневековые книги, находящиеся в музее? Сколько пришлось платить за такое право?

4) В 2015 году Эрмитаж доказал в суде, что рисунок, сделанный по мотивам картины, является производной работой, а следовательно, права на него принадлежат музею. (Дело А63-18468/2012.) Будет ли новый корпус — печатной продукцией с использованием изображений музейных предметов? Смогут ли музеи запретить использование этого корпуса на основании статьи 36 закона от 26.05.1996 N 54-ФЗ?

Спасибо.

На данный момент участники проекта исходят из модели правового статуса Национального корпуса русского языка http://www.ruscorpora.ru/new/


Имеющийся объём отсканированных и доступных манускриптов уже даёт большие возможности для работы. При дальнейшем развитии, конечно, встанут вопросы финансовой и административной поддержки для обеспечения оцифровки и т.п.
Это же касается вопросов разделения прав на графические изображения, то есть сканы манускриптов и прав на уже распознанные и размеченные тексты в машиночитаемом формате. Понимание этих проблем у участников есть, на данном этапе непреодолимыми они не представляются.

Спасибо.

Отсылка на Национальный корпус русского языка означает: «Мы никому ничего не позволим». Именно таковы условия НКРС. На сайте НКРС написано — «исключительно для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 1274 ГК РФ). Они не предназначены ни для чтения/просмотра, ни для копирования, ни для иных видов использования». Хозяева НКРС запретили вообще всё, что только могут запретить.

Сканы манускриптов находятся в общественном достоянии. Распознанные тексты находятся в общественном достоянии. А вот с размеченными текстами — дело иное. Это уже получается база данных, там возникают авторские права тех, кто размечает текст, и авторские права тех, кто формирует базу данных. Очень жаль, что все эти авторские права не будут отменены, а напротив, станут непреодолимым барьером для всех тех, кто не может платить.

Очень грустно всё это. :-(
Меня очень настораживает готовность разметить корпус текстов, грамматика языков которых нам не вполне понятна. Усугубляет ситуацию то, что русский язык — «внучатый племянник» языков этих текстов, так что даже строгим исследователям свойственно проецировать состояние языка современного на язык прошлого, хотя во многих нюансах это только вредит.

Также непонятно, что будет с графикой — либо нужно придумать очень гибкую и развитую систему, чтобы кодировать все графические варианты букв и знаков, либо неизбежно потерять ценную информацию, как это происходит обычно.

Филологи говорят, что им грамматика старославянского понятна с первых курсов филфака.

Это проявление эффекта Даннинга-Крюгера, не более того. Я приведу три разнородных примера.
1. Язык XI века — тоновый. То есть все эти слова в текстах при произнесении имели тон, и тон этот был значимым. Сейчас тон сохранился только в нескольких славянских языках и даже в грамматиках современных языков описан лишь вчерне. Что касается языка XI века, то из сколь-нибудь полных описаний у нас есть только теория Дыбо и Зализняка с парадигмами акцентуации, которая в общем-то оторвана от современной мировой науки и мало что объясняет. Она не подходит для хорошей разметки корпуса в части акцентуации.
2. Для языка XI века не сформулировано сколь-нибудь целостное и качественное морфонологическое описание. Что такое морфонология — это когда мы объясняем особенности устройства современных слов через прошлое состояние языка. Например, очень упрощая, если взять две пары похожих слов в именительном и родительном падежах: лоб-лба, жлоб-жлоба, то мы видим, что у лба выпадает «о». Морфонология нам дает объяснение — там до сих пор в корне и в окончании редуцированные гласные, которые произносились ещё лет 800 назад везде, но теперь — только в некоторых местах, и на глубинном уровне это слова лъбъ-лъба, жлобъ-жлоба, чем и объясняется, почему у одного слова «о» выпадает, а у другого — нет. Если мы возьмем ещё пару лёд — льда, то тут выпадает уже «ё». На глубинном уровне это до сих пор льдъ-льда. То есть эти редуцированные гласные мы в некоторых позициях не произносим, но у нас в головах на бессознательном уровне по-прежнему они есть и работают по некоторым правилам. Несложно заметить, что морфонологическое описание нас возвращает к языку более чем 1000 летней давности. Но для морфонологического описания языка 1000 летней давности нам надо возвращаться гораздо дальше в прошлое.
3. В языке XI века у глаголов не было современной категории вида. Что было вместо вида — вопрос открытый и на него есть много ответов. Как их будут размечать?
Если мы возьмем ещё пару лёд — льда, то тут выпадает уже «ё».

Но ведь ё — это всего лишь йотированное о (ljod — ljda). То есть по сути этот пример не отличается от «лоб-лба».
Отличается, вот три однокоренных слова: лёд-льда-ледяно́й. Если «ё» — это просто йотированное «о», то в одном корне у вас три разных варианта: йотированное «о», «йотированное э» и «ничего». Хотя на уровне морфонологического описания там одна и та же гласная «ь». А в лоб-лба — гласная «ъ».

Замечание в отношении графики абсолютно верное — именно развитие алгоритмов распознавания, которые будут хорошо работать на таком сложном примере, как рукописные древние славянские буквы, в принципе, и является одной из важных задач проекта, без решения которой к проблеме разметки значительных объёмов текста вряд ли можно подступаться.

Какие графические варианты вы боитесь утерять? Чего не хватает относительно Unicode Technical Note #41?
И планируется сохранение возможности посмотреть графический файл, в котором находится найденное слово.

Маленький пример из благовещенской стихири в стихираре собрания Троице-Сергиева монастыря конца XV века:
image
Тут две сложности: надстрочные знаки и две разные буквы «Э», причем это не графическая вариация, один вид «э» передают еврейскую букву «алеф», другой — манеру пения. Эта же еврейская алеф пишется в русских рукописях того времени ещё и как греческая лямбда "λ". Как это кодировать?

Певческие крюки в этом проекте никто не собирался кодировать. Интересует сам текст. Здесь, конечно, любопытны эти вставленные «Э», как и «ананейки».

А почему в корпус включат исключительно церковные тексты, а не летописи и разного рода «учёт-бухгалтерию»? Для науки ценнее светские данные.

Нигде не говорится, что "исключительно церковные". Оцифровка древнеславянских миней — только первый этап. В принципе, методология и алгоритмы, которые будут разработаны для древнеславянского, могут быть актуальны для всех языков, графемы которых "вязеподобны". А это и арабский, и фарси, и хинди, и грузинский и тд..

На первом этапе будут захвачены минеи, а затем уже и прочие древнеславянские тексты, чтобы ограничить их доступность авторскими правами на корпус?
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.