DSkorinkin Dec 17 2014 at 00:43

Онтоинженер: работа по понятиям

7 min

24K

Content AI corporate blogSearch engines*Semantics*

+23

Comments 13

ServPonomarev Dec 17 2014 at 10:04

Даня, добро пожаловать на хабр.

Compreno — классная штука, но оторопь берёт не только меня, когда начинаешь понимать, сколько ручного труда требует её применение. Очень интересно услышать «истории успеха» внедрения Compreno в жизнь.

DSkorinkin Dec 17 2014 at 11:17

Сергей, спасибо!

С историями успеха сложность в том, что даже чисто юридически не обо всем можно рассказывать, сплошные NDA. У меня во второй части поста изначально задумывался кусочек, где я говорю о конкретных проектах. Но выяснилось, что не имеем права — ~~военная~~ клиентская тайна, а ее мы свято бережем.

ServPonomarev Dec 23 2014 at 16:18

По своим источникам я знаю одну историю успеха Compreno — это внедрение технологии в Сколково. Жаль, что других историй нам не поведают.

alan008 Dec 17 2014 at 10:08

Используется ли подобный разбор семантики при машинном переводе текстов? Есть ли у ABBYY продукт (готовый или находящийся в разработке) по переводу текстов а-ля Google Translate (т.е. не просто отдельные слова переводить, как в Lingvo, а полноценный машинный перевод текста)?

potan Dec 17 2014 at 10:22

Специальная среда — это protégé, или что-то свое?

DSkorinkin Dec 17 2014 at 12:12

Своя среда. Но при разработке мы, конечно, держали в голове имеющиеся инструменты и в чем-то вдохновлялись ими. Кстати, в первой версии поста так и было написано — «специальная среда, похожая на популярный редактор Protégé».

igor_suhorukov Dec 17 2014 at 19:03

А чем Protege-OWL не устроил?

DSkorinkin Dec 18 2014 at 15:28

Protege-OWL — это все-таки отдельно стоящий редактор онтологий. У нас же редактор онтологиий — это небольшая часть довольно сложной системы, в которой можно создавать OWL-модели предметных областей и затем разрабатывать предметно-ориентированные системы извлечения информации с опорой на формализм Compreno, т.е. на представление текста в виде леса синтактико-семантических деревьев. Это такая своеобразная «фабрика моделей извлечения информации», подробнее о ней я расскажу во второй части поста.

В общем, мы решили, что мы достаточно большие и будем строить свой лунапарк с редактором онтологий, блэкджеком и всем остальным.

igor_suhorukov Dec 18 2014 at 18:51

Ясно. Специфика своей системы…
Лунопарк — это да!)

rpuch Dec 17 2014 at 15:06

CRC — это разновидность «кода программы», получается?

vvagr Dec 19 2014 at 14:37

Нам посчастливилось поработать как онтоинженерам с Compreno, и поучить его разбирать инженерные тексты (тексты железной инженерии). До «успешного внедрения» нам ещё далеко, но зато и причин скрывать наши результаты за NDA у нас тоже нет. Поэтому можно увидеть две презентации с примерами лингвистического и онтологичекого парсинга, на двух языках:

www.slideshare.net/vvagr/ontology-modelling-of-an-engineering-document-perspectives-of-linguistics-analysis

www.slideshare.net/vvagr/reference-dataextraction

yeg Dec 19 2014 at 21:49

А время учитывается? Например, «Вася ушел», «Вася уходит» и «Вася уйдет» будут отличаться?

DSkorinkin Dec 20 2014 at 16:49

Да, разумеется. На картинках всего не отобразить, но на самом деле на деревьях висит еще очень много всякой лингвистической информации. В частности, на узле с «ушел» будет граммема прошедшего времени, на узле с «уходит» — настоящего, на узле с «уйдет» — будущего. И не только время — вид глагола, залог, род и все остальное. Граммем очень много, они выступают такими первичными кирпичиками, с опорой на которые и строится вся синтаксическая структура.