Как стать автором
Обновить

Комментарии 14

Все равно это не естественный язык, а язык программирования, синтаксис которого имитирует естественный. Особенно криво это выглядит в этой куче дефисных выражений is-a, Every-single-thing и т.д. Сомневаюсь что он поймет даже примитивные фразы типа Apple isn't a vegetable, хотя в онтологии есть соответствующий формализм.

Поэтому о естественном языке ИМХО говорить рановато.
Выражение is not он понимает.
Насчет дефисов согласен; причем, в одних случаях выражения пишутся без дефисов (is a), в других — с дефисами.
Понятно, что это не вполне естественный язык; главная «фишка», которую я хотел отразить, состоит в том, что с таким редактором гораздо проще работать, скажем, инженеру, который много знает о предметной области, но ничего не знает об онтологиях. Научить такого инженера работать в Protege или TopBraid Composer'е было бы сложнее.
Только у меня возник вопрос о паре фраз в самом начале?
Every customer is a organization.
Every supplier is a organization.
Я думаю, что, согласно грамматике английского, правильно всё-таки «Every customer is an organization. Every supplier is an organization».

Тысячи подобных грамматических мелочей усложняют создание чего-либо, о чём можно было бы сказать «на естественном языке».
Да, можно написать и an — редактор позволяет. Согласен с вами, так правильно.
Если бы вставить распознавание речи, скажем от Google, то он сам скорее всего подставит правильный артикль. Проблемы со многими грамматическими мелочами уже решены в приложениях других разработчиков и нет необходимости делать все с нуля.
А можно пояснить, что дальше делать с полученным файлами онтологии? Для чего они создаются?
Простейший пример использования — это возможность машине вывода
«задавать вопросы» на тему информации, содержащейся в нашей онтологии.
Ага, типа Watson-а, который американцев в Свою игру обыграл, а теперь где-то в больнице трудится, интересно кстати, в каком формате там хранятся знания.
А вообще вопрос хоть и с виду очень простой, но помоему до сих пор придумано (а тем более реализовано) не так много практических примеров использования онтологий. Из запомнившегося — сайт BBC со статистикой ЧМ по футболу 2010 года — www.ontotext.com/news/bigowlim-3.3-released-used-by-the-bbc-for-the-football-world-cup news.bbc.co.uk/sport2/hi/football/world_cup_2010/default.stm
Очень хотел посмотреть, что же из себя представляет фреймворк в целом (Ontorion), но к сожалению здесь 404.
Не знаете случаем, они просто переехали или решили закрыть исходный код?
Насчет исходного кода — задам им вопрос.
Общую информацию об Ontorion можно посмотреть здесь: http://www.cognitum.eu/semantics/Ontorion/
Мне они также давали доступ в консоль. У фреймворка есть веб-интерфейс, в котором можно делать все то же самое, что в редакторе.
Получил ответ от разработчиков. Говорят, что сервер онтологий Ontorion будет предоставляться в основном облаке (хотя, видимо, будет возможна и локальная установка при необходимости), и является проприетарным, так что исходный код открывать не будут. Однако, планируют опубликовать его API.
Эх, года полтора назад оставил эту тематику и спустился с НИР на землю, а как погляжу, воз и ныне там — все пытаются редактор для онтологий допилить (Protege кстати ничего так был, из него всего-то надо было баги поизгонять, да над интуитивностью и юзабилити интерфейса поработать), не говря уже о хоть каком-то интересном практическом применении. Неужели все так тускло? У нас кстати были попытки с естественного русского языка что-то вытащить, а тут всего-лишь English, да еще и Controlled. Как по мне пользователю если и нужен редактор, то не такого уровня — замучаешься все сущности перчислять через is-a, идеальным было бы натравить робота на билиотеку какую нибудь, а потом вручную верифицировать вытащенные триплеты — над этим и пытались работать, но все время не хватало то времеи, то денег, то умения.
А в рамках какого проекта вы этим занимались, если не секрет? (в смысле, вытаскиванием с естественного русского языка)
У нас сейчас идет проект, в котором, на самом деле, хотелось бы прийти к чему-то подобному. В качестве библиотеки-основы рассматривается JORD RDL, вопрос сейчас стоит в выборе инструмента для работы.
Мы пытались работать с библиотекой RCO (Russian Context Optimizer) — пытались вытаскивать триплеты с помощью её фреймовых моделей. Лично к сожалению с данной библиотекой не работал, но на выходе результаты не очень впечатляющие — то ли версия у нас была слишком старая, то ли руки не оттуда, но триплетов из текста она вытаскивала меньше чем хотелось бы.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации