lightman May 19 2011 at 15:08

Несовершенство обычного текста как носителя информации

10 min

1.3K

Lumber room

From sandbox

Comments 8

Entrifox May 19 2011 at 15:17

Прочитал всё… Полностью согласен с Вами, хотелось бы в будущем увидеть такого рода программы.

Kathy May 19 2011 at 15:29

Вы не интересовались такими вещами как онтология и их проблемами? Это как раз то, что вы описываете в первой половине, т.е. сейчас в интернете в открытом доступе уже лежат онтологии составленные экспертами для различных предметных областей. Проблемы при этом следующие:
— нет нормального поиска
— нет оценки этих онтологий другими людьми
— нет достаточной документации, описывающей нюансы предметной области, для которой была составлена онтология.
Поэтому люди предпочитают не изучать тысячи найденных онтологий, а создать собственную для своего проекта, сделав ее 1001й и тем самым еще более усложнив поиск.
А извлечение осмысленных кусков информации из текста — это совсем другая проблема и ей тоже активно занимаются как у нас, так и зарубежом

lightman May 19 2011 at 15:55

Сейчас посмотрел что такое онтология и действительно, многое из описанного мной относится к ней. Картинка на странице википедии семантическая сеть это примерно то, что я и представлял. Пожалуй надо почитать подробнее по этой теме.

Что касается предложенной мною системы, по пунктам:

нет нормального поиска

Не вижу особой в том проблемы. Простейший вариант навскидку: упорядочиванием в отдельном списке наименования всех узлов сети (по алфавиту), ищем двоичным поиском.

нет оценки этих онтологий другими людьми

Моя система строится на том, насколько подписчик доверяет автору, настолько он доверяет и авторской сети. Первая предполагаемая мною цель использования сети — передача и распространение информации по компьютерной тематике, так что тут доверия будет ровно столько же, сколько и сейчас к статьям в интернете, однако удобства будет намного больше.

нет достаточной документации, описывающей нюансы предметной области, для которой была составлена онтология.

Документация это знания и опыт автора. Его сеть — способ отражения его знаний в компьютере. Абсолютный охват предметной темы, ровно как абсолютная точность и безошибочность в принципе не требуются.

А извлечение осмысленных кусков информации из текста — это совсем другая проблема

Увы. Поэтому возможность полноценного анализа поступающей текстовой информации и автоматического её разбиения я оставил на ближайшее будущее. Пока всё же предполагается большое число ручной работы человека с оказанием ему помощи компьютером (например при добавлении нового узла компьютер будет автоматически предлагать несколько групп уточняющих узлов на выбор, чтобы понять, какое из значений омонима человек изначально имел в виду).

-1

Kathy May 19 2011 at 16:20

На самом деле советую почитать про OWL и RDF, а также оценить количество инструментов работы с ними, например Protege.
Казалось бы, сделано очень много, а на самом деле — это только начало развития.

lightman May 19 2011 at 16:30

Благодарю, ознакомлюсь.

kaluzhanin May 19 2011 at 16:34

Гипергипертекстовый интернет? Звучит вкусно. Но слишком утопично. Вы забываете про одно очень важное преимущество обычного текста — он линеен. И мыслим мы с вами линейно. Описанная Вами система линейностью не обладает, а значит, не будет восприниматься сознанием. Разумеется, средства поиска по такой сети можно наделить функционалом выдачи линейного результата, но с какими затратами?

Поясню на примере. Допустим, я возжелал найти рецепт борща. Я открываю поваренную книгу и вижу: Достать кастрюлю, помыть свеклу. Как будет выглядеть подобный рецепт в предложенной Вами концепции?

UFO just landed and posted this here

volum_separatum Dec 30 2011 at 16:03

Идея в своей первооснове действительно хороша. Помимо упомянутой выше проблемы нелинейности есть проблема перевода своих знаний в подобный формат. Знания в голове нестатичны. Сначала это голый набор фактов, потом со временем они обрастают мясом понимания откуда что взялось, как что с чем связано — подобный процесс будет достаточно тяжело регулярно переносить в свою «сеть».

Избыточность информации — как от нее избавляться? Какова должна быть метрика для понятий в этой сети (как при поиске определять что ближе к искомому, а что дальше)? Это все не считая фундаментальной проблемы выразительных возможностей языка.

Вот если бы это дело автоматизировать, заставить самостоятельно строить сеть на основе данных из интернета, скажем. Но это уже Скайнет получается какой-то.

Show the best of all time