Как стать автором
Обновить

Не надо вычислять смысл и знания, когда их можно доставать из машинной памяти

Время на прочтение 3 мин
Количество просмотров 1.9K
Как говорил великий классик Аристотель, «известное, оказывается, известно немногим».

Языковеды всего мира подвержены одной пагубной иллюзии, полагая, что если они сумеют построить «правильный синтаксический граф», (то есть, «дерево фразы»), то они в этом случае, наконец-таки, решат это треклятую проблему машинной обработки естественно-язычных текстов (еят). Вот и ищут лингвисты денно и нощно какие-то мифические связи и отношения между словами (семантическими единицами) в предложениях и абзацах текстов. Да ещё и кибернетиков подключили к этим своим безуспешным поискам. Прошло уже полвека таких изысканий, а воз, как говорится, и поныне там. Не строится никак этот граф, давая много лет устойчивые 50% ошибок. Уже и сотни миллионов долларов потрачены. Один только проект «Watson» чего стоит. А ведь, в принципе, этих «связей и отношений» и нет на самом-то деле. Всё это, если внимательно вдуматься, искусственные наукообразные выдумки, из-за которых, собственно, прогресс в деле создания технологии осмысленной обработки еят зашел в тот тупик, где сейчас и пребывает.

Лингвисты как те инопланетяне, в руки которых попало обыкновенное для землян куриное яйцо. Вот они его могут изучать и так и сяк. И обмерить вдоль и поперек, и взвесить, и рентгеном просветить, и скорлупу исследовать на состав, и её твердость по Моосу замерить, и хрупкость уточнить, и цвет откалориметрировать. В общем провести всё, что только можно измерить, а вот понять, как оно образуется, того бедняги никак не смогут, поскольку самой курицы не знают и не ведали. Точно также не могли туземцы океанических островов нашей планеты понять, каким это образом транзисторный приемник, занесенный к ним западной цивилизацией, может издавать членораздельные звуки или звуковые мелодии. И как-бы они не изучали этот приемник, не пробовали его на зуб или на вкус, того бы вовек сами не поняли, что к такому устройству еще и радиостанция нужна. Подобная картина наблюдается и с языковедами, изучающими еят, как продукт (яйцо, транзистор) человеческого мышления (курицы, радиостанции), не обращая, при этом, внимания на самого «генератора (производителя) яйца».

А что же тогда мозговеды? Почему бы лингвистам да кибернетикам не объединиться с ними и на стыке трёх дисциплин не попытаться найти искомый результат. Ан нет! Оказывается специалисты по мозгу тоже заняты изучением своего «яйцевого продукта», то бишь, серого вещества. Уж как-только они его уже не обмерили и не изучили, аж вплоть до самых до атомов, то есть, по самые дендриты и аксоны. Вот даже «нейронообразную семантическую сеть» на сём поприще изобрели. Да только проку в ней, как с козла молока, так как она тоже импотентна в плане возможности осмысленного восприятия еят. А может, филологи тут сказали бы своё веское слово? Ведь они имеют некоторое отношение к мышлению. К сожалению, и они не могут ничем помочь, поскольку увлечены внешними проявлениями человеческой умственной деятельности (это их «яйцо»), а «думательные процессы» и здесь опять остаются за кадром.

Так что же делать? А ровно одну вещь – изучать процедуры нашего мышления и пытаться их реализовать в компьютерной плоскости. Ведь, человек, начиная постигать разговорную речь, просто напросто не знает про существование морфологии и синтаксиса, которые ему ещё только предстоят потом изучать в школе, и вовсе не задумывается про связи и отношения между словами, и не исчисляет предикаты, а просто начинает сам говорить и понимать то, что ему говорят другие. Происходит это с помощью так называемых «Моделей Поведения Образов» (МПО), которые люди запоминают и накапливают в памяти всю свою жизнь, воспринимая окружающую дествительность и выстраивая в сознании виртуальную «Модель Мироздания» (ММ). Имено эти МПО и ММ помогают нам дешифровать тот словесный код, которым зашифрованы мыслеформы индивидуума, создающего вербальные или эпистолярные языковые сообщения. Попросту говоря, люди понимают друг друга не впрямую с помощью математико-статистической обработки «словесных взаимоотношений», а привлекая эти самые МПО для извлечения смысла из сообщения, как некоего замысла автора данного сообщения. Вот и следует компьютер научить извлекать (распознавать) эти МПО в тексте и запоминать их, занося в свою машинную память. А чтобы компьютер научился этому ремеслу, то вдобавок нужно еще всё привести к формализованному виду. То есть, формализовать процедуры извлечения смысла, формализовать получаемые знания, создав, при этом, не базу данных, как это делается сейчас, а именно полноценную «Базу Знаний» (БЗ), чтобы была не примитивная Data Mining, а уже высокоэффективная «Knowledge Mining». Наконец, надо научиться не вычислять смысл и знания, а просто доставать их из БЗ тем же самым эвристическо-ассоциативным образом подобно тому, как это делают все люди. А вот этого компьютерная лингвистика, как раз, и не может.

Жаль, конечно, что много ресурсов (интеллектуальных, материальных, временных) было потрачено на то, чтобы достичь такого понимания, но отрадно и то, что есть уже первые энтузиасты исследователи, которые идут этим новым непроторенным путем, получая первые и весьма многообещающие результаты.
Теги:
Хабы:
-1
Комментарии 14
Комментарии Комментарии 14

Публикации

Истории

Работа

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн