Как стать автором
Обновить

Комментарии 5

Понимаю что это перевод, но всё же спрошу: этот алгоритм может использоваться в каких-то вариантах поисковые машины?

Конечно может. Но надо четко понимать, что первый шаг — это дать алгоритму поработать на массиве данных в которых будет осуществляться поиск. Он создаст все эти калибровочные слои — которые в общем- то представляют из себя своеобразные фильтры.
Что-то они скрывают вот в этом аспекте «Извлечение из всех доступных слов (переменных) всех их возможных отношений является вторым принципом.» Т.к. если пытаться реально обрабатывать все возможные варианты, память кончится очень быстро, т.к. получается «комбинаторный взрыв» даже в пределах одного предложения.
При обработке текстов создается словарь. Как правило на 200 Gb текста словарь составляет всего 1-2 M слов во всех словоформах. После устранения всех ошибок, и лемматизации и т.д. словарь уменьшается до 70-150 К. Полная матрица отношений займет примерно 30 Gb. Но для расчетов ее не применяют т.к. она практически пустая. Поэтому «комбинаторный взрыв» не происходит.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории