Pull to refresh

Сортировка неструктурированного потока данных

Reading time1 min
Views1.1K
В прошлой статье Я писал как мы на YPAG.RU сортируем компании по разделам с помощью нейронной сети.
Многие просили описать алгоритм. Я опишу универсальный подход для сортировки данных.

1. Нужно проанализировать добавленный текст и определить в нем ключевые слова. Есть много алгоритмов для определения ключевых слов, Я использовал законы Зипфа, кстати по этой теме мне пришлось писать дипломный проект.

2. После определению ключевых слов нужно сделать релевантный поиск по этим ключевым словам по базе уже структурированных документов.

3. Отбираются 20 самых релевантных документов и строится по ним рейтинг разделов. После этого отбираются самые популярные разделы из этой выборки. Этот порог настраивается сугубо индивидуально, у нас стоит порог – больше 5.

4 У нас на YPAG.RU еще назначается позиция документа в разделе. Позиция вычисляется следующим образом: определяются позиции найденных документов раздела и вычисляется средняя позиция. Если компания интересует посетителей – позиция постепенно растет.

Таким образом можно эффективно структурировать данные. Погрешность составляет 3-5%.
Основные проблемы возникают, если текст ни точно сформулирован. Например: оптовые закупки. Ни понятно что, как.
Tags:
Hubs:
Total votes 11: ↑7 and ↓4+3
Comments9

Articles