Pull to refresh

Сортировка неструктурированного потока данных

Lumber room
В прошлой статье Я писал как мы на YPAG.RU сортируем компании по разделам с помощью нейронной сети.
Многие просили описать алгоритм. Я опишу универсальный подход для сортировки данных.

1. Нужно проанализировать добавленный текст и определить в нем ключевые слова. Есть много алгоритмов для определения ключевых слов, Я использовал законы Зипфа, кстати по этой теме мне пришлось писать дипломный проект.

2. После определению ключевых слов нужно сделать релевантный поиск по этим ключевым словам по базе уже структурированных документов.

3. Отбираются 20 самых релевантных документов и строится по ним рейтинг разделов. После этого отбираются самые популярные разделы из этой выборки. Этот порог настраивается сугубо индивидуально, у нас стоит порог – больше 5.

4 У нас на YPAG.RU еще назначается позиция документа в разделе. Позиция вычисляется следующим образом: определяются позиции найденных документов раздела и вычисляется средняя позиция. Если компания интересует посетителей – позиция постепенно растет.

Таким образом можно эффективно структурировать данные. Погрешность составляет 3-5%.
Основные проблемы возникают, если текст ни точно сформулирован. Например: оптовые закупки. Ни понятно что, как.
Tags:иинейронные сетиструктуры данныхбаза данныхсортировкаискуственный интеллект
Hubs: Lumber room
Total votes 11: ↑7 and ↓4 +3
Views539

Popular right now

Разработчик нейронных сетей
from 75,000 to 75,000 ₽ДельтаинкомКазаньRemote job
DBA | Администратор баз данных
from 200,000 to 300,000 ₽СберМосква
Ведущий администратор баз данных
from 80,000 ₽ТатнефтьАльметьевск
Аналитик данных
from 100,000 ₽Сима-лендRemote job
Аналитик данных
from 130,000 to 180,000 ₽ФЦТ "Моя Россия"Remote job