Pull to refresh

Comments 9

Далеко не с первого раза понял, о чем идет речь. Вообще, такое лучше описывать на примерах.

Например, так (пользуясь компаниями и разделами Вашего сайта):

Задача:
На сайт добавляется новая компания. Нужно автоматически определить рубрики, к которым ее отнести.

1) Добавляем новую компанию
Название: ООО Автодорсервис
Описание: Спецтехника и запасные части ДЗ-98, А-120, ДЗ-180, ДЗ-143, ГС-14, ДЗ-122, К-700, К-701, К-702, Т-170, Т-130, Б-10, Урал, БелАЗ, МоАЗ, ЯМЗ, КрАЗ, ДЭК-251, РДК, Автокраны

2) Определяем ключевые слова в данном описании при помощи закона Зипфа. Допустим, этими словами оказались слова: «Спецтехника» и «Автокраны».

3) Проводим поиск по каждому из этих слов в базе компаний, заполненной ранее. Отбираем 20 первых по релевантности компаний и определяем рубрики, к которым они относятся.

4) Из полученной выборки рубрик, отбираем только те, которые встречаются в этой выборке более 5 раз. Этими рубриками являются «Автомобили» и «Автозапчасти для грузовых автомобилей».

5) Отправляем нашу компанию «ООО Автодорсервис» в рубрики «Автомобили» и «Автозапчасти для грузовых автомобилей».

Я хотел описать общий подход к данной проблеме, а не опираться на конкретную реализацию.
У каждого свои задачи.
Ну так общий подход давно известен и ничего нового в нем нет. А Вы пишете, что «Многие просили описать алгоритм», то есть интересен был именно алгоритм, который Вы применили в Вашем проекте.

А тут получается ни то, ни сё. Порог > 5, 4-й пункт и слова про погрешность относятся к Вашему проекту, а остальное общие слова.

Вам же уже в комментариях к прошлому посту говорили, что без конкретики — это просто реклама.
По моему Я и описал все опираясь на свой проект :)
куда уж подробнее?
может еще разжевать и в рот положить? :)
Основные проблемы возникают, если текст ни точно сформулирован. Например: оптовые закупки. Ни понятно что, как.

Многие представители компаний, добавляя свою организацию, даже не могут точно сформулировать, чем они занимаются. Таких по нашем региону (Ярославская область) более 70%. А вы о нейронной сети говорите. Только ручная проверка сведений может дать близкий к 100% точности результат.
Ну не знаю где Вы таких находите :)
по нашим данным не более 5%
Мы таких не находим, они сами нас находят )) У нас с вами специфика разная, вот и данные разнятся.
Кстати, Яндекс тоже не использует полностью автоматизированный разбор добавляемых организаций. Слишком велика погрешность.
Вот несколько примеров:
www.ypag.ru/cat/kompaniy981966/s644694454.html — почему бы его в полиграфические услуги не добавить? Там же в описании четко прописано: «Полиграфические услуги». Еще его можно добавить к «Компьютеры», т.к. в описании написано: «Продажа и обслуживание офисной техники, компьютеров». Еще его можно добавить в раздел «Ремонт бытовой и офисной техники», опять-такие, исходя из описания.

www.ypag.ru/cat/kompaniy989348/s1002480394.html — вместо рубрики «Программное обеспечение» их надо в «Бизнес-образование» и/или в «Информационные технологии».

И так далее.
Я ж говорю, погрешность есть, но работы на много меньше, чем если исправлять все после них :)
К сожалению полностью автоматизировать нельзя да и выборку надо качественную и большую иметь.
А Я беру существующую выборку, большую часть которой делалась модераторами в ручном режиме.
От сюда и погрешность.

Если б была 100% качественная выборка — таких бы косяков было б куда меньше.
Only those users with full accounts are able to leave comments. Log in, please.