Pull to refresh
10
0
Ypag @Ypag

User

Send message

Сортировка неструктурированного потока данных

Reading time1 min
Views1.1K
В прошлой статье Я писал как мы на YPAG.RU сортируем компании по разделам с помощью нейронной сети.
Многие просили описать алгоритм. Я опишу универсальный подход для сортировки данных.

1. Нужно проанализировать добавленный текст и определить в нем ключевые слова. Есть много алгоритмов для определения ключевых слов, Я использовал законы Зипфа, кстати по этой теме мне пришлось писать дипломный проект.

2. После определению ключевых слов нужно сделать релевантный поиск по этим ключевым словам по базе уже структурированных документов.

3. Отбираются 20 самых релевантных документов и строится по ним рейтинг разделов. После этого отбираются самые популярные разделы из этой выборки. Этот порог настраивается сугубо индивидуально, у нас стоит порог – больше 5.

4 У нас на YPAG.RU еще назначается позиция документа в разделе. Позиция вычисляется следующим образом: определяются позиции найденных документов раздела и вычисляется средняя позиция. Если компания интересует посетителей – позиция постепенно растет.

Таким образом можно эффективно структурировать данные. Погрешность составляет 3-5%.
Основные проблемы возникают, если текст ни точно сформулирован. Например: оптовые закупки. Ни понятно что, как.
Total votes 11: ↑7 and ↓4+3
Comments9

Какие будут справочные системы в будущем?

Reading time2 min
Views650
Я являюсь создателем бизнес-справочника YPAG.RU, хотел бы осветить данную отрасль, рассказать недостатки и преимущества их, в какую сторону они будут развиваться.
Ни для кого, ни секрет, что классические бумажные бизнес справочники ушли в историю, с ними было трудно работать, сложно находить нужную информацию, они были громоздкие. На смену им пришли электронные справочники такие как КОМПАСС и Интернет справочники. Основной недостаток этих справочников доступ к актуальным данным. Любая большая справочная система требует постоянно проверку актуальности данных. Для это нужно иметь большой штат работников, регулярно обзванивать все компании, запрашивать корректные данные. Это очень дорогое удовольствие, бизнес справочных систем не имеет высокой рентабельности, по этому данные практические всех справочных систем имеют около 30% устаревшей информации.
Читать дальше →
Total votes 14: ↑9 and ↓5+4
Comments8

Вирусами могут разрушить бизнес

Reading time1 min
Views417
Хочу Вам рассказать про случай, который произошел в начале этой недели с моим проектом YPAG.RU (по посещаемости сопоставим с желтыми страницами Yell.ru)

image

данные Google Trends

В справочнике есть раздел бесплатных тендеров http://www.ypag.ru/tenders/, на который можно подписаться и получать рассылки, в которых информируется о новых тендерах. Услуга пользуется популярностью и имеет большую базу подписчиков.

Вечером стали приходить жалобы, что мы рассылаем нашим подписчикам спам, сразу приходит по 100-200 писем на один ящик одного содержания. В письмах ссылки ведут на наши тендеры. Дизайн и оформление рассылки полностью слизано с нашей рассылки. В тот день робот рассылок не делал. Сразу стало понятно, что акция направлена.на уничтожение имиджа проекта.

Стали разбираться, у одного из наших администраторов нашли Троян. Он ни какими известными антивирусами ни определялся. У нас есть хороший системщик, он его расковырял – Троян цепляет только пароли администратора сервера (BD, cron (ни чего другого его не интересовало)). Как он к нему попал, сложно представить. Админ толковый и тупо прислать ему письмо – «Посмотри тут девки» не пройдет. Пытались разобраться кто получатель, отправка идет на буржуйский почтовик mail2web.com. Понятно что с них добиться какой-то информации не реально.

Спамили 5 дней!!!

В базе осталось 5% подписчиков!!!

Вот так можно убить бизнес за 5 дней, который строился несколько лет!
Total votes 56: ↑40 and ↓16+24
Comments32

Опять Мастерхост радует своей стабильностъю

Reading time1 min
Views382
В очередной раз полетела внешка Мастерхоста.
На Украине ни один сайт Мастерхоста не открывается, даже 1tv.ru
Честно говоря, терпению когда-то приходит конец.
Присоветуйте приличный и стабильный хостинг.
Total votes 16: ↑5 and ↓11-6
Comments13

Information

Rating
Does not participate
Registered
Activity