julos Jul 15 2014 at 16:18

Могут ли теги победить рубрики? Иерархии тегов

9 min

18K

Mathematics*

+17

Comments 44

datacompboy Jul 15 2014 at 16:29

Подытожим.

julos Jul 15 2014 at 16:33

Вообще то я об этом

vortex7 Jul 15 2014 at 17:03

этот тег надо было добавить в свою статью :)

Nashev Jul 15 2014 at 19:31

оба надо б

julos Jul 15 2014 at 22:34

fixed

questor Jul 15 2014 at 18:27

Автор подымает один из самых больных вопросов: на сайтах можно найти поиском только по одному тэгу, а так, чтобы найти одновременно хотя бы два тэга (не говоря, чтобы показать по тэгу за минусом какого-то третьего) — уже никак. В результате либо ты лопатишь гору лишней информации, просматривая один тэг, либо сразу уходишь в поисковик.

+10

lexxpavlov Jul 15 2014 at 22:38

У меня есть алгоритм вывода статей по тегам именно так — задаются три тега, и вначале выводятся все статьи со всеми тремя совпадающими, потом выводятся все статьи с совпавшими любыми двумя тегами, и потом уже выводятся все статьи, в которых один из представленных тегов. Причём делает это за один SQL-запрос.
Вариант для поиска номеров статей:

SELECT id, count(*) as weight FROM tag_links 
WHERE tag IN (1,2,3) GROUP BY id ORDER BY weight DESC

Вариант для вывода списка статей:

SELECT articles.id, articles.title FROM tag_links, articles 
WHERE tag_links.id=articles.id AND tag_links.tag IN (1,2,3) 
GROUP BY tag_links.id ORDER BY count(*) DESC

Если интересно, могу написать статью про то, как шёл к этому решению. Ничего выдающегося, в общем-то, но боюсь, здесь в комменте это затеряется…

Nashev Jul 15 2014 at 22:42

tag_links.tag — идентификатор тэга? Кто такие 1, 2 и 3?

lexxpavlov Jul 15 2014 at 22:46

Всего три таблицы — articles, tags и tag_links, реализующая связь многие-ко-многим первых двух таблиц.
Таблица articles: id, title, body
Таблица tags: id, name
Таблица tag_links: id, tag

Nashev Jul 15 2014 at 22:47

Вы это сейчас на какой вопрос отвечали?

Я правильно догадываюсь, что на первый вопрос — ответ «да»?

lexxpavlov Jul 15 2014 at 22:50

м-м-м… да, простите. Верно, tag_links.tag — идентификатор тега, tag_links.id — это идентификатор статьи.
1, 2, 3 — айдишники искомых тегов. Их может быть и больше трёх.

Nashev Jul 16 2014 at 17:21

Громковато это называть «алгоритм», ИМХО… действительно, ничего выдающегося.

lexxpavlov Jul 16 2014 at 17:46

согласен. Зато работает. А в своё время я не нашёл ничего готового, кроме посылания запросов в цикле и последующей обработки и сортировки.

vlivyur Jul 16 2014 at 12:47

Нельзя исключить какой-то тег.
Сложного в реализации поиска по нескольким тегам ничего нет, поэтому и непонятно почему нигде такого нет. А потом и появляются «никто не читает теги».

lexxpavlov Jul 16 2014 at 14:45

что значит Нельзя исключить какой-то тег? Уберите из запроса ненужный тег и найдите заново.

vlivyur Jul 16 2014 at 16:31

Нет, мне нужно «всё вот это», но чтоб «вот этого» ни в каком виде не было.

lexxpavlov Jul 16 2014 at 16:36

а, я понял. Верно, эти запросы такую выборку сделать не позволят. Нужно подумать, как это сделать. На крайний случай — отдельным вторым запросом.

Dlussky Jul 16 2014 at 16:34

^{глупость написал}

lexxpavlov Jul 16 2014 at 16:39

так не получится — SELECT вначале отбирает записи, и только потом группирует и сортирует их. А так как в записи только одно поле tag, то NOT IN точно не сработает, потому что после первого условия там записи с полем tag из первого списка.

Dlussky Jul 16 2014 at 16:42

Я осознал это и удалил комментарий, когда вашего ответа еще не было, извините)

lexxpavlov Jul 16 2014 at 16:46

да ладно. Пусть будет мой ответ для других.
К тому же, у вас не глупость. Я вот тоже хочу так писать — WHERE tag IN (:includedTags) AND tag NOT IN (:excludedTags). Возможно, получится разработать такую структуру таблицы tag_links, чтобы такой запрос сработал (что вряд ли), или составить запрос по другому, например, через самопересечение этой таблицы.

vlivyur Jul 16 2014 at 17:09

Самым простым способом будет считать исключаемые теги отдельно (включив их в IN) и если их больше 0 — отбрасывать эти результаты.

Nashev Jul 16 2014 at 17:18

SELECT id FROM tag_links WHERE tag IN (1,2,3) 
AND id NOT IN (SELECT id FROM tag_links WHERE tag IN (4,5,6))
GROUP BY id ORDER BY count(*) DESC

lexxpavlov Aug 18 2014 at 14:52

Написал статью про реализацию тегов в SonataAdminBundle, вставил эти запросы в конец статьи. Не стал отдельной статьёй постить.

Nashev Aug 18 2014 at 17:14

Ссылку сделать забыли на упомянутую статью. habrahabr.ru/post/233695/

lexxpavlov Aug 18 2014 at 19:42

упс… точно! Спасибо за ссылку

Bigbad Jul 15 2014 at 19:08

Размышления на тему привели к такому решению:
1. Когда пользователь добавляет тег к статье, сохранять не только сам тег, но и раздел, в который публиковалась данная статья.
2. Если пользователь, читающий определенную статью, кликнет по такому тегу, мы сможем выдать ему только те материалы, которые содержат данный тег + имеет привязку к этому тому же разделу, что и та статья, в которой он по нему кликнул.

На счет умного поиска. Очень красивое решение, но пользователь может интересоваться сегодня шоколадками, а завтра колонизацией Марса.

Nashev Jul 15 2014 at 19:32

Раздел — это тоже теги, по хорошему.
Теги тегам теги!

Nashev Jul 15 2014 at 19:32

Картинки шикарны!

Nashev Jul 15 2014 at 19:36

Тоже как-то раз много думал в сторону тегов и их невообразимой мощности: nashev.livejournal.com/64025.html

julos Jul 16 2014 at 12:46

А что в итоге с тем стартапом которому Вы свои тексты посвятили? Там bad request какой то.

Nashev Jul 16 2014 at 13:20

Переименовались в mem2.com, поразвивались и исчезли…

jakobz Jul 15 2014 at 19:37

Вот тут теги шикарны и самодостаточны (осторожно — матюки):
ru-chp.livejournal.com/tag/

lexxpavlov Jul 15 2014 at 22:43

Я обычно ставлю много тегов, с тем, чтобы потом можно было просматривать связанные статьи. Добавление 2-3 тегов не даёт практически ничего, нужно ставить десяток тегов.
Но это плохо работает, если нет механизма поиска по нескольким тегам. Даже больше, если этого механизма нет, то теги сильно уступают рубрикам. В принципе, в статье об этом и написано…

questor Jul 16 2014 at 12:40

Выше вы описывали внутренности своего механизма поиска, как и что устроено «под капотом». А можно где-то посмотреть в действии или это не публичный проект?

lexxpavlov Jul 16 2014 at 16:29

В этом комментарии я больше говорил про личные записи. В частности, в Evernote в заметках я указываю 2-3 тега-рубрики (работа, проект, 2014) и пяток тегов, относящихся конкретно к этой заметке. После этого очень удобно их искать, и проблема тега «покрытие» из статьи исчезает, достаточно указать фильтры проект+игры или развлечение+игры, и найдутся разные заметки.
А сайт, на котором я использовал систему тегов, я вам в личку отправил.

julos Jul 16 2014 at 18:18

Мы о том и пишем, что если побольше тегов, не только у сообщения, а вообще в системе, то можно проанализировать частотные связи между ними, и вообще говоря, взять на себя смелость экстраполировать запрос по «одному тегу», в запрос по «группе тегов особенно связанных с этим». Чем умнее мы метрику расстояния между тегами рассчитаем, тем более правильно будет работать система.
И не нужны будут «вычитания» тегов, или поиск по 2-3. Математика разрулит.

Nashev Jul 16 2014 at 18:54

Всё равно нужны будут.
Математика может лишь помочь автоматически предлагать более умный выбор, что б такого ищущему предложить дописать в запрос, и что б такого пишущему приписать своей статье. Помочь модератору найти теги-синонимы, теги-подкатегории и т.п.

RMV1983 Jul 16 2014 at 10:14

Теги, конечно же. читают. Иначе — зачем они тогда нужны? Хотя… искать по ним удобно.

maximw Jul 16 2014 at 10:32

По мне так, рубрики — это частный случай тэгов.

Разница только в организации пользовательского итнерфейса и структуры БД, связанная с принимаемыми ограничениями частного случая «рубрики» по сравнению с общим случаем «тэги».

Shablonarium Jul 16 2014 at 10:54

Выскажусь про соотношение тегов и каталогов. С математической точки зрения, теги — это сетевая структура данных, то есть более общий случай категорий, которые лежат в иерархической модели. Поэтому, чтобы теги как минимум не проигрывали, должен быть модерируемый список тегов первого уровня, которые могли бы соответствовать категориям первого уровня, далее идет множество тегов второго уровня, которое соответствует подкатегориям. И в запасе еще остаются простые обычные привычные теги.

julos Jul 16 2014 at 11:38

Мне кажется, что мы в этой статье предложили как все эти «уровни» отношений тегов вычислять, и тем самым сделать из тегового пространства вместо месива big bang, какие-то ассоциации и системы.

Наверное зря для математической части статьи не нарисовал красивых картинок. Придется повторить.

Nashev Jul 16 2014 at 13:22

Картинки надо б к формулам, ага.

zayko Jul 16 2014 at 11:51

Думаю немногие сталкиваются с подобными темами и смогут по достоинству оценить всю прелесть это статьи. Но в любом случае, автору огромное спасибо и респект, вы попытались описать то, что ряду проектов хочется получить в виде технического решения, но, как правило, даже сформулировать задачу, которую вы описываете, является весьма сложно.

Show the best of all time