Pull to refresh

Comments 10

Наличие тэгов "хабр", "хабрахабр", "habrahabr", "livejournal','жж' путает сильно, да.
Можно сделать ассоциированные теги. В самом простом виде, когда несколько тегов привязаны к одному каноническому и автоматом заменяются на него когда попадаются. Типа "хабр" для "хабрахабр", "habrahabr".

Но автоматом составление таблицы ассоциаций очень геморройное, вручную будет проще. Отслеживать автоматом появление новых тегов и давать их модератору или автору поста с предложением отметить его как самостоятельный и дать синонимов или ассоциировать с уже существующим.
На last.fm таким образом приводятся названия треков и исполнителей к эталонному.

Вот только неизвестно, автоматически или нет.
точно не автоматически. они уже полтора года "думают" как это сделать. не хотелось бы чтобы тут было также.
Я сейчас привязываю похожее к своему сайту и долго бился с автоматической привязкой, в итоге пока забил на нее. Самая большая проблема, в общем-то, понятная, она и в IR классическая: невозможность автоматического определения синонимов, антонимов, омонимов и независимых терминов по обычном множествам терминов. На очень больших объемах и используя тяжелую артиллерию из морфологию, синтаксический и семантический анализ предложений, можно было бы. Но это как строить год пушку, чтобы пристрелить из нее пару воробьев.

Нормально можно было бы автоматизировать связывание однокоренных или просто похожих слов по двум признакам: похожие контексты и близкое сходство, хоть растояние левенштейна. Это могло бы связать, например, "улучшения хабра" и "улучшения хабрахабра", но все-равно не смогло бы связать "ЖЖ юзер" и "пользователь livejournal".
Можно вбить несколько более-менее очевидных и частоиспользующихся в этой сфере синонимов.
Таких как "хабр-хабрахабр и тд", "ЖЖ - LJ - Livejournal", "пользователь - юзер - user", "blog-блог-weblog" и так далее.

Это разгрузит до некоторой степени модераторов и им не придётся править такие рутинные и однообразные тэги. А без них тут никуда.
ну да, я и предложил это в самом начале - ввести синонимы вручную
явно напрашивается сервис, который предоставлял бы всем желающим такую базу синонимов. Тоесть на сайте сервиса формируется (силами добровольцев конечно же, мы же 2.0) такой список синонимов, пополняеясь ежечасно, а то и ежесекундно.

А другие сайты, использующие тэги, мог ли бы использовать данный сервис на своих сайтах для отбрасывания мусора.

Идею патентую за собой. При запуске сервиса, сделать ссылку на меня. :-)))))
Латиница - зло? Ну извините! Мне лично претит писать в тегах "Гугл" вместо "Google". "Ассоциированные теги", т.е. возможность сервера "слить" два тега в один - это да, интересно, но при создании этой фичи аргумент "латиница - зло" использоваться явно не должен...
там написано что запрещать -- зло, неправильно то есть.
наоборот. надо сводить к уместному и устоявшемуся термину. и уж точно не переводить названия (имена собственные, названия компаний и т.п.).
Sign up to leave a comment.

Articles