kt2k Apr 10 2009 at 20:00

Полуавтоматическое добавление тегов — решение

8 min

474

Lumber room

+11

Comments 9

namata Apr 10 2009 at 20:44

Экспериментировал так:
1. Стемминг
2. Отсечение мусора
3. Набор слов и словосочетаний по каждые два и три слова, идущие подряд
4. Сопоставление с базой синонимов
5. Поиск терминов (тегов в вашем случае) по найденным синонимам
6. Выбор наиболее подходящего из ассоциированных терминов (тегов) (один и тот же синоним может относиться к разным терминам) определяя дальность по графу терминов
7. Сохранение нераспознанных сочетаний в архив, чтобы предложить позже пользователю, как накопится некоторое количество с предположением возможных связей с другими.

Может у вас что получится хорошее.

maxic Apr 11 2009 at 01:57

Можно еще семантически подойти к данному вопросу. Так будет даже правильнее :)

sergeant Apr 10 2009 at 21:24

думаю, будет не лишним приведение слов к их начальной форме. облегчает понимание, более человечно.

Ueasley Apr 10 2009 at 21:27

А почему не на клиентской стороне?

И не gule, а glue, если уж на то пошло.

wolandino Apr 10 2009 at 21:35

Я реализовал нечто подобное для ключевых слов к загружаемому контенту (видео, текст, аудио, картинка) на одном из проектов.
На входе пользователю предоставлялся список заранее отобранных ключевых слов для конкретного типа контента — он постоянен. Если мы загружаем видео можно увидеть что-то вроде «ролик, видео, фильм, клип» и.т.д.
По клику например, на «ролик» вытаскивался список наиболее релевантных (точнее часто используемых с этим тегом) ключевых слов. Списки сохранялись в БД в виде дерева, и перегенерировались время от времени.