snikolenko 31 авг 2012 в 18:45

Рекомендательные системы: LDA

3 мин

31K

Блог компании Surfingbird

Туториал

+12

Комментарии 7

Youri_M4U 31 авг 2012 в 22:36

… оказалось, что почти во всех случаях действительно выделяются группы сайтов, объединённые одной темой и достаточно похожие друг на друга.

На мой взгляд, в это мало удивительного.

А какие сайты согласно вашим расчетам входят в ту же группу, что Хабр?

snikolenko 1 сен 2012 в 07:43

Это не удивительно, но хорошо. :)

Хабр большой, мы рекомендуем страницы, а не сайты. Например, вот эта статья попала в компанию к этой и этой. А вот эта – к совсем другим. Но в основном более технические группы, конечно.

david_mz 2 сен 2012 в 13:49

Попытался натравить Mallet на всего-то 800 000 документов — получил out of memory…

snikolenko 2 сен 2012 в 21:03

Так, может, действительно out? Я, честно говоря, не могу с ходу сообразить, какое должно быть потребление – понятно, что минимум число топиков умножить на число документов плюс число слов, но это минимум…

petropavel 18 фев 2013 в 19:04

А как это сравнимо с SVD?

Вроде бы у SVD то преимущество, что темы не заданы заранее, а, как бы, получаются автоматически из распределения слов по документам. И набор оптимальных «тем» не обязательно будет таким, который можно придумать априори.

snikolenko 18 фев 2013 в 19:14

Сравнение с SVD – интересная штука: такой подход на самом деле как раз очень похож на SVD. LDA – это тоже в каком-то смысле разложение «матрицы встречаемости слов в документах» на «произведение» матрицы «слова x темы» и матрицы «документы x темы». Всё в кавычках, но сходство несомненное.

В том, что я тут описывал, контент вообще не участвует, LDA сугубо на лайках запускалась; возможно, мы потом расскажем про то, как контент использовать.

vdmitriyev 3 дек 2015 в 19:35

Одно из самых понятных объяснений LDA метода видел тут.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий