Как стать автором
Обновить

Комментарии 7

… оказалось, что почти во всех случаях действительно выделяются группы сайтов, объединённые одной темой и достаточно похожие друг на друга.

На мой взгляд, в это мало удивительного.

А какие сайты согласно вашим расчетам входят в ту же группу, что Хабр?
Это не удивительно, но хорошо. :)

Хабр большой, мы рекомендуем страницы, а не сайты. Например, вот эта статья попала в компанию к этой и этой. А вот эта – к совсем другим. Но в основном более технические группы, конечно.
Попытался натравить Mallet на всего-то 800 000 документов — получил out of memory…
Так, может, действительно out? Я, честно говоря, не могу с ходу сообразить, какое должно быть потребление – понятно, что минимум число топиков умножить на число документов плюс число слов, но это минимум…
А как это сравнимо с SVD?

Вроде бы у SVD то преимущество, что темы не заданы заранее, а, как бы, получаются автоматически из распределения слов по документам. И набор оптимальных «тем» не обязательно будет таким, который можно придумать априори.
Сравнение с SVD – интересная штука: такой подход на самом деле как раз очень похож на SVD. LDA – это тоже в каком-то смысле разложение «матрицы встречаемости слов в документах» на «произведение» матрицы «слова x темы» и матрицы «документы x темы». Всё в кавычках, но сходство несомненное.

В том, что я тут описывал, контент вообще не участвует, LDA сугубо на лайках запускалась; возможно, мы потом расскажем про то, как контент использовать.
Одно из самых понятных объяснений LDA метода видел тут.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий