Pull to refresh

Comments 7

Спасибо, интересное изложение «крупными мазками».

я бы добавил ещё мазок про то, что такое «сопряжённым априорным распределением», что апостериорное распределение принадлежит тому же классу, что и априорное распределение, т.е. после всех махинаций оценки модели, мы находим оценки искомых параметров, через новые параметры, при этом и априорное и апостериорные распределения оказываются, что принадлежать одному и тому же классу (впрочем у вас лучше получается объяснять)
Да, про сопряжённые априорные из этого текста не должно было быть понятно. :)
Про них надо отдельно говорить при случае, начиная с монетки.
Спасибо за ваши статьи! Лучшие материалы по данной теме на русском языке.
Подскажите пожалуйста, как можно решить вопрос о количестве тем? Насколько я знаю, MALLET определяет оптимальное количество тем ещё на этапе конструирования модели, но я использую gensim. Да и вообще интересно, какие варианты существуют?
Лично я обычно на глаз подбираю. :)

Вообще существует отдельное большое направление, связанное с непараметрическими байесовскими методами. Ключевые слова — Dirichlet processes, например, Chinese restaurant process. Там получается модель (в том числе и LDA получается), которая сама подбирает число тем. Надо будет как-нибудь реализовать и попробовать это физически.
Это называется «экспертная оценка») Но для диплома мне надо что-нибудь более убедительное)
Как я понял, два других метода — это перплексия и на основе расстояния Кульбака — Лейблера. На второе мне не хватает памяти, так что займусь первым, тем более что в gensim для этого есть инструменты.
perplexity с ростом числа тем будет, скорее всего, монотонно меняться, это же как правдоподобие фактически

тут нужен метод model selection вроде BIC/AIC скорее
Sign up to leave a comment.