Comments 11
Слишком толсто.) Патриотичнее нужно быть.
Заголовок спойлера
image

И заметье, статью править не придется вообще.
Хабрахабр — не для односложных публикаций. Мы тоже любим смешные комиксы, весёлые фотожабы и угарные видеоролики. Но мы просматриваем их на других сайтах, потому что они для этого и предназначены, а Хабрахабр — нет. Всевозможные «прикольные ссылки» без развёрнутого комментария тоже лучше оставить за бортом.

Короче говоря, «шуткануть» лучше в другом месте.
С Серовым статья для меня выглядела бы куда серьезнее, так какое-то ребячество.
Поясните, пожалуйста:
при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).
Вы правы: с первого взгляда с СКО (к примеру) легче работать, его интерпретация интуитивна, т.к. оно выражено в тех же единицах, что и сама величина. Но тут играют роль и математическая традиция, и некоторый выигрыш от использования дисперсии — мерой разброса случайной величины. У величины во второй степени меняется масштаб — числа проще сравнивать, легче определять выбросы/разброс (у нас же стоит задача выбрать наиболее вариативную величину, правильно?). Есть и еще один аспект: дисперсия — положительная величина, поэтому оперировать с кумулятивной дисперсий проще, достаточно вспомнить свойство аддитивности дисперсии независимых величин: Var(X1 +… + Xn) = Var(X1) +… + Var(Xn).
И действительно, выбирая число главных компонент, главное — с водой не выплеснуть и ребенка.
Поясните, пожалуйста:
при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).
Only those users with full accounts are able to leave comments. Log in, please.