Comments 9
UFO just landed and posted this here
Не знал, что с 2010 года используем алгоритм «изобретенный» в конце 2013…
+1
На самом деле все, что можно придумали еще раньше. А если кто-то что-то открывает — все стараются держать в узком кругу. Сейчас все алгоритмы такого плана имеют больше теоретическую важность, чем практическую. Хорошие или понятные алгоритмы редко выдерживают большие объемы данных, а если существуют, то скорее всего там целая куча ускоряющих модулей по навешано, предобработок, проверок и тому подобного.
0
Это была шутка про то, что данный алгоритм является тривиальным. По крайней мере, описанный в этой статье (оригинал просмотрел только бегло).
Вечная проблема всех алгоритмов кластеризации — выбор метрики, по которой считается расстояние между величинами. Особенно весело — для алгоритмов, работающих на текстах на естественных языках.
Вечная проблема всех алгоритмов кластеризации — выбор метрики, по которой считается расстояние между величинами. Особенно весело — для алгоритмов, работающих на текстах на естественных языках.
0
Да, тексты на естественных языках действительно очень плохо поддаются сравнению. Это целые категории разнообразнейших анализов смысла этого текста и отдельных слов, групп слов. В итоге можно получать очень забавные результаты на уровне детской логики, а если сохраняется в статистику — не очень хорошо =) В Яндексе и Гуглах до сих пор в запросах можно ересь найти типа «как заточить карандаш салом».
0
Sign up to leave a comment.
Алгоритм кластеризации данных FTCA