eocron Dec 21 2013 at 20:27

Алгоритм кластеризации данных FTCA

4 min

13K

Algorithms*

From sandbox

+13

Comments 9

UFO just landed and posted this here

eocron Dec 21 2013 at 21:14

Хорошо, сейчас же исправлю =)… исправил. Что-то не подумал, что картинка будет на пол экрана )

grossws Dec 21 2013 at 23:32

Не знал, что с 2010 года используем алгоритм «изобретенный» в конце 2013…

eocron Dec 21 2013 at 23:44

На самом деле все, что можно придумали еще раньше. А если кто-то что-то открывает — все стараются держать в узком кругу. Сейчас все алгоритмы такого плана имеют больше теоретическую важность, чем практическую. Хорошие или понятные алгоритмы редко выдерживают большие объемы данных, а если существуют, то скорее всего там целая куча ускоряющих модулей по навешано, предобработок, проверок и тому подобного.

grossws Dec 21 2013 at 23:56

Это была шутка про то, что данный алгоритм является тривиальным. По крайней мере, описанный в этой статье (оригинал просмотрел только бегло).

Вечная проблема всех алгоритмов кластеризации — выбор метрики, по которой считается расстояние между величинами. Особенно весело — для алгоритмов, работающих на текстах на естественных языках.

eocron Dec 22 2013 at 00:05

Да, тексты на естественных языках действительно очень плохо поддаются сравнению. Это целые категории разнообразнейших анализов смысла этого текста и отдельных слов, групп слов. В итоге можно получать очень забавные результаты на уровне детской логики, а если сохраняется в статистику — не очень хорошо =) В Яндексе и Гуглах до сих пор в запросах можно ересь найти типа «как заточить карандаш салом».

Dalein Dec 22 2013 at 08:27

В свое время, когда стояла задача разделения данных, писал реализацию алгоритма кластеризации семейства FOREL Алгоритм тоже не сложный и дает хорошие результаты

eocron Dec 22 2013 at 12:09

Да, эти результаты будут хорошими если данные кучкуются. Но когда появляется шум (ни то ни се, в текстах это вообще постоянно), то центры выбираются ну совсем плохо… и шум попадает в кластера в больших количествах.

Dalein Dec 22 2013 at 13:20

да, я кластеризовал людей в группе, там было все более менее однозначно

Show the best of all time