Как стать автором
Обновить

Комментарии 22

Наверное будет полезно упомянуть про weka. Это довольно зрелая опесоурс реализация на java большинства алгоритмов применяемых в data mining.
Согласен, про Weka надо бы упомянуть. У них и книга хорошая есть.
А на machinelearning.ru есть не большая страничка, с описанием.
Как бы большие объемы сложно.

weka.wikispaces.com/I+cannot+process+large+datasets+-+any+ideas%3F

Я имел в виду, есть ли что-то подобное отдельному серверу, а не набору классов для обучения.
на Веке базируется Pentaho, тоже опен сорс, но уже охватывает не только Data Mining, но весь Business Inteligence

а насчет больших объемов: если пойти по вашей ссылке, то можно выйти на Massive Online Analysis (сам, если честно, первый раз увидел этот проект)
То что искал!!! Вот уж спасибо!
I`m very young :))

Интересная штука все-таки.

А как на тему опесорс или такого еще не изобрели?
см. Weka и первый комментарий.
Добавил информации по weka и ссылки на книги.
Правильно ли я понимаю что Weka нельзя использовать в закрытых коммерческих проектах?
Там GPL лицензия, такая же как у MySQL. Точно не получиться распространять коммерческое закрытое программное обеспечение использующее weka. Если же можно использовать MySQL без покупки коммерческой лицензии, то для weka этого тоже не понадобиться.
Но MySQL это ведь отдельное приложение, мы его не поставляем со своим, он ставится отдельно. Т.е. если я пишу сайт использующий mysql, то это требование чтобы на сервере стоял майскл, а с моим приложением идут лишь драйвера. В данном случае правда тоже проблема, jdbc длрайвера тоже под GPL, но их уже ставят на стороне application server'а, и мы вроде как тоже не причем. Для PHP и пр. все облегчается тем что с приложением вообще такие библиотеки не могут идти, они ставятся вместе с языком.

А вот с weka я так понимаю другой случай, это все таки именно библиотека, и нам придется на нее завязыватся из своего кода, ну и поставлять со своим приложением. Это ведь уже derivative work, судя по GPL, так?
Лицензия GPL, afair, подразумевает под собой, что вы ничего не приобретаете до тех пор, пока сами ей следуете. Т.е. если вы производите продукт, который так же выходит под GPL — то все в порядке — можете использовать.
Но если вы производите продукт, который не GPL (например, ограничиваете количество копий у пользователя) — то должны приобретать комерческую лицензию и на все компоненты, которые используете при разработке.

Текст лицензии вот тут GNU General Public License
сори, не так прочитал в первый раз, поинт в том что использовать можно, но распространять конечное приложение нельзя? т.е. лишь для внутреннего использования, пусть и внутри коммерческой компании, это можно, но сделать, скажем публичный сайт, использующий weka, уже нельзя, так?
По поводу сайта не могу точно сказать. Это нужно консультироваться с тем кто хорошо разбирается в лицензионных соглашениях. Под распространением имелось ввиду то, что клиент может у себя устанавливать.
Первая книга — хорошая, остальные — не знаю, посмотрю.
Спасибо за топик, очень полезно.
Спасибо, интересная подборка. Половина книг из списка правда уже знакома, остальные взял на заметку :-)
Спасибо.
Давно искал подобную литературу.
Буду использовать её в новом компиляторе.
Я видимо считаю Data Mining частью Computer Science те теоретическую дисциплину иначально. А тут только практические книги я так понимаю? Наверное это имеет смысл но для меня выглядит странным полное отсутствие теор материала. Вот про weka book уже говорили например…
Вы не правильно понимаете. Большинство из представленной литературы — теория.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации