sashaeve Jun 2 2010 at 01:00

Data Mining: что внутри

4 min

48K

Data Mining*

+56

Comments 47

Nazarii Jun 2 2010 at 02:24

Прошу продолжения. Мне интересны инструменты и применения.

+15

Setti Jun 2 2010 at 10:49

Многие способы применения действительно интересны. Например, правильно настроенная SAS может показать корпоративных клиентов, которые собираются сделать крупные приобретения в ближайшие несколько месяцев.

Archi_Pro Feb 7 2018 at 14:21

извините, а что значит правильно настроенный SAS?

klz Jun 2 2010 at 13:36

Обратите свое внимание на QlikView. так же есть еще и опенсорсные решения.

niksite Jun 3 2010 at 02:58

Интересен в первую очередь личный опыт использования (в формате хабра-статьи).

Инструментов то очень много и все разные, от бесплатных (по большей части академических) до сильно дорогих от фирм уровня IBM.

nolled Jun 2 2010 at 09:42

Это первая статья из цикла, посвященного data mining / extracting / web mining. Пожелания и аргументированная критика принимаются.
А что собственно будет в статьях? Обзор алгоритмов и/или обзор существующего ПО?

niksite Jun 3 2010 at 02:59

Вот-вот. Мне тоже очень этот вопрос интересен. Автор — ау?

sashaeve Jun 3 2010 at 11:52

Больше сконцентрируемся на web mining и готовых инструментах, библиотеках. Хотя буду смотреть по интересу читателей.

gasyoun Dec 8 2011 at 19:53

ПО интереснее.

VasilioRuzanni Jun 2 2010 at 09:42

О, снова эта крутая тема, напоминающая мне про мой диплом :)
Правда тогда, в далеком 2005-м, мной не затрагивался Web Mining — а сейчас для меня это самое интересное, так что ждем продолжения.

SeoZybr Jun 2 2010 at 14:49

На тему web mining, есть несколько разработок отечественных, например тот же Аваланч.
www.tora-centre.ru/avalanche.htm

Они уже лет 5 на рынке предлагают свои услуги по конкурентной разведке. В деталях я не очень, но им известно порядка 19 способов обращения к документам на различного типа веб серверах и просто серверах. 20-й способ — это обращение через систему линков :)

Многие скептически относятся к их системе, но когда видишь чего они достигли и где используются их наработки… Ну и стоимость, дорого…

Есть новые системы, коммерческого назначения youscan.ru — сканируют 90% соц. медиа, аналог presscan.ru

На самом деле не очень ясно, что из этого относится именно к Web Mining, т.к. везде присутствуют элементы Data Mining…

Danov Jun 2 2010 at 14:51

… и Text Mining

andrew_tch Jun 2 2010 at 09:47

Академично и бессмысленно, но части будет интересно. Хотя, я хочу посмотреть как вы будете генетический анализ в экселе делать )

sashaeve Jun 2 2010 at 11:09

Вы не поверите, но что-то подобное уже есть. Или например, вот.

andrew_tch Jun 2 2010 at 11:15

я знаю, что можно. не скажу что оптимально.
все-таки не тот софт и не тот уровень у мс пока что.

Danov Jun 2 2010 at 11:59

Evolver — классная штука, ей уже лет 10, если не больше.

demoded Jun 2 2010 at 09:48

поддерживаю! хотелось бы практический пример раскопок(mining)

LittleMeN Jun 2 2010 at 10:57

Практическое применение это Микроформаты, Микродата и RDF…

z_z Jun 2 2010 at 11:41

ну это не IR, это курам на смех какойто

hom Jun 2 2010 at 10:23

Прощу продолжения в направлении Web Mining

Setti Jun 2 2010 at 10:43

Обожаю такие вещи. Особенно интересует инструментарий BI

Setti Jun 2 2010 at 10:51

Добавлю, что ведущие исследователи называют BI и облачные вычисления центральными технологиями в приоритетах информационной индустрии этого, и, возможно следующего года.

sashaeve Jun 2 2010 at 11:03

Спасибо за комментарии. Дальше более детально будем рассматривать web mining и все, что с ним связано.

UFO just landed and posted this here

Danov Jun 2 2010 at 12:03

Надеюсь, что ваши статьи будут более информативны. А пока я обнаружил блок «Задачи, решаемые Data Mining», чуть ли не дословно повторяющий мною вбитый в википедию три года назад.

sashaeve Jun 2 2010 at 12:07

Да, этот блок был взят из вики, но для списка задач, думаю, это не критично.

Danov Jun 2 2010 at 12:30

Рассмотрите примеры задач, только плз, не из учебников, а лучше из реальной жизни. В открытом доступе опубликовано очень мало реальных примеров.

В учебных примерах, обычно, все решается очень красиво. В реальности такое редкость.

hr0nix Jun 2 2010 at 12:54

В списке решаемых задач классификация — это слишком узко. Например, незаслуженно забыта регрессия. Я бы предложил заменить на что-то типа «восстановление неизвестной зависимости по ее реализациям».

Danov Jun 2 2010 at 13:33

Добавлю от себя:

Классификация — сопоставление вектора признаков элементам (элементу) множества, возможно, с выводом степени похожести.

Регрессия — сопоставление входного вектора (скаляра) другому вектору (скаляру), т.е. построение модели вида Y = f(X).

Lord_Daedra Jun 2 2010 at 12:56

Хорошая тема.

Давайте про конкретные реализации, BI решения (OLAP, data mining, индикаторы, отчёты, ETL). Лучше всего — на примере opensource систем. :-)

Fractalus Jun 2 2010 at 14:16

Более бестолковой фразы чем эта «Для сокращения избыточности информации были придуманы математические формулы», я еще не встречал.

sashaeve Jun 2 2010 at 14:20

Как, по вашему, должна звучать фраза?

Marillion Jun 4 2010 at 01:22

Очевидно, это операция поиска закономерностей, то есть сжатия информации.

-1

sashaeve Jun 4 2010 at 09:52

Как относится операция поиска закономерностей к сжатию информации?

Marillion Jun 4 2010 at 11:08

Это прикладной анализ данных (ПАД), который основан на применении гипотезы компактности.

В основе гипотезы компактности положена идея сжатия данных, состоящая в том, что если найден способ сжатого описания множества объектов, то получены эмпирические закономерности, существующие между объектами, а значит и сходство между ними. Соответственно, чем сильнее удается сжать данные, тем это сходство больше, а избыточности меньше.

sashaeve Jun 4 2010 at 14:16

Спасибо, но разве ваше объяснение очевидно?

Marillion Jun 4 2010 at 18:21

Вполне очевидное объяснение для всех специалистов, которые занимаются Data Mining.

sashaeve Jun 4 2010 at 19:06

Легкий поиск по интернетах показал, что сочетание гипотезы компактности и data mining встречается крайне редко. Это, конечно, не говорит о том, что вы не правы, просто я действительно не слышал об этом. Если можно, дайте ссылку (и), где об этом написано более детально.

Marillion Jun 4 2010 at 19:10

В ВУЗах Украины и России нет такого понятия, как data mining — в основном его называют прикладным анализом данных. А гипотеза компактности относится к задачам классификации — посмотрите в google.

metronix Jun 2 2010 at 14:16

Сейчас пишу диплом как раз связанный с data mining, используя ассоциативные правила с нечёткой дискретизацией и ограничениями. Теперь вот размышляю как бы это всё дальше развить из учёбной задачи, ибо в стол писать не хочется) Если кто-нить тоже занимается и есть планы то стучитесь, могу и сам присоединиться к проекту =)

з.ы. Могу кстати про парочку алгоритмов написать если хабрасообществу интересно, хотя часть из них и так не плохо освещены)

sashaeve Jun 2 2010 at 14:19

Тогда присоединяйтесь к нашему проекту.

DIegoR Jun 2 2010 at 20:58

А напишите что-нибудь в свое резюме?

Fractalus Jun 2 2010 at 14:33

Математические формулы (и в общем-то вся математика) придуманы для аналитического описания окружающей нас действительности. Сокращение избыточности информации — это конкретная задача, решаемая конкретными способами, в том числе и математическими. Из ваших слов складывается впечатление, что кроме избыточности математика не решает больше никаких задач. Извините задело за живое

sashaeve Jun 2 2010 at 14:48

Вы очень буквально восприняли фразу. Описание закона притяжение в словесной форме и с помощью математической формулы, по сути, несут в себе одинаковую смысловую нагрузку для человека. Но словесное описание занимает гораздо больше байт информации чем формула. Соответственно, математическая формула позволяет сократить описание закона без потери смысловой нагрузки. Поэтому в данном случае словесное описание является избыточным.

-1

Fractalus Jun 2 2010 at 17:07

Какая наука может быть более буквальной нежели математическая? (вопрос риторический)

mezastel Jun 21 2010 at 15:56

Где найти продолжение?

sashaeve Jun 21 2010 at 16:07

Скоро будет.

Show the best of all time