GeorgijArchipov Mar 29 2016 at 19:11

Блеск и нищета Big Data

4 min

8.5K

Data Mining*Big Data*Machine learning*

Comments 8

yusman Mar 30 2016 at 09:40

Без обид, но ваша статья — какая-то «вода», прикрытая «Бихдатой».

Sartor Mar 30 2016 at 12:17

Все эти разговоры от того, что на самом деле никто точно не знает что такое Big Data. Относитесь к этому как к бренду. Для науки каких революций не произошло с появлением этого "бренда" — наоборот всё плавно и эволюционно улучшается, хотя темп реально растёт.

BalinTomsk Mar 30 2016 at 19:19

---никто точно не знает что такое Big Data

изначально предназначалось для баз, размеры которых не могут держать реляционные базы. Но сейчас даже реляционные легко хранят петабайты, поэтому термин давно утерял свое значение.

MrEsp Apr 4 2016 at 09:14

В отрасли занимаются Big Data в любом случае, без формального определения. И в целом успешно. Неважно, сколько петабайт хранит база. Если в эту базу новых данных не поступает — мы получаем один setting, в рамках которого живем, если же туда в день приходит по 200 ГБ — совсем другой сеттинг. Занимаемся ли мы анализом собранных данных, строим ли мы витрины данных, есть ли у нас необходимость в близкой к real time обработке — условия могут быть самые разные.

tsafin Mar 30 2016 at 15:58

Узнал для себя новое слово "интеллигибельный".

SergeIndex Apr 5 2016 at 10:46

"единственным выходом из положения является тот или другой способ сведения таких не табличных данных к табличному виду"

крайне спорный тезис. Табличный вид — очень серьезное упрощение тех мысленных структур, в которых мыслит аналитик, и имеет непреодолимые органические недостатки. Хотя, конечно, далеко не для всех задач эти недостатки существенны.

Все проблемы со структурами данных возникают из-за того, что эти структуры строятся не на основе концептуальной модели предметной области (концептуальное моделирование — развитая дисциплина с отличным инструментарием), а "как лошадь пойдет". Точнее — как программист увидит. Потом люди удивляются, почему не удается соединить данные из одной странной таблицы с другой.
Вопрос объема выборки не имеет никакого значения, если неправильно построена модель, на основе которой делается расчет. А построить модель таким образом, чтобы она давала практически пригодные результаты в широком диапазоне условий, можно только начав процесс создания расчетной модели с концептуального моделирования.

GeorgijArchipov Apr 16 2016 at 19:07

Благодарю, что нашли время для прочтения и комментария моей заметки. Вы, конечно же, правы – если бы все данные из определенной предметной области формировались на основе некой стандартной упорядочивающей модели, то BIG DATA свелись бы к простому использованию мощных компьютеров. К сожалению, нет никаких шансов принудить даже часть людей к использованию такой модели, каковой бы она не была. Отмечу, между прочим, что не разделяю Вашей высокой оценки концептуального моделирования. Обобщенное программирование в духе Мэтью Г. Остерна, на мой взгляд, лучше подошло бы для этой цели.
Остановимся и еще на одном моменте. Далеко не «все проблемы со структурами данных возникают» от того, что данные формируются «как лошадь пойдет». Точнее — как программист увидит». На протяжении многих лет разрабатывая алгоритмы обучения, максимально приближенные к накоплению и использованию опыта у человека-эксперта, я столкнулся с вариантами сложной структурированности больших данных, порождаемых самой природой проблемы, а не хаотичностью в умах тех или иных алгоритмистов или программистов. Но вернемся к основной теме разговора.
Разумеется таблица – это упрощение, способ задания структур порядка на множестве символов, отвечающий плоскостным интуициям восприятия, связанных с письменностью на листе (есть ведь и узелковая, и иные письменности). Однако лишь в 17-ом веке эта упорядоченность приобретает характер, обеспечивающий определенного рода сопоставимость символов, стоящих в тех же столбцах и тех же строках. В частности — эта таблица «объект-признак». Различие исследований, скажем, Аристотеля и Бэкона именно в том, что последний мыслит уже в табличных терминах. Таким образом понимаемая таблица знаменует интеллектуальную революцию и было бы интересно узнать о «тех мысленных структурах, в которых мыслит аналитик» и которые не укладываются в табличную схему. Конечно, отдельного разговора заслуживает хаос и связанные с ним «структуры», но это уже за рамками обсуждаемого.

SergeIndex Apr 16 2016 at 19:25

Насчет стандартной упорядочивающей модели — еще одно популярное заблуждение. Немало умных людей чуть ли не жизни положили на ее придумывание, хотя постановка такой задачи заведомо лишена смысла. История вопроса изложена у Дж. Сова в книге «Knowledge representation: Logical philosophical and computational foundations».

«Концептуальная модель» не есть «стандартная упорядочивающая модель». Наоборот, она может и должна быть уникальной для каждой локализуемой области, в которой решаются определенные задачи. Методика построения такой модели может быть до определенной степени формализована, но и тут есть множество нюансов, которые диктуют выбор разных способов моделирования в разных конкретных случаях. Критерий выбора методики, структуры самой модели — вопрос исключительно прагматический. Если построенная каким-то образом модель позволяет решить прикладную задачу с удовлетворяющей заказчика степенью точности, значит, это правильная методика и хорошая модель.

Остерна не читал, поэтому высказывать мнение об обобщенном программировании не стану; не уверен правда, что вообще можно сравнивать концептуальное моделирование с методикой программирования — слишком разные вещи. Личные вкусы есть у каждого, но чтобы обоснованно что-то критиковать, нужно в этом разбираться.

По поводу сложной структурированности, порождаемой сложностью проблемы — был бы рад увидеть пример. В любом случае, человек, приступая к решению задачи, должен ее так или иначе охватить разумом, что неизбежно влечет создание концептуальной схемы. Если этого сделать нельзя, то задача либо бессмысленна, либо не решаема. Точнее, наверное, можно заниматься гаданием на основе частичных представлений о задаче и смутных интуиций, но это уводит нас в область творчества, а не рационального познания.

Достоинство же концептуального моделирования состоит в способности отразить любой набор представлений, возникших в человеческой голове.

Show the best of all time