Data Mining
Big Data
Hadoop
Облачные сервисы
Искусственный интеллект
29 октября

Закат эпохи Big Data

Из песочницы
Множество иностранных авторов сходятся к тому, что эпоха Big Data подошла к концу. И в данном случае под термином Big Data понимаются технологии, основанные на Hadoop. Многие авторы, даже могут с уверенностью назвать дату, когда Big Data оставила этот мир и эта дата — 05.06.2019.

Что же произошло в этот знаменательный день?

В этот день, компания MAPR обещала приостановить свою работу, если не сможет найти средства для дальнейшего функционирования. Позднее, в августе 2019 года MAPR был приобретен компанией HP. Но возвращаясь к июню нельзя не отметить, трагичность этого периода для рынка Big Data. В этом месяце произошел обвал биржевых котировок акций компании CLOUDERA – ведущего игрока на обозначенном рынке, которая произвела слияние с хронически неприбыльным HORTOWORKS в январе этого же года. Обвал был весьма существенен и составил 43%, в конечном итоге капитализация CLOUDERA снизилась с 4,1 до 1,4 миллиарда долларов.

Невозможно не сказать, что слухи о надувании пузыря в сфере технологий, базирующихся на Hadoop, ходили еще с декабря 2014 года, но он мужественно продержался еще почти пять лет. Слухи эти основывались на отказе Google, компании в которой зародилась технология Hadoop, от своего изобретения. Но технология, прижилась, на время перехода компаний к облачным средствам обработки и бурного развития искусственного интеллекта. Поэтому, оборачиваясь назад, можно с уверенностью сказать, что кончина была ожидаемой.

Таким образом, эра Big Data подошла к концу, но в процессе работы над большими данными компании осознали все нюансы работы над ними, выгоды, которые Big Data может принести бизнесу, а также научились пользоваться искусственным интеллектом для извлечения ценности из сырых данных.

Тем интереснее становится вопрос о том, что же придет на смену этой технологии и как будут дальше развиваться технологии аналитики.

Дополненная аналитика


Во время описываемых событий, компании, работающие в сфере анализа данных, не сидели на месте. О чем можно судить исходя из информации о сделках, произошедших в 2019 году. В текущем году была осуществлена крупнейшая сделка рынка – приобретение Salesforce аналитической платформы Tableau за 15,7 млрд. долларов. Менее крупная сделка произошла между Google и Looker. Ну и конечно нельзя не отметить приобретение компанией Qlik — биг дата платформы Attunity.

Лидеры рынка BI и специалисты Gartner заявляют о грандиозном сдвиге в подходах к анализу данных этот сдвиг полностью разрушит рынок BI и приведет к замене BI на AI. В данном контексте необходимо отметить, что аббревиатура AI это не «Artificial intelligence» а «Augmented Intelligence». Давайте поближе рассмотрим, что скрывается за словами «Дополненная аналитика».

Дополненная аналитика, как и дополненная реальность базируется на нескольких общих постулатах:

  • возможностью общаться с использованием NLP (Natural Language Processing), т.е. на человеческом языке;
  • использование искусственного интеллекта, это значит, что данные будут предварительно обработаны машинным интеллектом;
  • и конечно же рекомендации, доступные пользователю системы, которые как раз-таки сгенерировал искусственный интеллект.

По мнение производителей аналитических платформ, их использование будет доступно для пользователей не обладающим специальными навыками, такими как знание SQL или подобного скриптового языка, не имеющих статистической или математической подготовки, не обладающими знаниями в области популярных языков, специализирующихся на обработке данных и соответствующих библиотек. Такие люди, называемые «Citizen Data Scientist», должны обладать лишь выдающейся бизнес квалификацией. Их задача – уловить бизнес-инсайты из подсказок и прогнозов, которые будет давать им искусственный интеллект, а уточнять свои догадки они смогут, используя NLP.

Описывая процесс работы пользователей с системами такого класса можно представить себе следующую картину. Человек, приходя на работу и запуская соответствующее приложение помимо привычного набора отчетов и дэшбордов, которые можно анализировать стандартными подходами (сортировка, группировка, выполнение арифметических действий) видит определенные подсказки и рекомендации, что-то типа: «Для того, чтобы достичь KPI по количеству продаж вам следует применить скидку на продукты из категории «Садоводство»». Кроме этого человек, может обратиться к корпоративному мессенджеру: Skype, Slack т.д. Может задать роботу вопросы, текстом или голосом: «Выведи мне пять самых прибыльных клиентов». Получив соответствующий ответ, он должен принять оптимальное решения, исходя из своего опыта в бизнесе и принести компании прибыль.

Если сделать шаг назад, и взглянуть на состав анализируемой информации, и на этом этапе продукты класса дополненной аналитики могут упростить жизнь людям. В идеале предполагается, что пользователю потребуется лишь указать аналитическому продукту на источники желаемой информации, а программа сама позаботится о создании модели данных, связке таблиц и тому подобных задачах.

Все это должно, прежде всего, обеспечить «демократизацию» данных, т.е. любой человек может заниматься анализом всего массива имеющейся у компании информации. Процесс принятия решений должен быть подкреплен методами статистического анализа. Время доступа к данным должно быть минимальным, так как не требуется писать скрипты и SQL запросы. Ну и конечно, можно будет сэкономить на высокооплачиваемых Data Science специалистах.

Гипотетически технологии открывают весьма радужные перспективы для бизнеса.

Что заменяет Big Data


Но, собственно, начал я свою статью с Big Data. И развить эту тему я не мог без краткого экскурса в современные BI инструменты, базой для которых, часто и служит Big Data. Судьба больших данных теперь четко предрешена, и это облачные технологии. Я акцентировал внимание на сделки, совершенные с BI производителями с целью демонстрации, что теперь каждая аналитическая система имеет под собой облачное хранение, а облачные сервисы имеют BI в качестве front end.

Не забывая о таких столпах в сфере баз данных как ORACLE и Microsoft необходимо отметить избранное ими направление развития бизнеса и это облако. Все предлагаемые сервисы можно найти в облаке, но некоторые облачные сервисы уже нельзя получить on-premise. Ими проделана значительная работа по использованию моделей машинного обучения, созданы библиотеки доступные пользователям, настроены интерфейсы для удобства работы с моделями от ее выбора до установки времени старта.

Еще одним важным преимуществом использования облачных сервисов, которое озвучивается производителями, является наличие практически неограниченных дата сетов по любой тематике, для тренировки моделей.

Однако, возникает вопрос, насколько облачные технологии приживутся в нашей стране?

+8
12,4k 63
Комментарии 28