donjenya Mar 21 2013 at 18:04

Диалоги о Big Data

7 min

8.7K

-Привет!

-Здоров. Как ты? Жив?

-Держусь. Можно даже сказать, что бодр и весел. Ну что, будем делать заказ? Какие нынче предпочтенья – дорада на гриле или «Биф фингер мит»?

-Даже не знаю. Скорее второе. А как продвигаются дела на фронте продажи решений в сфере ИТ? Успеваете подвозить «железо» на склад? Или уже образовался дефицит, и приходиться давать не больше двух в одни руки?

-Практически. Скоро будем работать в две смены – с утра продаем, вечером грузим (смеется). Был на форуме «Big Data 2013», который проводили «Открытые системы»?

-Нет, не удалось побывать. Было что-то интересное или опять рассказывали про светлое будущее, которое ожидает нас в ближайшем десятилетии, если все начнут использовать Big Data?

-Я, к сожалению, тоже не был. А с чем связан такой скептицизм в отношении к Big Data?

-В первую очередь с тем, что сейчас за завесой маркетинга сложно увидеть то самое зерно, из которого Big Data должна вырасти и развиться во что-то действительно полезное. В каждом номере журнала или блоге, связанным с ИТ, обязательно попадется какая-нибудь статья или заметка про Big Data, причем в этой статье могут рассказывать про вещи, совершенно не относящиеся к Big Data или относящиеся к ней достаточно опосредовано.

-А ты не допускаешь мысли, что Big Data действительно является новым, и я даже не побоюсь сказать инновационным направлением в IT?

-Давай попробуем разложить по полочкам из чего состоит Big Data, представить её «крупными мазками». Во-первых, это программное обеспечение для хранения данных, содержащее механизмы для записи и чтения данных, то есть некий CRUD генератор и хранящее метаданные, чтобы понимать, что и куда записано. Что для этого программного обеспечения надо из аппаратной части – только вычислительная мощность и память. Причем память может быть, как в виде оперативной памяти, так и в виде жестких дисков. Как ты считаешь, изменились фундаментальные принципы работы процессоров и памяти с 60-х годов?

-Нет, принципы остались те же, но вот мощность и объем памяти выросли на порядки. Поэтому все и говорят, что эпоха Big Data наступила – теперь объем данных в терабайт считается несерьезным.

-Совершенно верно. Жесткие диски, которые появляются на рынке, быстрые и емкие, сложно назвать инновационными, так как принципы работы в них заложены еще при появлении первых компьютеров. Модернизируется, конечно, техническая часть – уменьшаются техпроцессы, появляются новые интерфейсы. Тоже самое можно сказать про процессоры – они становятся меньше, быстрее, но не «инновационее». То есть вся та аппаратная часть, которая используется для Big Data – это по сути, те же старые, добрые диски и процессоры, но теперь есть версии с Flash дисками и многоядерность для взыскательных.

-А что насчет программного обеспечения?

-Вот тут и как раз есть некоторая толика инновационности – тот же Hadoop, точнее одна из его половин — HDFS. Именно она обеспечивает хранение данных в виде распределенной файловой системы и организовывает доступ к ним. Раньше такого действительно не было, хотя представители Teradata тут могут поспорить с тобой. С приходом Hadoop стало возможным сохранять сотни терабайт информации и даже получать какие-то сведения из нее – кстати, это было во-вторых.

-Что ты имеешь ввиду?

-Мало только хранить и читать данные, надо еще извлекать из них то, что нужно. Тут всплывает вторая половина Hadoop – MapReduce, которая как раз и занимается тем, что извлекает и обрабатывает необходимые данные из HDFS. Вот тут наблюдается недостаток инновационности – параллельные вычисления появились с суперкомпьютерами и идея эта не нова. Дуг Каттинг не придумал что-то новое, но разработал фреймворк для распределенных вычислений. Если смотреть на массивно-параллельные архитектуры, то, опять же, Teradata пришла к этому еще в 80-х годах. Так что, если подвести итог, то инновационности в Big Data крайне мало.

-Почему же о ней заговорили только сейчас?

-Технические характеристики современного «железа» позволили хранить и обрабатывать сотни теров – раньше такое было сложно даже вообразить. Дешевые диски плюс многоядерные процессоры.

-И что, вся Big Data состоит из Hadoop?

-Многие пытаются сказать, что они тоже Big Data – все крупные вендоры говорят, что их решения работают с Big Data и предназначены для обработки огромных объемов данных. Oracle, EMC, HP, IBM, Teradata и так далее. Но, по большому счету, Big Data – это Hadoop, какой бы он ни был, хоть Cloudera или Hortonworks, а может MapR. Хотя тут нет единого мнения и многие относят такие решения, как Exadata, Greenplum, Netezza, Paracel, Vertica, Teradata к области Big Data.

-По какой же причине?

-Они могут обрабатывать сравнительно большие объемы данных, несколько десятков или даже сотен терабайт, за приемлемое время.

-C чем же связан весь маркетинг? Неужели вендоры прониклись идеей Hadoop и пытаются всё и всем рассказать о нем?

-Конечно, нет. Кто-то пытается отбить затраты, вложенные в это дело, например, EMC купил Greenplum, HP купил Vertica, IBM купил Netezza, SAP купил Sybase – все это стоило больших денег и теперь надо отбить эти затраты и получить прибыль. Поэтому все вендоры устраивают конференции, пишут статьи в журналы, нанимают евангелистов – все это часть маркетингового плана, чтобы убедить потенциальных заказчиков, что эра Big Data наступила и пора уже покупать. А зачем это надо, заказчик должен придумать сам, готовых решений на рынке нет.

-А Большая Аналитика? Использование Big Data для анализа больших объемов информации?

-А чем она отличается от маленькой? Все математические и статистические методы, применяющиеся для этой аналитики, давно придуманы и описаны – ничего принципиально нового в этой области не появляется. Как использовался математический аппарат, разработанный в 20 веке, так он сейчас и используется. От того, что объемы информации достигли огромных размеров, аналитические методы не поменялись. Покажите мне эту Большую Аналитику…

-Хммм… А что-нибудь слышал про Data Science?

-Конечно. Тяжело об этом не знать, когда все вокруг только и говорят про Data Science.Тот же маркетинг, хотя и имеющий отношение к науке. Давай представим себе процесс анализа данных, например, по модели Data->Information->Knowledge->Wisdom. Значит так – сначала мы получаем данные, в нашем случае это просто последовательность байт. Значения, которые скрываются в этой последовательности байт – это информация, и мы её получаем с помощью метаданных, например в этом столбце хранятся имена, а в том дата рождения. Чтобы перейти на следующий уровень – знание, мы применяем математические и статистические методы к информации и извлекаем из нее некоторое знание, например, мы можем узнать количество людей старше 60 лет в России. Этот факт дает нам некоторое понимание текущей или прошлой ситуации. Мы можем оперировать этой информацией и использовать её в дальнейшем. Но чтобы пойти дальше, на следующий уровень – мудрость, мы применяем уже другие методы – нейронные и семантические сети, машинное обучение, нечеткая логика, то есть все методы, относящиеся к искусственному интеллекту. Мудрость дает нам полное понимание текущей ситуации, то есть мы можем ответить на вопрос: «Почему у нас в России такое количество людей старше 60 лет» или на любой другой вопрос, ответ на который скрыт в данных. Также мы можем составлять прогнозы и проспекты. Data Science – это комбинация методов и подходов из различных областей – тут и машинное обучение, тут и Data Mining, тут и искусственный интеллект, обычная математика, экспертные системы, генетические алгоритмы и так далее, дающая нам понимание, как надо обрабатывать данные, чтобы получать из них мудрость. Очень интересная вещь на самом деле, которая зародилась совсем недавно и находится в начале своего пути. Я с интересом слежу за последними событиями в этой области.

-А что-то принципиально новое появилось вместе с Data Science?

-Пока нет. Люди, которые называют себя data scientist-ами, пытаются применить различные методы из того набора, который давно известен человечеству, и посмотреть на результат. Иногда получаются довольно забавные вещи. Кстати, одна из причин возвращения инфографики – это то, что теперь можно обработать большой объем данных и представить какие-то факты и явления в определенной области в виде цветных диаграмм и графиков. Определенная заслуга в этом принадлежит Data Science. Еще я хотел заметить, что скорость развития этого направления довольна большая. Есть определенные успехи в обработке текстовой и графической информации, видео и аудио. Распознавание смысловой нагрузки, содержащейся в тексте, интеллектуальный поиск, распознавание речи – все это находиться на стыке машинного обучения и Data Science сейчас. Тот же Alpha Dog уже бегает по лесу и не втыкается в каждое дерево.

-Почему же Data Science стала популярной именно сейчас?

-Опять же, появились технические возможности. Сейчас у каждого дома находится суперкомпьютер по меркам 70-х годов. 8 ядер в смартфоне уже никого не удивляют. А купить дисков на пару десятков терабайт может позволить себе даже студент.

-Ну что же, с Data Science понятно. Всё-таки, если отбросить в сторону маркетинговую шумиху, созданную вокруг Big Data, у нее есть какое-то практическое применение?

-Конечно. Объем данных, который генерируется каждый день, просто огромен. Сейчас даже у лампочки есть IP-адрес, точнее MAC, и ты можешь снимать с нее какие-то показатели при большом желании. Можешь устроить Big Data даже дома – установить необходимый показатель освещенности, например, в 300 люкс, снимать с внешнего датчика значение солнечного освещения и регулировать мощность лампочки, чтобы освещенность была 300 люкс всегда. При этом снимать измерения потребляемого тока – если копить такие измерения в течение года, то потом можно понять, сколько электричества тебе понадобиться на следующий год, а также когда лампочка светила на полную мощность, а когда вообще не использовалась. Останется только нарисовать красивую инфографику – и всё, ты в Big Data(смеется). На самом деле, основные коммерческие сферы применения Big Data сейчас видят в коммунальных услугах, рынке недвижимости, транспорте и логистике, складировании, медицине, правительстве, финансах и страховании. В этих областях поток генерируемых данных очень большой и можно его попытаться использовать в своих целях. В научных же целях или изыскательных Big Data можно использовать везде, тут никаких ограничений нет. Но сложность тут состоит в том, что законченного, полного коммерческого решения для Big Data нет, его приходить разрабатывать самому. Наиболее далеко в этом плане продвинулась IBM со своими проектами TheSmarterCity и SmarterPlanet – это, конечно, мощные вещи.

-Звучит, конечно, захватывающе, но есть ли уже проекты, где это реально работает? Вообще, как в России с Big Data?

-Ты знаешь, начинает появляться – все большие вендоры привезли сюда свои «железки» и рассказывают про них – Oracle Big Data Appliance, EMC Greenplum HD и EMC Greenplum MR, IBM BigInsights, Teradata AsterData.

-А что есть люди, которые уже умеют работать с ними? Джависты, понимающие в анализе данных?

-Есть, но немного. Кстати, чтобы работать с Big Data, необязательно знать Java. Та же Cloudera Impala уже вышла в виде бета-версии, так что скоро можно будет работать с Big Data при помощи обычного SQL, при чем в реал-тайме. Хотя R все равно надо изучить…

-И много таких людей?

-Гораздо больше людей, которые говорят, что они работают в области Big Data, но на самом деле не понимают, что это такое. По настоящему знающих людей можно пересчитать по пальцам – я имею ввиду у нас, в России.

-Кто же все это внедряет? Интеграторы вообще знают о Big Data?

-Пока компании внедряют Big Data своими силами. Но, удивительное дело, интеграторы тоже очнулись и в некоторых из них открыли отдел по этому направлению и даже появляются в них люди. IBS, Nvision, Техносерв, ФОРС. Будешь смеяться, но даже в Айтеко открылось направление по Big Data, хотя, казалось бы, зачем госорганам это нужно? Пока про громкие внедрения и проекты не пишут в прессе, но дело идет потихоньку. Тот же Сбербанк открыл направление Big Data в своем R&D центре и что-то там изучает. Вполне возможно, что через пару лет они будут использовать Big Data в своих целях.

Tags:

Hubs:

Big Data