Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Глава InfoWatch Наталья Касперская: большие данные россиян должны принадлежать государству

Информационная безопасность


Глава компании InfoWatch Наталья Касперская в своей беседе с ТАСС заявила, что по ее мнению большие данные россиян должны быть признаны собственностью государства.

«Мое мнение, что эти данные должны являться собственностью государства, потому что пользователи этими данными не обладают. Пользователь отпустил их в информационное пространство, и утекло все, что он там написал. Значит, это не их принадлежность», — приводит слова Касперской информационное агентство.
Читать дальше →
Всего голосов 35: ↑31 и ↓4 +27
Просмотры23.6K
Комментарии 140

Вебинар «Современные базы данных для аналитики: почему DWH лучше строить в облаке?» 18 июня от Mail.ru Group

Mail.ru GroupPostgreSQLОблачные вычисленияАдминистрирование баз данныхBig Data


Привет, друзья.

Хайп вокруг Big Data давно прошёл. Но потребность компаний в отказоустойчивой инфраструктуре для хранения и обработки больших данных стала даже острее. 18 июня мы приглашаем вас принять участие в вебинаре, на котором расскажем про аналитическую СУБД Arenadata DB на основе Greenplum.

Вы узнаете:

  • Как устроен Greenplum и для каких задач лучше использовать эту современную массивно-параллельную, изначально кластерную СУБД
  • Преимущества Greenplum в облаке по сравнению с BareMetal
  • Какие бизнес-задачи можно решать с помощью DWH, в основе которого лежит Greenplum
  • Как настроить и запустить Arenadata DB Cloud на базе Greenplum в облаке Mail.ru Group за пару минут

На вебинаре мы ответим на эти вопросы и расскажем про возможности Arenadata DB, которая теперь доступна в облаке Mail.ru Cloud Solutions

Вебинар пройдет 18 июня (четверг) в 17:00.

Регистрация обязательна, ссылка для подключения будет отправлена сразу после ее прохождения.
Подробнее о вебинаре
Всего голосов 11: ↑10 и ↓1 +9
Просмотры1.3K
Комментарии 1

«Большие данные: не хайп, а индустрия». Митап 1 марта

SouthbridgeIT-инфраструктураData MiningBig DataData Engineering


Приглашаем на митап «Большие данные: не хайп, а индустрия» в понедельник 1 марта. Спикеры из ITSumma и Слёрма представят доклады о Big Data, ответят на вопросы участников. Будем говорить о том, как получать и обрабатывать большие данные, какие выгоды и инсайты сможет получить бизнес при правильной работе с данными и какая обработка данных принесёт вред компании.

Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры808
Комментарии 0

Data-driven митап

X5 Retail GroupData MiningBig DataРазработка под e-commerceData Engineering

X5 выходит на тропу митапов. 2 апреля приходите на онлайн #meetupХ5 по data-driven подходу в наших проектах. Обещаем – все только самое интересное и эксклюзивное от самых главных спецов Big Data X5. С соблюдением дистанции, но с широким виртуальным охватом спикеры Х5 не только поговорят о последних разработках Х5, но и ответят на ваши вопросы.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры598
Комментарии 0

Mail.ru Group открыла новый набор на бесплатное обучение в Академию больших данных MADE

Mail.ru GroupBig DataУчебный процесс в IT

За полтора года студенты Академии MADE смогут бесплатно освоить одну из востребованных специальностей – дата-аналитика, дата-инженера или специалиста по машинному обучению. Заявки принимаются по 31 июля на сайте Академии больших данных MADE.

Программа Академии больших данных MADE рассчитана на ИТ-специалистов с опытом от одного до трех лет, которые хотят построить карьеру в области работы с большими данными. Студенты Академии будут не только изучать теорию, но и решать реальные задачи из практики Mail.ru Group. Они научатся создавать модели машинного обучения для высоконагруженных сервисов, осуществлять прикладной анализ данных, обработку больших данных и естественного языка, работать с компьютерным зрением и распознаванием речи — и многому другому. 

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры1.1K
Комментарии 1

Оффер за 2 дня в X5: для Data Analyst/Data Scientist

X5 Retail GroupPythonData MiningBig DataData Engineering

Если ваш конёк — работа с большими данными, приглашаем на Weekend Offer в X5 Group. 

Мы сокращаем дистанцию до двух дней: 6-го июня интервью, 7-го июня оффер.

Откликнуться можно тут https://your.gms.tech/v/v6xoYc1w?tg=apply&s=tg

Читать далее
Всего голосов 9: ↑4 и ↓5 -1
Просмотры2.2K
Комментарии 0

Microsoft выпустила математическую библиотеку, оптимизированную для работы в Облаке: Cloud Numerics

Microsoft
На этой неделе Microsoft анонсировала выпуск нового продукта для Azure и платформы .Net — Microsoft Codename “Cloud Numerics” Lab. Это математическая библиотека способная параллельно обрабатывать большие объемы данных в облаке. Она также позволяет масштабировать вычислительные модели, реализованные на C# для Windows Azure.

Выпуск этой библиотеки явился плодом труда нескольких лет серьезной работы специалистов в области параллельных вычислений и вычислительной математики. Значительная часть этих работ была выполнена Российским подразделением Microsoft.

Эта библиотека предоставляет легкую в использовании модель программирования скрывающую сложность разработки распределенных алгоритмов, доступ к .NET библиотеке численных алгоритмов состоящих из широкого набора функций. От элементарных, до сложных статистических и функций линейной алгебры. Cloud Numerics также дает возможность запускать программы в Azure и получать доступ к неограниченным вычислительным мощностям в облаке.

Читать дальше →
Всего голосов 41: ↑33 и ↓8 +25
Просмотры7.8K
Комментарии 5

MapReduce 2.0. Какой он современный цифровой слон?

Big DataПараллельное программирование


Если ты ИТшник, то нельзя просто так взять и выйти на работу 2-го января: пересмотреть 3-ий сезон битвы экстрасенсов или запись программы «Гордон» на НТВ (дело умственных способностей вкуса).
Нельзя потому, что у других сотрудников обязательно будут для тебя подарки: у секретарши закончился кофе, у МП — закончились дедлайны, а у администратора баз данных — амнезия память.
Оказалось, что инженеры из команды Hadoop тоже любят побаловать друг друга новогодними сюрпризами.

2008


2 января. Упуская подробное описание эмоционально-психологического состояния лиц, участвующих в описанных ниже событиях, сразу перейду к факту: поставлен таск MAPREDUCE-279 «Map-Reduce 2.0». Оставив шутки про число, обращу внимание, что до 1-ой стабильной версии Hadoop остается чуть менее 4 лет.

За это время проект Hadoop пройдет эволюцию из маленького инновационного снежка, запущенного в 2005, в большой снежный com ком, надвигающийся на ИТ, в 2012.
Ниже мы предпримем попытку разобраться, какое же значение январский таск MAPREDUCE-279 играл (и, уверен, еще сыграет в 2013) в эволюции платформы Hadoop.
...
Всего голосов 39: ↑33 и ↓6 +27
Просмотры24.7K
Комментарии 11

Изучаем Storm Framework. Часть I

JavaПараллельное программирование
Tutorial
В 2011 году Twitter открыл, под лицензией Eclipse Public License, проект распределенных вычислений Storm. Storm был создан в компании BackType и перешел к Twitter после покупки.

Storm это система ориентированная на распределенную обработку больших потоков данных, аналогичная Apache Hadoop, но в реальном времени.

Ключевые особенности Storm:
  • Масштабируемость. Задачи обработки распределяются по узлам кластера и потокам на каждом узле.
  • Гарантированная защита от потери данных.
  • Простота развертывания и спровождения.
  • Восстановление после сбоев. Если какой либо из обработчиков отказывает, задачи переадресуются на другие обработчики.
  • Возможность написания компонентов не только на Java. Простой Multilang protocol с использованием JSON объектов. Есть готовые адаптеры для языков Python, Ruby и Fancy.

В первой части рассматриваются базовые понятия и основы создания приложения c использованием Storm версии 0.8.2.
Читать дальше →
Всего голосов 21: ↑21 и ↓0 +21
Просмотры34.4K
Комментарии 10

Изучаем Storm Framework. Часть II

JavaПараллельное программирование
Tutorial
В первой части рассматривались базовые понятия Storm.

Разные классы задач предъявляют различные требования к надежности. Одно дело пропустить пару записей при подсчете статистики посещений, где счет идет на сотни тысяч и особая точность не нужна. И совсем другое — потерять, например, информацию о платеже клиента.

Далее рассмотрим о механизмы защиты от потери данных, которые реализованы в Storm.
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры11.7K
Комментарии 5

Изучаем Storm Framework. Часть III

JavaПараллельное программирование
Tutorial
Во второй части статьи рассказывалось о механизмах обнаружения ошибок в процессе обработки.

Обработка завершилась с ошибкой, что делать дальше? Вполне возможно, что потеряна связь с одним из узлов кластера или временно недоступна база данных. В этом случае, нельзя с уверенностью сказать, какие операции выполнились успешно, а какие — нет. Если все операции в цепочке повторно применимы (идемпотентны), например установка флага, то можно просто перезапустить обработку. Если нет, то на помощь приходят механизмы транзакций Storm.
Читать дальше →
Всего голосов 5: ↑4 и ↓1 +3
Просмотры7.9K
Комментарии 2

Искусственный интеллект и Почему мой компьютер меня не понимает?

Искусственный интеллект
Перевод


Гектор Левекwiki утверждает, что его компьютер тупой. И ваш тоже. Siri и голосовой поиск Google умеют понимать заготовленные предложения. Например «Какие фильмы будут показывать неподалёку в 7 часов?» Но что насчёт вопроса «Может ли аллигатор пробежать стометровку с барьерами?» Такой вопрос никто раньше не задавал. Но любой взрослый может найти ответ на него (Нет. Аллигаторы не могут участвовать в беге с барьерами). Но если вы попытаетесь ввести этот вопрос в Google, то получите тонны информации о спортивной команде по лёгкой атлетике Florida Gators. Другие поисковые системы, такие как Wolfram Alpha, тоже не способны найти ответ на поставленный вопрос. Watson, компьютерная система выигравшая викторину «Jeopardy!», вряд ли покажет себя лучше.
Читать дальше →
Всего голосов 94: ↑87 и ↓7 +80
Просмотры84K
Комментарии 146

Архитектура BigData-инфраструктуры сервиса Pandorama и защита ее данных от сбоев

Veeam SoftwareСистемное администрированиеВиртуализацияВосстановление данныхРезервное копирование

Если мантра Google звучит как “поиск всей информации в мире одним кликом”, то мантра молодого российского проекта Pandorama идет дальше: “найдем без клика всю интересную вам информацию”.



Приложение Pandorama предлагает своим пользователям “бесконечную” персонализированную ленту новостей, составленную на основе их личных информационных предпочтений, не требуя при этом от читателя работы с “тегами”, “категориями” или “лайками” друзей. Сначала нужно ответить на пару вопросов про несколько забавных панд, а потом нужно просто… читать предлагаемую ленту. Те новости, которые вы прочитали, будут автоматически анализироваться и обрабатываться системой, с тем, чтобы в дальнейшем такого рода новостей в ленте становилось все больше, а тех новостей, которые не вызвали у вас интереса – все меньше.



Pandorama

Pandorama уже объединяет более 40 тыс. пользователей по всему миру, и это число постоянно растет. В данной статье рассматривается BigData-инфраструктура этого проекта, функционирующая в режиме 24x7, механизмы обеспечения ее отказоустойчивости, и защита ее данных от сбоев, построенная с использованием Veeam Backup & Replication Cloud Edition.


Читать дальше →
Всего голосов 24: ↑21 и ↓3 +18
Просмотры9.9K
Комментарии 25

HBase, загрузка больших массивов данных через bulk load

JavaBig DataHadoop
Привет коллеги.
Хочу поделиться своим опытом использования HBase, а именно рассказать про bulk loading. Это еще один метод загрузки данных. Он принципиально отличается от обычного подхода (записи в таблицу через клиента). Есть мнение, что с помощью bulk load можно очень быстро загружать огромные массивы данных. Именно в этом я решил разобраться.
Читать дальше →
Всего голосов 10: ↑9 и ↓1 +8
Просмотры9.7K
Комментарии 5

ETL-процесс с использованием веб-сервисов в Integration Services 2012

Data MiningMicrosoft SQL ServerBig Data
Tutorial

Запасаем впрок


Иногда в процессе работы бывают нужны данные из веб-сервисов, тем более SOAP соединения сегодня практически стандарт.

ETL-процесс (Extract — Transform — Load) это термин из Business Intelligence и описывает процесс сбора и трансформации данных для создания аналитической базы данных (например хранилища данных).

SOAP протокол обмена данных и веб-сервисы описываемые WSDL — распространенные окна в мир практически всех ERP систем, многих онлайн порталов и финансовых организаций.

Попробую описать пошагово ETL процесс с помощью одного из мощнейших инструментов в классе — MS Integration Services.

Итак, рассмотрим тестовую задачу.

Задача



Необходимо собрать данные о курсах валют по отношению к рублю на каждую дату прошлого года и загрузить их в таблицу для последующего анализа. Центробанк России предоставляет историчекие данные — в виде веб сервисов с неплохим описанием.
Похоже это и есть решение.
Читать дальше →
Всего голосов 6: ↑5 и ↓1 +4
Просмотры15.7K
Комментарии 3

Dremel. Как Google считает в real-time?

Высокая производительностьBig Data
Dremelмасштабируемая система обработки запросов в режиме близком к режиму реального времени (near-real-time), предназначенная для анализа неизменяемых данных [4].

Авторы research paper [4] (среди которых, судя по всему, и наши соотечественники — Сергей Мельник и Андрей Губарев), в котором описываются базовые принципы и архитектура Dremel, заявляют, что система в силах:
  • выполнять агрегирующие запросы над боле чем над триллионом строк за секунды;
  • масштабируется на тысячи CPU;
  • предназначена для работы с петабайтами данных;
  • имеет тысячи пользователей внутри Google (дословно «at Google» [4]).

UPD1: ниже картинка-дежавю для внимательных читателей.


Читать дальше →
Всего голосов 28: ↑25 и ↓3 +22
Просмотры14.6K
Комментарии 9

Google Photon. Обработка данных со скоростью света*

Высокая производительностьBig Data
Photon – масштабируемая, отказоустойчивая и географически распределенная система обработки потоковых данных в режиме реального времени. Система является внутренним продуктом Google и используется в Google Advertising System. Research paper [5], описывающие базовые принципы и архитектуру Photon, был представлен на научной конференции ACM SIGMOD в 2013 году.

В paper [5] заявлено, что пиковая нагрузка на систему может составлять миллионы событий в минуту со средней end-to-end задержкой менее 10 секунд.
* 'Скорость света' в заголовке — наглая ложь гипербола.


Читать дальше →
Всего голосов 39: ↑33 и ↓6 +27
Просмотры17.5K
Комментарии 14

Персонализация и анализ данных в оффлайн-ритейле

Студия Михаила Кечинова
Перевод


Мы перевели интересную обзорную статью о перспективах персонализации в оффлайн-ритейле. Рекомендуем почитать, что об этом думают лидеры отрасли персонализации пользовательского опыта

Представьте, когда вы заходите в магазин, все о вас всё знают: имя, размеры, историю покупок, даже ваши взгляды на жизнь, на окружающий мир, вообще на все.

Как вы будете себя чувствовать? Как знаменитость или как жертва маниакального преследования?

То, как вы ответите, повлияет и уже влияет на будущее розничной торговли, которая в данный момент переживает радикальную трансформацию, движимую анализом big data в реальном времени.
Читать дальше →
Всего голосов 7: ↑6 и ↓1 +5
Просмотры4K
Комментарии 0

Hive vs Pig. На что мне столько ETL?

Data MiningBig DataHadoop
Tutorial
image

Лучше день потерять, но потом за пять минут долететь (с)



Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.
Читать дальше →
Всего голосов 25: ↑22 и ↓3 +19
Просмотры17.9K
Комментарии 38