Открыть список
Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Dell Solutions Forum 2015: как это было

Блог компании Dell TechnologiesBig Data
Привет, Хабр! Как вы, возможно, еще помните, в октябре мы провели в Москве свой очередной, уже четвертый по счету, Форум решений Dell 2015 – самое масштабное ежегодное мероприятие для заказчиков и партнеров.

Как и в прошлом году, хотим рассказать тем из вас, кто не смог на нем поприсутствовать (но очень хотел), что же там происходило. Тех из вас, кто провел с нами весь день 21 октября в гостинице «Рэдиссон Славянская», призываем поделиться своими впечатлениями о форуме в комментариях.



Итак, приглашаем всех под кат.
Читать дальше →
Всего голосов 12: ↑8 и ↓4 +4
Просмотры4.5K
Комментарии 0

Как живется Data Mining компании: задачи и исследования

Блог компании DM LabsData MiningBig Data
Привет, Хабр!

Наконец дошли руки Пришло время рассказать, чем занимается наша компания DM Labs в области анализа данных, помимо образовательной деятельности (о ней мы уже писали 1).

За прошлый год мы начали плотно сотрудничать с институтом роботехники fortiss при Техническом университете Мюнхена (TUM) (совместно учим роботов не убивать людей), выпустили прототип антифрод системы, участвовали в международных конференциях по машинному обучению, и, самое главное, смогли сформировать сильную команду аналитиков.

Теперь DM Labs объединяет в себе уже три направления: исследовательскую лабораторию, разработку готовых коммерческих решений и обучение. В сегодняшнем посте мы расскажем о них подробнее, подведем итоги прошедшего года и поделимся целями на будущее.
Читать дальше →
Всего голосов 27: ↑23 и ↓4 +19
Просмотры16.7K
Комментарии 16

Hadoop и автоматизация: Часть 1

Блог компании EPAMHadoop
Привет, коллеги!

Последние пару недель я трудился над интереснейшим (с моей точки зрения) занятием, которое представляло собой создание Hadoop-as-a-Service решения для приватного облака нашей компании. В первую очередь мне было интересно, что же за зверь Hadoop, почему так часто сейчас слышны сочетания слов Big Data и Hadoop. Для меня знакомство с Hadoop началось с чистого листа. Конечно же, я не являлся и не явлюясь Big Data специалистом, посему вдавался в суть на столько, на сколько необходимо было для понимания процессов в разрезе автоматизации развертывания кластера.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры12.1K
Комментарии 6

Apache Spark: что там под капотом?

Data MiningBig DataHadoop

Вступление


В последнее время проект Apache Spark привлекает к себе огромное внимание, про него написано большое количество маленьких практических статей, он стал частью Hadoop 2.0. Плюс он быстро оброс дополнительными фреймворками, такими, как Spark Streaming, SparkML, Spark SQL, GraphX, а кроме этих «официальных» фреймворков появилось море проектов — различные коннекторы, алгоритмы, библиотеки и так далее. Достаточно быстро и уверенно разобраться в этом зоопарке при отсутсвие серьезной документации, особенно учитывая факт того, что Spark содержит всякие базовые кусочки других проектов Беркли (например BlinkDB) — дело непростое. Поэтому решил написать эту статью, чтобы немножко облегчить жизнь занятым людям.
Читать дальше →
Всего голосов 25: ↑22 и ↓3 +19
Просмотры44.2K
Комментарии 12

Сериал: Big Data — как мечта. Незапланированная 5-я серия: Большая игра. Частное мнение

Блог компании PalitrumLabData MiningTwitter APIBig DataОткрытые данные
Recovery mode
В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data.

11 апреля Twitter объявил о прекращении контракта с DataSift. Казалось бы, ну и что? Фактически это означает начало Большой Игры, результаты которой можно сравнить с III Мировой. Звучит жутковато? Давайте расставим фигуры на доске и посмотрим.
Читать дальше →
Всего голосов 19: ↑12 и ↓7 +5
Просмотры11.5K
Комментарии 3

Аналитический обзор рынка Big Data

Блог компании Московская БиржаBig Data
«Big Data» — тема, которая активно обсуждается технологическими компаниями. Некоторые из них успели разочароваться в больших данных, другие — напротив, максимально используют их для бизнеса… Свежий аналитический обзор отечественного и мирового рынка «Big Data», подготовленный Московской Биржей совместно с аналитиками «IPOboard», показывает, какие тренды наиболее актуальны сейчас на рынке. Надеемся, информация будет интересной и полезной.
Читать полностью...
Всего голосов 21: ↑16 и ↓5 +11
Просмотры98.8K
Комментарии 19

Сериал: Big Data — как мечта. 10-я серия: Стандартный облом

Блог компании PalitrumLab
В начальных сериях упоминалось, что человечество, в силу своего общественного настроя («стадности»), в итоге всегда затаптывает любой росток футуристичности: кто-то обнаруживает новую тенденцию, следом придумывается красивое название, маленькая толпа евангелистов бегает с новым фетишем, огребая шишки от ретроградов, затем толпы болельщиков с криками и лозунгами (например, «Хотим Big Maк!» или «Дайте нам Big Data!») затаптывают евангелистов в чернозем, и последний аккорд — когда под модными лозунгами бизнесовые Скрудж Макдаки проворачивают свои финансовые делишки.

Сегодняшнее заявление Скруджей из МТС и Билайна о продаже банкам и скоринговым структурам, под флагом «Big Data» (это-то тут при чем?), поведенческих наборов данных своих пользователей — зачётный финал умирающего черного лебедя.
Читать дальше →
Всего голосов 11: ↑6 и ↓5 +1
Просмотры3.9K
Комментарии 3

Сколько твитов нужно, чтобы узнать ваш характер?

Блог компании PalitrumLabСемантикаData MiningBig Data
Экстенсивный рост количества неструктурированных данных (твитов, постов, комментов, фото и видео), генерируемый человечеством – и фантастические возможности, и головная боль для многих старых и новых индустрий.

На днях мы уже приводили фактографию по объемам количества сообщений, производимых человечеством в сутки, понятно, что миллиарды высказываний требуют совершенно других решений и технологий. «Старые» (ужас, прошло 3-5 лет, и уже старые) подходы и люди, их разрабатывающие, борются за место под солнцем. Но…

image

В качестве классического примера приводим перевод недавнего материала от подразделения IBM Watson:
Читать дальше →
Всего голосов 19: ↑14 и ↓5 +9
Просмотры16.5K
Комментарии 7

Строим надёжный процессинг данных — лямбда архитектура внутри Google BigQuery

SQLData MiningBig Data
В этой статье хочу поделиться способом, который позволил нам прекратить хаос с процессингом данных. Раньше я считал этот хаос и последующий ре-процессинг неизбежным, а теперь мы забыли что это такое. Привожу пример реализации на BiqQuery, но трюк довольно универсальный.

У нас вполне стандартный процесс работы с данными. Исходные данные в максимально сыром виде регулярно подгружаются в единое хранилище, в нашем случае в BigQuery. Из одних источников (наш собственный продакшн) данные приходят каждый час, из других (обычно сторонние источники) данные идут ежедневно.

В последствии данные обрабатываются до состояния пригодного к употреблению разнообразными пользователями. Это могут быть внутренние дашборды; отчёты партнёрам; результаты, которые идут в продакшн и влияют на поведение продукта. Эти операции могут быть довольно сложными и включать несколько источников данных. Но по большей части мы с этим справляется внутри BigQuery с помощью SQL+UDF. Результаты сохраняются в отдельные таблицы там же.
Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры19.5K
Комментарии 2

Деревья, у которых нет листьев

Блог компании LingualeoИсследования и прогнозы в IT
Tutorial

Результат мечта


Facebook опубликовал статью о так называемом aha-moment, в которой утверждалось, что если пользователь добавляет 7 друзей в течение 10 дней после регистрации, то этот пользователь остается на сервисе.

Почему этот результат (aha-момент) такой притягательный?
Потому что он:
а) простой
б) осмысленный
в) actionable


Когда есть такой результат, сервису остается просто сделать все, чтобы мотивировать пользователей добавлять 7 друзей в первые 10 дней, и тем самым идти к более высокой цели: “увеличению retention rate”.

А сможем ли мы повторить?


Читать дальше →
Всего голосов 18: ↑11 и ↓7 +4
Просмотры4.9K
Комментарии 12

UBA, или ищем пользователей «с отклонениями»

Блог компании INLINE TechnologiesИнформационная безопасность


В конце 2000-х годов в ИТ появился термин «big data», означающий серию подходов, инструментов и методов обработки структурированных и неструктурированных данных больших объемов для получения воспринимаемых человеческим глазом результатов.

Разумеется, использование этих подходов не могло не распространиться на решения по обеспечению информационной безопасности. Примерно с 2012 года в сфере ИБ стало очень популярным словосочетание «big data security analytics». Всё больше и больше игроков на рынке ИБ стали использовать в своих продуктах технологии аналитической работы с большими объемами данных. Параллельно с этим началось активное применение алгоритмов машинного обучения.

Результатом такой интеграции стало значительное увеличение функциональных возможностей продуктов. А производители SIEM вообще заявили о рождении нового поколения своих решений. С этим трудно поспорить – действительно, аналитика в части обнаружения угроз и оценки рисков вышла на совершенно иной уровень.

Читать дальше →
Всего голосов 4: ↑2 и ↓2 0
Просмотры6.4K
Комментарии 0

Зачем нужно еще больше дата-центров: сегодня и завтра аналитики больших данных

Блог компании КонтелData MiningBig DataМашинное обучение
Зачем хранить столько данных в строящихся все больше и больше дата центрах? Одна из сфер применения биг дата — прогнозная аналитика. Она отвечает на вопросы: что значат эти цифры о нас, где сейчас используется аналитика и что будет через три года?

Прогнозирование — основа оптимизации


Количество данных растет со скоростью, которую человеку невозможно вообразить. Данные ничто без анализа. Только невообразимое количество закодированной в единицы и нули информации. Зачем строят новые дата-центры? Что и почему хранится, а также обрабатывает в их глубинах?

Мы все наслышаны о контекстной рекламе, показ которой основывается на наших предпочтениях, о которых поисковые машины узнают из наших действий онлайн. Но вот про остальные сферы мало кто говорит широкой публике. А ведь кроме того, что биг дата в сумме с прогнозной аналитикой позволяет рекламодателям и банкам зарабатывать невероятные деньги, они помогают спасать человеческие жизни.


Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Просмотры4.8K
Комментарии 0

International Space Apps Challenge: хакатон от NASA

Блог компании MicrosoftBig DataМашинное обучение
Мы не так часто рассказываем здесь про мероприятия, но про это было сложно промолчать. Если вы фанатеете от космоса и NASA, хотите защитить нашу планету и её жителей, любите работать с данными и совершать новые открытия на их основе, вам точно захочется поучаствовать в International Space Apps Challenge. По катом вы узнаете про 5 основных задач, которые вам предстоит решить.


Читать дальше →
Всего голосов 23: ↑22 и ↓1 +21
Просмотры5.5K
Комментарии 2

Вести с полей больших и умных данных: программа конференции SmartData 2017 Piter

Блог компании JUG Ru GroupАнализ и проектирование системAPIBig DataМашинное обучение
В 2016/2017 годах мы обнаружили, что на каждой из наших конференций есть 1-3 доклада о Big Data, нейросетях, искусственном интеллекте или машинном обучении. Стало понятно, что под эту тему можно собрать хорошую конференцию, о чём я сегодня вам и расскажу.

Вкусно: мы решили собрать под одной крышей учёных, инженеров-практиков, архитекторов и сделать упор на технологии — казалось бы, обычное дело, но нет.

Сложно: копнув глубже, можно увидеть, что отдельными вопросами все занимаются не сообща, а врозь.

Учёные строят нейросети в теории, архитекторы делают распределённые системы для корпораций с целью обработки огромных потоков данных в реальном времени, без конечной цели унифицировать к ним доступ, инженеры-практики пишут под это всё софт для сугубо узких задач, которые потом нереально перенести на что-то другое. В общем, каждый копает свою грядку и не лезет к соседу… Так? Да нет же!

На деле: Все занимаются частью общего. Как сама Smart Data (а «умные данные» — это очень узкий перевод) по природе своей, так и те, кто с ней работает, по сути, делают распределённую сеть различных наработок, которые могут создавать порой неожиданные сочетания. Это и формирует фундамент Умных данных в своей красоте и практической значимости.

Итак, что это за кусочки паззла и кто их создает, можно будет посмотреть и даже обсудить с создателями на конференции SmartData 2017 Piter 21 октября 2017. Подробности под катом.

image

Дальше будет много букв, мы же за большие и умные данные, хотя исторически анонс подразумевает быстрый и ёмкий текст, краткий и точный, как выстрел снайпера в ясную летнюю ночь.
Читать дальше →
Всего голосов 38: ↑36 и ↓2 +34
Просмотры4.1K
Комментарии 4

5 инновационных способов использования машинного обучения

Data MiningBig DataМашинное обучение
Из песочницы
Привет, Хабр! Представляю вашему вниманию перевод статьи «5 Innovative Uses for Machine Learning» автора Aj Agrawal.

image

Они придут в вашу жизнь, по крайней мере, в вашу деловую жизнь раньше, чем вы думаете. Хотя временной горизонт пришествия не может быть точно предсказан, искусственный интеллект (АI) обещает фундаментально повлиять на современное общество, к лучшему или к худому. Сверх уровень (АI)-машинное обучение получил особое внимание со стороны экспертов по причине потенциально мощнейшего воздействия на наиболее важные, мировые отрасли производства. Из-за возникшего ажиотажа, огромное количество талантов и ресурсов вливаются в это пространство.

Но что же такое, это машинное обучение и почему мы должны заботиться об этом в первую очередь? Ответ в том, что в самом широком смысле, модели машинного обучения приложений ИИ используют алгоритмы самостоятельного прогнозирования исходов. Другими словами, эти модели могут обрабатывать гигантские массивы данных, извлекать выводы и делать точные прогнозы без необходимости значительного вмешательства человека.

Множество значимо-генеративных последствий порождается в результате ускоренного развития этой технологии, и большая их часть готова значительно упростить деловой мир.

А вот пятерка самых новаторских способов использовать машинное обучение. Они придут в вашу жизнь, по крайней мере, в вашу деловую жизнь-раньше, чем вы того ожидаете.
Читать дальше →
Всего голосов 22: ↑13 и ↓9 +4
Просмотры8.9K
Комментарии 7

Продуктовая аналитика ВКонтакте на базе ClickHouse

Блог компании ВКонтактеSQLBig Data


Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.
Читать дальше →
Всего голосов 37: ↑33 и ↓4 +29
Просмотры15.9K
Комментарии 12

Опыт разработки требований к профессиональным качествам data scientist

Занимательные задачкиBig DataМатематикаУправление персоналомIT-компании
Сегодня практически любой бизнес ощущает потребность в исследовании данных. Data science не воспринимается как нечто новое. Тем не менее, не для всех очевидно, каким должен быть нанимаемый специалист.

Данная статья написана не HR-специалистом, а дата сайнтистом, поэтому стилистика изложения весьма специфична, но в этом есть и преимущество – это взгляд изнутри, позволяющий понять, какие качества data scientist являются необходимыми для профессии, для того, чтобы компания могла положиться на такого человека.


Пролог


Пришло время, когда data science стартап вырос из пеленок — число задач для анализа возросло с непредвиденной скоростью, и эта скорость сразу же перестала компенсироваться автоматизацией. Стало очевидно, что нужны новые мозги в команду…

Как мне сначала казалось, человек требовался вполне определенный: всего лишь обычный дата-что-то-там… программист, аналитик, статистик. Так в чем же сложность составить список требований?

“В инженерном деле, если не знаете, что делаете — не стоит этого делать.”
Ричард Хэмминг

Подошел я к делу как обычно. Достал два листа бумаги. Один озаглавил «Технические навыки», другой — «Профессиональные качества». После этого возникло желание полезть на какой-нибудь ресурс, найти там пачку резюме, выписать списки качеств, выбрать те, что понравятся. Но что-то меня остановило. “Это не мой способ, — сказал я себе. — Я в этом не разбираюсь. Я разбираюсь в задачах..”
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры5.9K
Комментарии 22

Статистика сайта и своё маленькое хранилище

Open sourceSQLSQLiteХранилища данныхВеб-аналитика
Утилита Webalizer и инструмент Google Analytics помогали мне много лет получать представление о том, что происходит на веб сайтах. Сейчас я понимаю, что они дают очень мало полезной информации. Имея доступ к своему файлу access.log, разобраться со статистикой очень просто и для реализации достаточно элементарных инструментов, таких как sqlite, html, языка sql и любого скриптового языка программирования.

Источником данных для Webalizer является файл access.log сервера. Так выглядят его столбики и цифры, из которых понятен лишь общий объём трафика:

image
Читать дальше →
Всего голосов 28: ↑26 и ↓2 +24
Просмотры5.1K
Комментарии 2

Как оптимизировать pandas при работе с большими datasetами (очерк)

Python
Tutorial
Когда памяти вагоны и/или dataset небольшой можно смело закидывать его в pandas безо всяких оптимизаций. Однако, если данные большие, остро встает вопрос, как их обрабатывать или хотя бы считать.

Предлагается взглянуть на оптимизацию в миниатюре, дабы не вытаскивать из сети гигантские датасеты.

В качестве датасета будем использовать хабрастатистику с комментариями пользователей за 2019 г., которая является общедоступной благодаря одному трудолюбивому пользователю:
dataset

В качестве инфо-основы будет использоваться ранее переведенная статья с Хабра, в которой намешано много интересного.
Читать дальше →
Всего голосов 12: ↑10 и ↓2 +8
Просмотры4.2K
Комментарии 8

Последний рубеж обороны QA: автоматическое обнаружение ошибок

Блог компании DINSТестирование IT-системОтладкаТестирование веб-сервисовУправление разработкой


Привет! Меня зовут Асхат Нурыев, я ведущий инженер по автоматизации в компании DINS.

Я работаю в Dino Systems последние 7 лет. За это время пришлось заниматься разными задачами: от написания автоматических функциональных тестов до тестирования производительности и высокой доступности. Постепенно я стал больше заниматься организацией тестирования и оптимизацией процессов в целом.

В этой статье я расскажу:

  • Что делать, если баги уже просочились на продакшн?
  • Как побороться за качество системы, если ошибок уже руками не счесть и глазами не пересмотреть?
  • Какие подводные камни встречаются при автоматической обработке ошибок?
  • Какие бонусы можно получить от анализа статистики запросов?
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры4.6K
Комментарии 9
1