Как стать автором
Обновить
82.68

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Хранение данных: почему важно защищать не только сеть, но и само устройство

Время на прочтение5 мин
Количество просмотров2.7K

В последнее время вопрос безопасности данных обсуждается очень широко, но довольно часто речь идет прежде всего о защите сети. В современных условиях это вполне объяснимо, ведь процент сотрудников, работающих дистанционно, постоянно увеличивается и мы все сильнее полагаемся на облачные технологии. Однако выбор правильного способа защиты самого устройства хранения данных остается не менее актуальным вопросом.

Для обеспечения безопасности данных необходимо внимательно проанализировать все компоненты — системы, аппаратное оборудование, программное обеспечение и приложения, чтобы определить возможности для улучшения существующей инфраструктуры. Более того, работа самых передовых средств защиты данных должна не только обеспечивать идеальные результаты, но и быть практически незаметной для конечных пользователей.

Возможности для улучшения инфраструктуры хранения данных есть, и в этой статье мы рассмотрим четыре области, в который уже сейчас существуют доказавшие свою эффективность концептуальные решения, позволяющие, как показывают свежие данные, добиться серьезных позитивных изменений.

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Комментарии2

Big data. Математика на службе биологии

Время на прочтение15 мин
Количество просмотров8.2K
Автор сообщества Фанерозой, биотехнолог, Людмила Хигерович.

image
Так или иначе, каждый человек, использующий масс-медиа, краем уха слышал о “биг дата”. Однако что это такое на самом деле, за границами ИТ мало кто представляет. И еще меньше людей знают о том, насколько сильно наш сегодняшний мир, каким мы его знаем, зависит от этого малопонятного термина. При этом речь идет не только об обработке больших потоков данных новостей или запросов браузера, или социальных сетей. Сегодня мы расскажем вам о том, как технологии Big Data помогают расширять границы науки.
Читать дальше →
Всего голосов 28: ↑28 и ↓0+28
Комментарии13

Решение задач, возникших в результате развития централизованной архитектуры транспортных средств

Время на прочтение4 мин
Количество просмотров519

Становясь все более мощными устройствами, современные подключенные автомобили (connected vehicles) со временем имеют все шансы стать настоящими центрами обработки данных на колесах. Блоки управления, примененные в новых моделях, выполняют гораздо более широкую функцию, чем простая передача информации пользователю, они обеспечивают выход в интернет, управляют бортовыми информационно-развлекательными системами и поддерживают работу голосового управления, в том числе совершение телефонных звонков в бесконтактном режиме «хендс-фри». Согласно некоторым прогнозам, уже в следующем году будет сделан еще один шаг к появлению полностью централизованных архитектур для подключенных автомобилей. Однако некоторые важнейшие задачи, стоящие на этом пути, все еще остаются нерешенными.

Расширение сетевых функций окружающей нас городской инфраструктуры будет сопровождаться значительным увеличением количества взаимодействий между транспортным средством и окружающими его объектами (V2X, Vehicle-to-Everything), а также объемов создаваемых данных. Результатом этого станет возникновение новых задач, связанных с хранением данных, поскольку критически важная информация должна регистрироваться и передаваться через блоки управления и бортовые системы автомобиля.

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Python и чистая архитектура в 2021 году

Время на прочтение11 мин
Количество просмотров24K

Прошло уже почти 3 года с тех пор, как я впервые воспользовался чистой архитектурой на практике. С тех пор я побывал на многочисленных конференциях, где выступал с докладами на эту тему (вот, например, доклад Clean Architecture in Python с конференции PyGotham 2018). Кроме того, я написал статью о чистой архитектуре на Python, которая попала в рассылку RealPython.com … но сейчас заканчивается 2021 год, и мы ушли далеко вперед. Давайте рассмотрим, как развился Python, изучим разные крутые библиотеки, благодаря которым реализовывать чистую архитектуру на Python сегодня стало гораздо проще.

Сначала вспомним о том, зачем она нужна.

Читать далее
Всего голосов 10: ↑9 и ↓1+8
Комментарии1

Истории

Строим Data Vault на данных TPC-H – Greenplum + dbtVault

Время на прочтение8 мин
Количество просмотров7.8K

Привет! На связи Артемий – энтузиаст в сфере Data Warehousing, Analytics, DataOps.

Уже продолжительное время я занимаюсь моделированием DWH с использованием dbt, и сегодня пришло время познакомить вас с package для построения Data Vault – dbtVault.

В публикации:

Готовим датасет TPC-H

Поднимаем кластер Greenplum в Яндекс.Облаке

Погружаемся в кодогенерацию и макросы dbtVault

Cимулируем инкрементальное наполнение Data Vault

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

КРОК проведет первый Market ИТ-решений

Время на прочтение1 мин
Количество просмотров1.3K

КРОК открывает регистрацию для участия в Market ИТ-решений — презентация 40 партнеров-разработчиков, чьи решения вошли в продуктовый портфель ИТ-компании за все время организации акселерационных программ.

Основатели поделятся кейсами внедрения в крупнейшие корпорации России, в том числе в финансовых и страховых организациях, Oil&Gas, FMCG и ритейле.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Заметки по языку R | Часть 1: Построение нетипичных диаграмм, и подписи данных в ggplot2

Время на прочтение5 мин
Количество просмотров4.6K

В ноябре 2018 года я запустил телеграм канал R4marketing. Канал посвящён языку R, посты канала разделены по рубрикам, одна из таких рубрик "Заметки по R". В эту рубрику входят небольшие публикации, с интересным или полезными советами по использованию R.

Этой статьёй я начинаю серию публикаций состоящих из подборок наиболее полезных заметок канала R4marketing.

Первая статья будет посвящена визуализации данных.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Нельзя просто взять и влиться в data-driven — на что обратить внимание при внедрении такого подхода

Время на прочтение5 мин
Количество просмотров3.2K

Привет, Хабр! Мы в Х5 очень любим данные и умеем с ними обращаться. Недавно мы провели «Цифровой четверг» — дискуссию с представителями ИТ-компаний, облачных провайдеров и телекомов.

На встрече обсудили data-driven подход: кейсы, «грабли» и базовые моменты, о которых стоит знать. Решили поделиться ключевыми мыслями по её итогам.

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии1

Почему каждому Дата-сайентисту нужен Инженер данных?

Время на прочтение4 мин
Количество просмотров2.8K

Дата-сайентист назван «самой сексуальной профессией 21-го века». The Harvard Business Review обьясняет это тем, что такой «гибрид хакера, аналитика, переговорщика и ценного советчика» — очень редкое сочетание навыков, и высоко оплачивается. 

Слишком хорошо, чтобы быть правдой? По данным Forbes, да. Оказывается, что большую часть времени (до 79%) дата-сайентисты занимаются ненавистной им работой. 

Читать далее
Всего голосов 10: ↑7 и ↓3+4
Комментарии3
Привет, Хабр! Вы когда-нибудь задумывались, что чувствовали люди, создавшие паровую машину? А запустившие первый двигатель? Первый летательный аппарат? Они делали что-то первыми и видели результаты своей работы. Примерно это сейчас переживают айтишники, работающие на производстве. Они видят, как IT-проекты улучшают процессы и приносят прибыль. Один тимлид сказал, что IT — это техномагия: она появляется извне и трансформирует производство. Мы попросили рассказать наших ребят о своих проектах и о том, с чем они сталкиваются на производстве. Подробности, как эта техномагия выглядит изнутри, — под катом.
Читать далее
Всего голосов 34: ↑29 и ↓5+24
Комментарии10

«От категорий к векторам», или нестандартное кодирование категориальных данных. Часть 2

Время на прочтение7 мин
Количество просмотров2.7K

Привет, Хабр! С вами снова Артём, Team Lead Data Scientist из МегаФона. Надеюсь, вам понравилась первая статья серии о нестандартных методах кодирования категориальных данных, где я поделился своим опытом и показал, как с кодированием справляется тематическое моделирование. Во второй части вы узнаете о более сложных подходах. Инсайты могут быть полезны специалистам в Data Science для решения широкого класса задач: от классификации до построения рекомендательных систем.

В путь
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Почему 87% проектов data science не добираются до продакшена?

Время на прочтение4 мин
Количество просмотров4.1K

«Если ваши конкуренты применяют ИИ и они нашли способ, позволяющий им ускориться, то они оторвутся от вас очень быстро», — поделилась CTO компании IBM по data science и ИИ Дебора Лефф на сцене Transform 2019.

В другом докладе, «Что вообще такое — работать с ИИ?» Лефф и старший вице-президент Gap по данным и аналитике Крис Чапо углубились в рассуждения о том, почему многие компании по-прежнему зря тратят время или терпят поражение, пытаясь реализовать стратегии работы с ИИ. И всё это несмотря на то, что преимущество, которым обладали крупные компании перед мелкими, теперь исчезло, а парадигма полностью изменилась. Благодаря ИИ быстрые компании обгоняют по эффективности медленные, вне зависимости от их размера. А крошечные безымянные компании отбирают долю рынка у гигантов.

Но если понимание того, что ИИ действительно даёт конкурентное преимущество, есть у всех, то почему до стадии продакшена добирается всего 13% проектов data science, или почти каждый десятый?
Читать дальше →
Всего голосов 4: ↑3 и ↓1+2
Комментарии13

Пять альтернатив Scale AI

Время на прочтение6 мин
Количество просмотров2.2K
Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты. В этой статье мы расскажем о лучших, по нашему мнению, альтернативах Scale AI.


Проекты машинного обучения и глубокого обучения стали сегодня мейнстримом.

Однако несмотря на огромные трудозатраты, только некоторым компаниям удалось превратить свои модели в продукты.

Согласно данным Gartner, для более чем 85% ИИ-проектов есть риск обеспечения плохих результатов из-за погрешностей в данных, алгоритмах или заблуждений разработчиков.

В частности, слабым звеном в ML/DL является качество данных, поскольку успех проектов сильно зависит от объёмов высококачественных размеченных данных, которые способна регулярно создавать команда.

Scale AI одним из первых воспользовался возможностью совершенствования и автоматизации управления, аннотирования и интегрирования данных.

Но Scale — не единственный мощный инструмент в области разметки данных для обучения ИИ.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Ближайшие события

ElasticSearch: отказоустойчивый сервер отказал

Время на прочтение8 мин
Количество просмотров13K
image
Всем привет, меня зовут Илья, я работаю в компании DINS на должности инженера отдела мониторинга. В этой статье расскажу о нашей боли при работе с ElasticSearch. Мне не удалось найти решение этой проблемы где-либо ещё, поэтому, думаю, этот туториал будет интересен всем, кто использует ElasticSearch.
Читать дальше →
Всего голосов 34: ↑33 и ↓1+32
Комментарии17

Кастомные агрегаторы в Spark SQL

Время на прочтение11 мин
Количество просмотров1.6K

Данная статья является гайдом по использованию кастомных агрегаторов в Spark SQL API. Она “выросла” из моих заметок, которые я делал себе с начала работы со Spark. Сейчас, по мере накопления опыта, мне все это кажется уж слишком наивным и простым, но в свое время мне это показалось чертовски удобным/изящным/заслуживающим внимания, поэтому и решил опубликовать, тем более на Хабре про это еще вроде не писали. Статья ориентирована в первую очередь на тех, кто только начинает работать со Spark, поэтому и помечена как “tutorial”. Если у вас есть какие-либо интересные кейсы по использованию кастомных агрегаторов - делитесь в комментариях!

Ниже мы будем говорить о user-defined aggregations functions (UDAF) org.apache.spark.sql.expressions.Aggregator, которые могут быть использованы для DataSet’ов с целью агрегации группы элементов в одно значение каким-угодно-пользователю образом.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии3

Почему на удалении от крупных городов избиратели ходят на участки охотнее и голосуют за партию власти

Время на прочтение9 мин
Количество просмотров4.2K

    Действительно ли электоральные предпочтения сельских жителей существенно отличаются от предпочтений городских жителей?

   Зачем нужно срочно вводить электронное голосование в крупных городах России?

   Как выглядят на графиках и на карте России аномальное голосование?

    Подробные карты окрестностей городов России с результатами голосования на выборах в государственную Думу в 2021 году. 

Читать
Всего голосов 15: ↑14 и ↓1+13
Комментарии13

Классификация кассовых чеков

Время на прочтение6 мин
Количество просмотров8.6K

Банки получают содержание кассовых чеков клиентов по транзакциям, совершенных по собственным картам через Операторов Фискальных Данных с согласия клиента. Данные приходят в сыром текстовом формате, аналогичном тому, что вы получаете в магазине на бумажном носителе информации после каждой вашей покупки. Каждый магазин заносит товары в кассовое ПО в произвольном, полюбившемся ему формате. Чеки некоторых магазинов содержат полное название каждой из товарных позиций, большинство же, видимо, сильно экономят на бумаге и сокращают все названия.

В кассовых чеках не содержатся штрих-коды и другие идентификаторов товаров. К сожалению, исходя из вышеописанных причин, не может существовать единого каталога с категоризацией всех названий товаров из чеков. А ведь наличие такого каталога помогло бы более качественно отображать детализацию покупок клиенту. Дополнительно категоризация товарных позиций может быть использована в качестве дополнительных признаков в моделях, использующих транзакционные переменные.

Весной 2021-го года ВТБ организовывал соревнование на платформе Boosters с целью решения этой задачи.

Читать далее
Всего голосов 16: ↑16 и ↓0+16
Комментарии30

Как мы собираем данные для аналитики с помощью Apache NiFi

Время на прочтение8 мин
Количество просмотров16K

Привет, Хабр! Мы команда мониторинга и анализа данных биотехнологической компании BIOCAD. Хотим рассказать вам о том, как мы собираем данные для аналитики из практически всех сервисов компании и при этом вполне успешно справляемся без полноценного дата-инженера.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии5

Почему за автоматической разметкой данных будущее?

Время на прочтение5 мин
Количество просмотров3.6K

Автоматическая разметка данных — новая функция, о которой сегодня часто говорят. Некоторые даже считают её решением проблемы кропотливого и ресурсоёмкого аннотирования вручную.

Для обработки одного набора данных ручной разметкой (аннотированием) требуются многие часы. Автоматическая разметка данных предоставляет более простой, быстрый и современный способ обработки данных при помощи самого ИИ.
Читать дальше →
Рейтинг0
Комментарии2

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Время на прочтение5 мин
Количество просмотров1.1K

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.
Читать дальше →
Рейтинг0
Комментарии0

Вклад авторов

Работа

Data Scientist
61 вакансия