Big Data *

Большие данные и всё о них

Статьи Посты Новости Авторы Компании

Carrotyfox 12 ноя 2021 в 15:15

Хранение данных: почему важно защищать не только сеть, но и само устройство

5 мин

2.7K

Big Data*

В последнее время вопрос безопасности данных обсуждается очень широко, но довольно часто речь идет прежде всего о защите сети. В современных условиях это вполне объяснимо, ведь процент сотрудников, работающих дистанционно, постоянно увеличивается и мы все сильнее полагаемся на облачные технологии. Однако выбор правильного способа защиты самого устройства хранения данных остается не менее актуальным вопросом.

Для обеспечения безопасности данных необходимо внимательно проанализировать все компоненты — системы, аппаратное оборудование, программное обеспечение и приложения, чтобы определить возможности для улучшения существующей инфраструктуры. Более того, работа самых передовых средств защиты данных должна не только обеспечивать идеальные результаты, но и быть практически незаметной для конечных пользователей.

Возможности для улучшения инфраструктуры хранения данных есть, и в этой статье мы рассмотрим четыре области, в который уже сейчас существуют доказавшие свою эффективность концептуальные решения, позволяющие, как показывают свежие данные, добиться серьезных позитивных изменений.

-1

InBioReactor 12 ноя 2021 в 12:15

Big data. Математика на службе биологии

15 мин

8.2K

Блог компании Timeweb CloudBig Data*Читальный залНаучно-популярноеБиология

Автор сообщества Фанерозой, биотехнолог, Людмила Хигерович.

Так или иначе, каждый человек, использующий масс-медиа, краем уха слышал о “биг дата”. Однако что это такое на самом деле, за границами ИТ мало кто представляет. И еще меньше людей знают о том, насколько сильно наш сегодняшний мир, каким мы его знаем, зависит от этого малопонятного термина. При этом речь идет не только об обработке больших потоков данных новостей или запросов браузера, или социальных сетей. Сегодня мы расскажем вам о том, как технологии Big Data помогают расширять границы науки.

Читать дальше →

+28

Carrotyfox 12 ноя 2021 в 11:08

Решение задач, возникших в результате развития централизованной архитектуры транспортных средств

4 мин

519

Big Data*Data Engineering*

Становясь все более мощными устройствами, современные подключенные автомобили (connected vehicles) со временем имеют все шансы стать настоящими центрами обработки данных на колесах. Блоки управления, примененные в новых моделях, выполняют гораздо более широкую функцию, чем простая передача информации пользователю, они обеспечивают выход в интернет, управляют бортовыми информационно-развлекательными системами и поддерживают работу голосового управления, в том числе совершение телефонных звонков в бесконтактном режиме «хендс-фри». Согласно некоторым прогнозам, уже в следующем году будет сделан еще один шаг к появлению полностью централизованных архитектур для подключенных автомобилей. Однако некоторые важнейшие задачи, стоящие на этом пути, все еще остаются нерешенными.

Расширение сетевых функций окружающей нас городской инфраструктуры будет сопровождаться значительным увеличением количества взаимодействий между транспортным средством и окружающими его объектами (V2X, Vehicle-to-Everything), а также объемов создаваемых данных. Результатом этого станет возникновение новых задач, связанных с хранением данных, поскольку критически важная информация должна регистрироваться и передаваться через блоки управления и бортовые системы автомобиля.

-1

kimmhhed 12 ноя 2021 в 10:06

Python и чистая архитектура в 2021 году

11 мин

24K

Блог компании Издательский дом «Питер»Python*Программирование*Big Data*Профессиональная литература*

Перевод

Прошло уже почти 3 года с тех пор, как я впервые воспользовался чистой архитектурой на практике. С тех пор я побывал на многочисленных конференциях, где выступал с докладами на эту тему (вот, например, доклад Clean Architecture in Python с конференции PyGotham 2018). Кроме того, я написал статью о чистой архитектуре на Python, которая попала в рассылку RealPython.com … но сейчас заканчивается 2021 год, и мы ушли далеко вперед. Давайте рассмотрим, как развился Python, изучим разные крутые библиотеки, благодаря которым реализовывать чистую архитектуру на Python сегодня стало гораздо проще.

Сначала вспомним о том, зачем она нужна.

kzzzr 11 ноя 2021 в 17:00

Строим Data Vault на данных TPC-H – Greenplum + dbtVault

8 мин

7.8K

Блог компании OTUSBig Data*Data Engineering*

Привет! На связи Артемий – энтузиаст в сфере Data Warehousing, Analytics, DataOps.

Уже продолжительное время я занимаюсь моделированием DWH с использованием dbt, и сегодня пришло время познакомить вас с package для построения Data Vault – dbtVault.

В публикации:

• Готовим датасет TPC-H

• Поднимаем кластер Greenplum в Яндекс.Облаке

• Погружаемся в кодогенерацию и макросы dbtVault

• Cимулируем инкрементальное наполнение Data Vault

MelkovaCROC 10 ноя 2021 в 10:22

КРОК проведет первый Market ИТ-решений

1 мин

1.3K

Блог компании КРОКBig Data*Разработка под e-commerce*Развитие стартапаIT-компании

КРОК открывает регистрацию для участия в Market ИТ-решений — презентация 40 партнеров-разработчиков, чьи решения вошли в продуктовый портфель ИТ-компании за все время организации акселерационных программ.

Основатели поделятся кейсами внедрения в крупнейшие корпорации России, в том числе в финансовых и страховых организациях, Oil&Gas, FMCG и ритейле.

selesnow 9 ноя 2021 в 11:45

Заметки по языку R | Часть 1: Построение нетипичных диаграмм, и подписи данных в ggplot2

5 мин

4.6K

Data Mining*Big Data*R*Визуализация данных*Data Engineering*

Туториал

В ноябре 2018 года я запустил телеграм канал R4marketing. Канал посвящён языку R, посты канала разделены по рубрикам, одна из таких рубрик "Заметки по R". В эту рубрику входят небольшие публикации, с интересным или полезными советами по использованию R.

Этой статьёй я начинаю серию публикаций состоящих из подборок наиболее полезных заметок канала R4marketing.

Первая статья будет посвящена визуализации данных.

X5Tech 9 ноя 2021 в 10:12

Нельзя просто взять и влиться в data-driven — на что обратить внимание при внедрении такого подхода

5 мин

3.2K

Блог компании X5 TechBig Data*Машинное обучение*IT-компанииData Engineering*

Привет, Хабр! Мы в Х5 очень любим данные и умеем с ними обращаться. Недавно мы провели «Цифровой четверг» — дискуссию с представителями ИТ-компаний, облачных провайдеров и телекомов.

На встрече обсудили data-driven подход: кейсы, «грабли» и базовые моменты, о которых стоит знать. Решили поделиться ключевыми мыслями по её итогам.

Olya_ra 9 ноя 2021 в 09:14

Почему каждому Дата-сайентисту нужен Инженер данных?

4 мин

2.8K

Big Data*Карьера в IT-индустрииData Engineering*

Из песочницы

Перевод

Дата-сайентист назван «самой сексуальной профессией 21-го века». The Harvard Business Review обьясняет это тем, что такой «гибрид хакера, аналитика, переговорщика и ценного советчика» — очень редкое сочетание навыков, и высоко оплачивается.

Слишком хорошо, чтобы быть правдой? По данным Forbes, да. Оказывается, что большую часть времени (до 79%) дата-сайентисты занимаются ненавистной им работой.

Блог компании ЕВРАЗ 8 ноября 2021

Техномагия для гиганта: как IT двигает ЕВРАЗ, а ЕВРАЗ качает IT

Привет, Хабр! Вы когда-нибудь задумывались, что чувствовали люди, создавшие паровую машину? А запустившие первый двигатель? Первый летательный аппарат? Они делали что-то первыми и видели результаты своей работы. Примерно это сейчас переживают айтишники, работающие на производстве. Они видят, как IT-проекты улучшают процессы и приносят прибыль. Один тимлид сказал, что IT — это техномагия: она появляется извне и трансформирует производство. Мы попросили рассказать наших ребят о своих проектах и о том, с чем они сталкиваются на производстве. Подробности, как эта техномагия выглядит изнутри, — под катом.

+24

art-glazunov 8 ноя 2021 в 09:31

«От категорий к векторам», или нестандартное кодирование категориальных данных. Часть 2

7 мин

2.7K

Блог компании МегаФонData Mining*Big Data*Машинное обучение*

Туториал

Привет, Хабр! С вами снова Артём, Team Lead Data Scientist из МегаФона. Надеюсь, вам понравилась первая статья серии о нестандартных методах кодирования категориальных данных, где я поделился своим опытом и показал, как с кодированием справляется тематическое моделирование. Во второй части вы узнаете о более сложных подходах. Инсайты могут быть полезны специалистам в Data Science для решения широкого класса задач: от классификации до построения рекомендательных систем.

В путь

kucev 4 ноя 2021 в 10:28

Почему 87% проектов data science не добираются до продакшена?

4 мин

4.1K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

«Если ваши конкуренты применяют ИИ и они нашли способ, позволяющий им ускориться, то они оторвутся от вас очень быстро», — поделилась CTO компании IBM по data science и ИИ Дебора Лефф на сцене Transform 2019.

В другом докладе, «Что вообще такое — работать с ИИ?» Лефф и старший вице-президент Gap по данным и аналитике Крис Чапо углубились в рассуждения о том, почему многие компании по-прежнему зря тратят время или терпят поражение, пытаясь реализовать стратегии работы с ИИ. И всё это несмотря на то, что преимущество, которым обладали крупные компании перед мелкими, теперь исчезло, а парадигма полностью изменилась. Благодаря ИИ быстрые компании обгоняют по эффективности медленные, вне зависимости от их размера. А крошечные безымянные компании отбирают долю рынка у гигантов.

Но если понимание того, что ИИ действительно даёт конкурентное преимущество, есть у всех, то почему до стадии продакшена добирается всего 13% проектов data science, или почти каждый десятый?

Читать дальше →

kucev 3 ноя 2021 в 11:49

Пять альтернатив Scale AI

6 мин

2.2K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты. В этой статье мы расскажем о лучших, по нашему мнению, альтернативах Scale AI.

Проекты машинного обучения и глубокого обучения стали сегодня мейнстримом.

Однако несмотря на огромные трудозатраты, только некоторым компаниям удалось превратить свои модели в продукты.

Согласно данным Gartner, для более чем 85% ИИ-проектов есть риск обеспечения плохих результатов из-за погрешностей в данных, алгоритмах или заблуждений разработчиков.

В частности, слабым звеном в ML/DL является качество данных, поскольку успех проектов сильно зависит от объёмов высококачественных размеченных данных, которые способна регулярно создавать команда.

Scale AI одним из первых воспользовался возможностью совершенствования и автоматизации управления, аннотирования и интегрирования данных.

Но Scale — не единственный мощный инструмент в области разметки данных для обучения ИИ.

Читать дальше →

driveirk 2 ноя 2021 в 11:33

ElasticSearch: отказоустойчивый сервер отказал

8 мин

13K

Блог компании DINSOpen source*Big Data*Хранилища данных*Data Engineering*

Технотекст 2021

Всем привет, меня зовут Илья, я работаю в компании DINS на должности инженера отдела мониторинга. В этой статье расскажу о нашей боли при работе с ElasticSearch. Мне не удалось найти решение этой проблемы где-либо ещё, поэтому, думаю, этот туториал будет интересен всем, кто использует ElasticSearch.

Читать дальше →

+32

Ninil 1 ноя 2021 в 16:15

Кастомные агрегаторы в Spark SQL

11 мин

1.6K

Big Data*Хранилища данных*Data Engineering*

Туториал

Данная статья является гайдом по использованию кастомных агрегаторов в Spark SQL API. Она “выросла” из моих заметок, которые я делал себе с начала работы со Spark. Сейчас, по мере накопления опыта, мне все это кажется уж слишком наивным и простым, но в свое время мне это показалось чертовски удобным/изящным/заслуживающим внимания, поэтому и решил опубликовать, тем более на Хабре про это еще вроде не писали. Статья ориентирована в первую очередь на тех, кто только начинает работать со Spark, поэтому и помечена как “tutorial”. Если у вас есть какие-либо интересные кейсы по использованию кастомных агрегаторов - делитесь в комментариях!

Ниже мы будем говорить о user-defined aggregations functions (UDAF) org.apache.spark.sql.expressions.Aggregator, которые могут быть использованы для DataSet’ов с целью агрегации группы элементов в одно значение каким-угодно-пользователю образом.

zzzzbh 1 ноя 2021 в 15:42

Почему на удалении от крупных городов избиратели ходят на участки охотнее и голосуют за партию власти

9 мин

4.2K

Big Data*Открытые данные*Визуализация данных*Data Engineering*

• Действительно ли электоральные предпочтения сельских жителей существенно отличаются от предпочтений городских жителей?

• Зачем нужно срочно вводить электронное голосование в крупных городах России?

• Как выглядят на графиках и на карте России аномальное голосование?

• Подробные карты окрестностей городов России с результатами голосования на выборах в государственную Думу в 2021 году.

Читать

+13

smirnovevgeny 1 ноя 2021 в 11:15

Классификация кассовых чеков

6 мин

8.6K

Блог компании Альфа-БанкBig Data*ХакатоныМашинное обучение*Искусственный интеллект

Банки получают содержание кассовых чеков клиентов по транзакциям, совершенных по собственным картам через Операторов Фискальных Данных с согласия клиента. Данные приходят в сыром текстовом формате, аналогичном тому, что вы получаете в магазине на бумажном носителе информации после каждой вашей покупки. Каждый магазин заносит товары в кассовое ПО в произвольном, полюбившемся ему формате. Чеки некоторых магазинов содержат полное название каждой из товарных позиций, большинство же, видимо, сильно экономят на бумаге и сокращают все названия.

В кассовых чеках не содержатся штрих-коды и другие идентификаторов товаров. К сожалению, исходя из вышеописанных причин, не может существовать единого каталога с категоризацией всех названий товаров из чеков. А ведь наличие такого каталога помогло бы более качественно отображать детализацию покупок клиенту. Дополнительно категоризация товарных позиций может быть использована в качестве дополнительных признаков в моделях, использующих транзакционные переменные.

Весной 2021-го года ВТБ организовывал соревнование на платформе Boosters с целью решения этой задачи.

+16

BIOCAD 29 окт 2021 в 15:26

Как мы собираем данные для аналитики с помощью Apache NiFi

8 мин

16K

Блог компании BIOCADApache*Big Data*Data Engineering*

Туториал

Привет, Хабр! Мы команда мониторинга и анализа данных биотехнологической компании BIOCAD. Хотим рассказать вам о том, как мы собираем данные для аналитики из практически всех сервисов компании и при этом вполне успешно справляемся без полноценного дата-инженера.

kucev 28 окт 2021 в 13:53

Почему за автоматической разметкой данных будущее?

5 мин

3.6K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Автоматическая разметка данных — новая функция, о которой сегодня часто говорят. Некоторые даже считают её решением проблемы кропотливого и ресурсоёмкого аннотирования вручную.

Для обработки одного набора данных ручной разметкой (аннотированием) требуются многие часы. Автоматическая разметка данных предоставляет более простой, быстрый и современный способ обработки данных при помощи самого ИИ.

Читать дальше →

kucev 27 окт 2021 в 09:33

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

5 мин

1.1K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.

Читать дальше →

1 2 ...

48 49

51 52 ...

162 163

Big Data *

Хранение данных: почему важно защищать не только сеть, но и само устройство

Big data. Математика на службе биологии

Решение задач, возникших в результате развития централизованной архитектуры транспортных средств

Python и чистая архитектура в 2021 году

Истории

Строим Data Vault на данных TPC-H – Greenplum + dbtVault

КРОК проведет первый Market ИТ-решений

Заметки по языку R | Часть 1: Построение нетипичных диаграмм, и подписи данных в ggplot2

Нельзя просто взять и влиться в data-driven — на что обратить внимание при внедрении такого подхода

Почему каждому Дата-сайентисту нужен Инженер данных?

Техномагия для гиганта: как IT двигает ЕВРАЗ, а ЕВРАЗ качает IT

«От категорий к векторам», или нестандартное кодирование категориальных данных. Часть 2

Почему 87% проектов data science не добираются до продакшена?

Пять альтернатив Scale AI

Ближайшие события

ElasticSearch: отказоустойчивый сервер отказал

Кастомные агрегаторы в Spark SQL

Почему на удалении от крупных городов избиратели ходят на участки охотнее и голосуют за партию власти

Классификация кассовых чеков

Как мы собираем данные для аналитики с помощью Apache NiFi

Почему за автоматической разметкой данных будущее?

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Вклад авторов

Работа