Хранение данных *

Что имеем, то храним

Статьи Посты Новости Авторы Компании

aozeritsky 2 часа назад

Эволюция обработки данных: от MapReduce к стриминговому движку

7 мин

502

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureSQL*Администрирование баз данных*Хранение данных*

Кейс

Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут.

Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.

В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.

+20

Siphon 22 часа назад

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Простой

7 мин

516

Python*Apache*Хранение данных*Хранилища данных*Data Engineering*

Из песочницы

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

nmzgnv вчера в 11:34

Векторные базы данных: простым языком про устройство и принцип работы

Простой

11 мин

4.6K

Блог компании ТочкаOpen source*Big Data*Хранение данных*Искусственный интеллект

Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.

+18

qlever 22 апр в 18:26

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

9 мин

3.3K

Анализ и проектирование систем*Администрирование баз данных*Big Data*Хранение данных*Хранилища данных*

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.

iayakunin 19 апр в 12:09

Проекции в Vertica: что это, как использовать, и почему не стоит создавать их под каждый запрос

6 мин

2.2K

Блог компании AvitoTechSQL*Хранение данных*

Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.

Andrey_Biryukov 17 апр в 21:38

Разбираемся с Apache Spark

6 мин

2.4K

Блог компании OTUSХранение данных*

В сегодняшней статье мы начнем знакомиться с универсальной и высокопроизводительной кластерной вычислительной платформой Apache Spark, научимся разворачивать данное решение и выполнять простейшие программы. При обработке больших объемов данных скорость играет важную роль, так как именно скорость позволяет работать в интерактивном режиме, не тратя минуты или часы на ожидание. Spark в этом плане имеет серьезное преимущество, обеспечивая высокую скорость, благодаря способности выполнять вычисления в памяти.

Pups12345 17 апр в 16:15

SSD killer

Простой

3 мин

45K

Информационная безопасность*Хранение данных*Схемотехника*Производство и разработка электроники*Компьютерное железо

Из песочницы

SSD killer — destroyer for your ssd

Привет, меня зовут Ваня, и вот коротенькая история о том, как я придумал и собрал одну штуку, и почему вам нужно срочно отдать мне все свои деньги.

А если серьезно, это устройство для оперативного аппаратного уничтожения данных вместе с носителем. По своей сути это аналог чеховского ружья, у которого цель выстрелить в нужный момент.

SSD killer

+53

279

super_botan 16 апр в 15:05

Шардирование (sharding). Эпизод 2: шардирование по гео

Средний

13 мин

Высокая производительность*Хранение данных*Распределённые системы*

Viam supervadet vadens (дорогу осилит идущий)

Есть много счастливчиков, которым повезло работать в ситуации, когда объёмы по-настоящему огромны и требования кажутся невыполнимыми. Но есть те, кому по настоящем крупно повезло! Я говорю о тех, кто решал задачи в пространствах, где размерность больше 1.

Давайте разбросаем осколки по всей земле?

Разбрасываем?

dblmokk 15 апр в 17:04

Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata

Средний

9 мин

4.8K

Блог компании билайнBig Data*Хранение данных*Машинное обучение*

Туториал

Привет, Хабр!

Мы в билайне любим машинное обучение. В какой-то момент моделей машинного обучения стало так много, что это вынудило нас решать определенные задачи. Я Дмитрий Ермилов, руковожу ML в дирекции по искусственному интеллекту и цифровым продуктам. О решении одной такой задачи и будет этот рассказ.

Давайте представим, что у вас в компании большое количество моделей машинного обучения, каждая из которой может зависеть от нескольких десятков до нескольких тысяч признаков (фич). Причем разные модели могут зависеть от одних и тех же фич. Неожиданно случается несчастье, и одна из популярных фич ломается. Может произойти поломка на уровне подготовки данных, могут измениться внешние источники, отвалиться интеграции и прочее. Что делать с этим знанием? Конечно, бежать в продуктовые команды и кричать, что модели, которые зависят от этой фичи, могут деградировать, то есть их метрики качества могут снизиться. Вопрос только в том, какие модели могут деградировать и в какие команды бежать?

Напомним, в каких условиях мы анализируем данные и строим модели машинного обучения.

+12

val6789 15 апр в 09:12

Spark. План запросов на примерах

Средний

7 мин

3.4K

SQL*Apache*Big Data*Хранение данных*Data Engineering*

FAQ

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

sweb 12 апр в 12:45

Как создать изолированную среду для Nextcloud: полная инструкция

4 мин

5.8K

Блог компании SpaceWebИнформационная безопасность*Хранение данных*

Туториал

Привет, Хабр! Меня зовут Максим Анисимов, я главный инженер отдела технической поддержки в хостинг-провайдере SpaceWeb. В статье расскажу, как создать изолированный от внешней сети инстанс Nextcloud, который будет доступен только из-под VPN по IP-адресу. И объясню, чем именно и для кого такое решение будет полезно.

Xcom-shop 12 апр в 09:36

Почему эксперты жалуются на низкую надежность дешевых USB-флешек

Простой

4 мин

9.6K

Блог компании Группа компаний X-ComХранение данных*НакопителиПериферия

Мнение

Дешевые USB-флешки, которые и так никогда не считались эталонными запоминающими устройствами, в последнее время стали еще хуже, убедились исследователи CBL Datenrettung. По мнению экспертов, накопители этого типа быстро теряют в качестве, стабильности и долговечности, что не позволяет полагаться на них как на надежные средства записи и хранения данных. Спасибо нечистым на руку производителям, которые экономят на всем, чем только можно.

+12

beeline_cloud 10 апр в 20:13

Векторные СУБД и другие инструменты для разработки ML-моделей

Средний

6 мин

3.3K

Блог компании beeline cloudВысокая производительность*Data Mining*Хранение данных*Машинное обучение*

Обзор

На фоне развития генеративных и больших языковых моделей набирают обороты векторные базы данных. В прошлый раз в блоге beeline cloud мы обсудили, насколько этот тренд устойчив, а также предложили несколько книг для желающих погрузиться в тему. Сегодня же мы собрали компактную подборку открытых СУБД и поисковых движков, способных помочь в разработке систем ИИ. Обсуждаем такие инструменты, как Lantern, LanceDB, CozoDB, ArcadeDB, Dart Vector DB, Marqo и Orama.

ru_vds 10 апр в 16:00

Gmail исполнилось двадцать лет

Простой

6 мин

5.6K

Блог компании RUVDS.comМессенджеры*Хранение данных*Социальные сети и сообщества

Обзор

Перевод

Когда выпущенный двадцать лет назад дурашливый пресс-релиз ознаменовал открытие Gmail, многие посчитали это розыгрышем. Обещалось, что сервис предоставит солидный по тем временам 1 гигабайт хранилища — огромная величина в эпоху 15-мегабайтных почтовых ящиков. Заявлялось, что он будет абсолютно бесплатным, хотя многие почтовые ящики в то время были платными. Смущала и дата: о запуске сервиса объявили первого апреля, что предвещало какую-то шутку.

Но вскоре действительно начали приходить приглашения в настоящую бету Gmail, ставшие желанной целью фанатов технологий. В моей «ботанской» старшей школе получение такого приглашения мгновенно делало тебя очень крутым. Я не знала, действительно ли мне понадобится Gmail, но все мои одноклассники говорили, что он изменит мою жизнь навсегда.

Подростки известны своей драматичностью, но Gmail действительно удалось совершить революцию в электронной почте. Он переосмыслил возможности наших почтовых ящиков и стал основной частью наших цифровых личностей. По оценкам, сейчас сервис насчитывает 1,2 миллиарда пользователей (примерно седьмую часть от мирового населения) и сегодня он стал практически необходимостью для выполнения любых действий онлайн. Часто кажется, что Gmail всегда был и всегда будет.

Читать дальше →

+53

PB_Academy 9 апр в 11:26

Ликбез по методологиям проектирования хранилищ данных

Простой

2 мин

8.7K

Big Data*Хранение данных*Хранилища данных*

Из песочницы

Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.

Рассмотрим сильные и слабые стороны самых популярных методологий.

AERODISK 8 апр в 05:08

Новая линейка СХД АЭРОДИСК ENGINE AQ

Простой

6 мин

1.3K

Блог компании АЭРОДИСКСистемное администрирование*IT-инфраструктура*Хранение данных*Хранилища данных*

Здравствуйте, Хабровчане!

Сегодня мы хотим рассказать о новых продуктах АЭРОДИСК в области систем хранения данных – моделях СХД ENGINE AQ Лайт, AQ 440 и AQ 450. Это очень значимое обновление линейки СХД в этом году, и, что немаловажно, оно связано не только с обновлением на программном уровне, но и с изменениями в аппаратном обеспечении.

Чтобы первым узнать про новую линейку СХД Engine АQ и функциональные возможности каждой модели – записывайтесь на наш вебинар «Синергия технологий: Обзор новой линейки СХД от Аквариус и АЭРОДИСК» 9 апреля в 15:00 (МСК).

divolko3 7 апр в 11:00

Жёсткие диски не сдаются: технологии записи данных совершенствуются, ёмкость HDD растёт

3 мин

12K

Блог компании МТСХранение данных*Накопители

За последние пару лет не раз и не два приходилось слышать мнение, что HDD вскоре уступят место твердотельным накопителям. Они становятся всё более ёмкими и быстрыми, а цена на них падает. Но всё не так просто, поскольку технологии в мире HDD тоже не стоят на месте, а продолжают развиваться. На днях стало известно о новом достижении разработчиков из Seagate и учёных из Университета Тохоку. Подробности — под катом.

+24

skovalev 5 апр в 12:09

Настоящие российские коммутаторы, ИИ-ускорители и новые видеокарты от NVIDIA: новинки в мире железа за март

7 мин

6.8K

Блог компании SelectelIT-инфраструктура*Хранение данных*Компьютерное железо

Дайджест

Если спросить у популярного GPT-бота, какое серверное железо появилось в марте 2024 года, — он расскажет о серверах на основе квантовых вычислений. А еще про сверхпроводящие интерференционные устройства и технологии ионных ловушек для хранения и обработки кубитов. Правда это или простая галлюцинация нейросети — оставим на обсуждение в комментариях. Но что точно настоящее, так это дайджест железа.

Привет! Меня зовут Сергей, я менеджер выделенных серверов в Selectel. В этой статье расскажу о новинках в мире железа за прошедший месяц. В программе — новые видеокарты от NVIDIA, коммутаторы, диски и СХД. Подробности под катом!

Читать дальше →

+58

vladar107 5 апр в 10:20

Выбор БД в новом проекте

Простой

2 мин

5.9K

Анализ и проектирование систем*IT-инфраструктура*IT-стандарты*Хранение данных*

Мнение

При разработке приложения, сервиса, системы и тп возникает один из главных вопросов: как мне хранить данные (какую БД выбрать). В связи с тем, что чаще всего в получите ответ “зависит” (it depends), предлагаю рассмотреть несколько стратегий, которые будут работать почти всегда.

Найти стратегии можно тут

-5

Slipeer 5 апр в 08:39

Как дисциплина управления мастер-данными влияет на продажи

Средний

4 мин

689

Блог компании Magnit TechАнализ и проектирование систем*Хранение данных*Хранилища данных*

Иногда это целая проблема — найти товар с редкими свойствами. Информация о товаре должна быть доступна для поиска, но в лучшем случае особые характеристики указываются в текстовом описании. Даже если для интересующего свойства сделали отдельное поле, то его заполняют левой задней пяткой без гарантий достоверности. В результате покупатель может плюнуть и уйти из магазина, так и не найдя то, что искал. А секрет прост: чтобы все получилось, нужно правильно приготовить мастер-данные.

Рассказываем, чем грамотно построенные процессы управления мастер-данными могут помочь продажам.

2 3 ...

104 105

Хранение данных *

Эволюция обработки данных: от MapReduce к стриминговому движку

Новости

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Векторные базы данных: простым языком про устройство и принцип работы

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

Истории

Проекции в Vertica: что это, как использовать, и почему не стоит создавать их под каждый запрос

Разбираемся с Apache Spark

SSD killer

Шардирование (sharding). Эпизод 2: шардирование по гео

Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata

Spark. План запросов на примерах

Как создать изолированную среду для Nextcloud: полная инструкция

Почему эксперты жалуются на низкую надежность дешевых USB-флешек

Векторные СУБД и другие инструменты для разработки ML-моделей

Ближайшие события

Gmail исполнилось двадцать лет

Ликбез по методологиям проектирования хранилищ данных

Новая линейка СХД АЭРОДИСК ENGINE AQ

Жёсткие диски не сдаются: технологии записи данных совершенствуются, ёмкость HDD растёт

Настоящие российские коммутаторы, ИИ-ускорители и новые видеокарты от NVIDIA: новинки в мире железа за март

Выбор БД в новом проекте

Как дисциплина управления мастер-данными влияет на продажи

Вклад авторов