Хранение данных *

Что имеем, то храним

Статьи Посты Новости Авторы Компании

PatientZero 23 часа назад

Как Figma удалось открыть себе путь к почти бесконечному масштабированию баз данных

Средний

17 мин

3.8K

Веб-разработка*Администрирование баз данных*Хранение данных*

Обзор

Перевод

О нашем девятимесячном пути к горизонтальному шардингу Postgres-стека Figma и о возможности обеспечения (почти) бесконечной масштабируемости.

Вертикальное разбиение было относительно простым и важным инструментом масштабирования, позволившим нам быстро добиться существенных улучшений. Кроме того, оно стало важным этапом на пути к горизонтальному шардингу.

С 2020 года стек баз данных Figma вырос почти в сотню раз. Это хорошая проблема, ведь она означает, что наш бизнес расширяется. Но в то же время она стала причиной технических сложностей. В течение последних четырёх лет мы усиленно старались не отставать от прогресса и избегать потенциальных проблем, связанных с ростом. В 2020 году у нас работала единственная база данных Postgres, которая хостилась на самом большом физическом инстансе AWS, но к концу 2022 года мы уже создали распределённую архитектуру с кэшированием, репликами для чтения и десятком вертикально разделённых баз данных. Мы разбили группы связанных таблиц (например, «Figma files» или «Organizations») на отдельные вертикальные разделы, что позволило нам обеспечить удобство инкрементального масштабирования и оставить достаточно пространства для дальнейшего роста.

+14

Digital_League 25 апр в 15:07

Делаем резервное копирование кластера ClickHouse: простая инструкция

4 мин

1.5K

Блог компании Лига Цифровой ЭкономикиIT-инфраструктура*Восстановление данных*Администрирование баз данных*Хранение данных*

Делаем резервное копирование кластера ClickHouse: простая инструкция

Меня зовут Леонид Блынский и я администратор баз данных в Лиге Цифровой Экономики. В этой небольшой статье расскажу, как я делаю резервное копирование кластера ClickHouse размером 20 ТБ.

Документация по резервному копированию довольно небольшая и содержит инструкции по созданию резервных копий отдельной инсталляции СУБД. К сожалению, информации о том, как создавать резервные копии кластера, практически нет. Как и нет промышленного решения для управления бэкапом.

asuleykin 25 апр в 13:27

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы

Средний

10 мин

754

Open source*Администрирование баз данных*Big Data*Хранение данных*Хранилища данных*

Кейс

В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.

Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.

aozeritsky 24 апр в 10:00

Эволюция обработки данных: от MapReduce к стриминговому движку

7 мин

3.4K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureSQL*Администрирование баз данных*Хранение данных*

Кейс

Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут.

Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.

В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.

+33

Siphon 23 апр в 14:15

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Простой

7 мин

1.1K

Python*Apache*Хранение данных*Хранилища данных*Data Engineering*

Из песочницы

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

nmzgnv 23 апр в 11:34

Векторные базы данных: простым языком про устройство и принцип работы

Простой

11 мин

8.5K

Блог компании ТочкаOpen source*Big Data*Хранение данных*Искусственный интеллект

Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.

+30

qlever 22 апр в 18:26

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

9 мин

3.9K

Анализ и проектирование систем*Администрирование баз данных*Big Data*Хранение данных*Хранилища данных*

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.

iayakunin 19 апр в 12:09

Проекции в Vertica: что это, как использовать, и почему не стоит создавать их под каждый запрос

6 мин

4.4K

Блог компании AvitoTechSQL*Хранение данных*

Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.

Andrey_Biryukov 17 апр в 21:38

Разбираемся с Apache Spark

6 мин

2.6K

Блог компании OTUSХранение данных*

В сегодняшней статье мы начнем знакомиться с универсальной и высокопроизводительной кластерной вычислительной платформой Apache Spark, научимся разворачивать данное решение и выполнять простейшие программы. При обработке больших объемов данных скорость играет важную роль, так как именно скорость позволяет работать в интерактивном режиме, не тратя минуты или часы на ожидание. Spark в этом плане имеет серьезное преимущество, обеспечивая высокую скорость, благодаря способности выполнять вычисления в памяти.

Pups12345 17 апр в 16:15

SSD killer

Простой

3 мин

45K

Информационная безопасность*Хранение данных*Схемотехника*Производство и разработка электроники*Компьютерное железо

Из песочницы

SSD killer — destroyer for your ssd

Привет, меня зовут Ваня, и вот коротенькая история о том, как я придумал и собрал одну штуку, и почему вам нужно срочно отдать мне все свои деньги.

А если серьезно, это устройство для оперативного аппаратного уничтожения данных вместе с носителем. По своей сути это аналог чеховского ружья, у которого цель выстрелить в нужный момент.

SSD killer

+53

279

super_botan 16 апр в 15:05

Шардирование (sharding). Эпизод 2: шардирование по гео

Средний

13 мин

1.1K

Высокая производительность*Хранение данных*Распределённые системы*

Viam supervadet vadens (дорогу осилит идущий)

Есть много счастливчиков, которым повезло работать в ситуации, когда объёмы по-настоящему огромны и требования кажутся невыполнимыми. Но есть те, кому по настоящем крупно повезло! Я говорю о тех, кто решал задачи в пространствах, где размерность больше 1.

Давайте разбросаем осколки по всей земле?

Разбрасываем?

dblmokk 15 апр в 17:04

Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata

Средний

9 мин

6.2K

Блог компании билайнBig Data*Хранение данных*Машинное обучение*

Туториал

Привет, Хабр!

Мы в билайне любим машинное обучение. В какой-то момент моделей машинного обучения стало так много, что это вынудило нас решать определенные задачи. Я Дмитрий Ермилов, руковожу ML в дирекции по искусственному интеллекту и цифровым продуктам. О решении одной такой задачи и будет этот рассказ.

Давайте представим, что у вас в компании большое количество моделей машинного обучения, каждая из которой может зависеть от нескольких десятков до нескольких тысяч признаков (фич). Причем разные модели могут зависеть от одних и тех же фич. Неожиданно случается несчастье, и одна из популярных фич ломается. Может произойти поломка на уровне подготовки данных, могут измениться внешние источники, отвалиться интеграции и прочее. Что делать с этим знанием? Конечно, бежать в продуктовые команды и кричать, что модели, которые зависят от этой фичи, могут деградировать, то есть их метрики качества могут снизиться. Вопрос только в том, какие модели могут деградировать и в какие команды бежать?

Напомним, в каких условиях мы анализируем данные и строим модели машинного обучения.

+14

val6789 15 апр в 09:12

Spark. План запросов на примерах

Средний

7 мин

3.5K

SQL*Apache*Big Data*Хранение данных*Data Engineering*

FAQ

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

sweb 12 апр в 12:45

Как создать изолированную среду для Nextcloud: полная инструкция

4 мин

5.9K

Блог компании SpaceWebИнформационная безопасность*Хранение данных*

Туториал

Привет, Хабр! Меня зовут Максим Анисимов, я главный инженер отдела технической поддержки в хостинг-провайдере SpaceWeb. В статье расскажу, как создать изолированный от внешней сети инстанс Nextcloud, который будет доступен только из-под VPN по IP-адресу. И объясню, чем именно и для кого такое решение будет полезно.

Xcom-shop 12 апр в 09:36

Почему эксперты жалуются на низкую надежность дешевых USB-флешек

Простой

4 мин

9.6K

Блог компании Группа компаний X-ComХранение данных*НакопителиПериферия

Мнение

Дешевые USB-флешки, которые и так никогда не считались эталонными запоминающими устройствами, в последнее время стали еще хуже, убедились исследователи CBL Datenrettung. По мнению экспертов, накопители этого типа быстро теряют в качестве, стабильности и долговечности, что не позволяет полагаться на них как на надежные средства записи и хранения данных. Спасибо нечистым на руку производителям, которые экономят на всем, чем только можно.

+12

beeline_cloud 10 апр в 20:13

Векторные СУБД и другие инструменты для разработки ML-моделей

Средний

6 мин

3.3K

Блог компании beeline cloudВысокая производительность*Data Mining*Хранение данных*Машинное обучение*

Обзор

На фоне развития генеративных и больших языковых моделей набирают обороты векторные базы данных. В прошлый раз в блоге beeline cloud мы обсудили, насколько этот тренд устойчив, а также предложили несколько книг для желающих погрузиться в тему. Сегодня же мы собрали компактную подборку открытых СУБД и поисковых движков, способных помочь в разработке систем ИИ. Обсуждаем такие инструменты, как Lantern, LanceDB, CozoDB, ArcadeDB, Dart Vector DB, Marqo и Orama.

ru_vds 10 апр в 16:00

Gmail исполнилось двадцать лет

Простой

6 мин

5.7K

Блог компании RUVDS.comМессенджеры*Хранение данных*Социальные сети и сообщества

Обзор

Перевод

Когда выпущенный двадцать лет назад дурашливый пресс-релиз ознаменовал открытие Gmail, многие посчитали это розыгрышем. Обещалось, что сервис предоставит солидный по тем временам 1 гигабайт хранилища — огромная величина в эпоху 15-мегабайтных почтовых ящиков. Заявлялось, что он будет абсолютно бесплатным, хотя многие почтовые ящики в то время были платными. Смущала и дата: о запуске сервиса объявили первого апреля, что предвещало какую-то шутку.

Но вскоре действительно начали приходить приглашения в настоящую бету Gmail, ставшие желанной целью фанатов технологий. В моей «ботанской» старшей школе получение такого приглашения мгновенно делало тебя очень крутым. Я не знала, действительно ли мне понадобится Gmail, но все мои одноклассники говорили, что он изменит мою жизнь навсегда.

Подростки известны своей драматичностью, но Gmail действительно удалось совершить революцию в электронной почте. Он переосмыслил возможности наших почтовых ящиков и стал основной частью наших цифровых личностей. По оценкам, сейчас сервис насчитывает 1,2 миллиарда пользователей (примерно седьмую часть от мирового населения) и сегодня он стал практически необходимостью для выполнения любых действий онлайн. Часто кажется, что Gmail всегда был и всегда будет.

Читать дальше →

+53

PB_Academy 9 апр в 11:26

Ликбез по методологиям проектирования хранилищ данных

Простой

2 мин

8.8K

Big Data*Хранение данных*Хранилища данных*

Из песочницы

Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.

Рассмотрим сильные и слабые стороны самых популярных методологий.

AERODISK 8 апр в 05:08

Новая линейка СХД АЭРОДИСК ENGINE AQ

Простой

6 мин

1.3K

Блог компании АЭРОДИСКСистемное администрирование*IT-инфраструктура*Хранение данных*Хранилища данных*

Здравствуйте, Хабровчане!

Сегодня мы хотим рассказать о новых продуктах АЭРОДИСК в области систем хранения данных – моделях СХД ENGINE AQ Лайт, AQ 440 и AQ 450. Это очень значимое обновление линейки СХД в этом году, и, что немаловажно, оно связано не только с обновлением на программном уровне, но и с изменениями в аппаратном обеспечении.

Чтобы первым узнать про новую линейку СХД Engine АQ и функциональные возможности каждой модели – записывайтесь на наш вебинар «Синергия технологий: Обзор новой линейки СХД от Аквариус и АЭРОДИСК» 9 апреля в 15:00 (МСК).

divolko3 7 апр в 11:00

Жёсткие диски не сдаются: технологии записи данных совершенствуются, ёмкость HDD растёт

3 мин

13K

Блог компании МТСХранение данных*Накопители

За последние пару лет не раз и не два приходилось слышать мнение, что HDD вскоре уступят место твердотельным накопителям. Они становятся всё более ёмкими и быстрыми, а цена на них падает. Но всё не так просто, поскольку технологии в мире HDD тоже не стоят на месте, а продолжают развиваться. На днях стало известно о новом достижении разработчиков из Seagate и учёных из Университета Тохоку. Подробности — под катом.

+24

2 3 ...

104 105

Хранение данных *

Как Figma удалось открыть себе путь к почти бесконечному масштабированию баз данных

Новости

Делаем резервное копирование кластера ClickHouse: простая инструкция

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы

Эволюция обработки данных: от MapReduce к стриминговому движку

Истории

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Векторные базы данных: простым языком про устройство и принцип работы

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

Проекции в Vertica: что это, как использовать, и почему не стоит создавать их под каждый запрос

Разбираемся с Apache Spark

SSD killer

Шардирование (sharding). Эпизод 2: шардирование по гео

Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata

Spark. План запросов на примерах

Ближайшие события

Как создать изолированную среду для Nextcloud: полная инструкция

Почему эксперты жалуются на низкую надежность дешевых USB-флешек

Векторные СУБД и другие инструменты для разработки ML-моделей

Gmail исполнилось двадцать лет

Ликбез по методологиям проектирования хранилищ данных

Новая линейка СХД АЭРОДИСК ENGINE AQ

Жёсткие диски не сдаются: технологии записи данных совершенствуются, ёмкость HDD растёт

Вклад авторов