Как стать автором
Обновить
169.55

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Эволюция обработки данных: от MapReduce к стриминговому движку

Время на прочтение7 мин
Количество просмотров502

Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут. 

Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.

В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.

Читать далее
Всего голосов 16: ↑18 и ↓-2+20
Комментарии4

Новости

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров516

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

Читать далее
Всего голосов 2: ↑3 и ↓-1+4
Комментарии1

Векторные базы данных: простым языком про устройство и принцип работы

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров4.6K

Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.

Читать далее
Всего голосов 16: ↑17 и ↓-1+18
Комментарии5

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

Время на прочтение9 мин
Количество просмотров3.3K

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты. 

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии0

Истории

Проекции в Vertica: что это, как использовать, и почему не стоит создавать их под каждый запрос

Время на прочтение6 мин
Количество просмотров2.2K

Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.

Читать далее
Всего голосов 7: ↑8 и ↓-1+9
Комментарии7

Разбираемся с Apache Spark

Время на прочтение6 мин
Количество просмотров2.4K

В сегодняшней статье мы начнем знакомиться с универсальной и высокопроизводительной кластерной вычислительной платформой Apache Spark, научимся разворачивать данное решение и выполнять простейшие программы. При обработке больших объемов данных скорость играет важную роль, так как именно скорость позволяет работать в интерактивном режиме, не тратя минуты или часы на ожидание. Spark в этом плане имеет серьезное преимущество, обеспечивая высокую скорость, благодаря способности выполнять вычисления в памяти.

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии0

SSD killer

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров45K

SSD killer — destroyer for your ssd

Привет, меня зовут Ваня, и вот коротенькая история о том, как я придумал и собрал одну штуку, и почему вам нужно срочно отдать мне все свои деньги.

А если серьезно, это устройство для оперативного аппаратного уничтожения данных вместе с носителем. По своей сути это аналог чеховского ружья, у которого цель выстрелить в нужный момент.

SSD killer
Всего голосов 56: ↑54.5 и ↓1.5+53
Комментарии279

Шардирование (sharding). Эпизод 2: шардирование по гео

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1K

Viam supervadet vadens (дорогу осилит идущий)

Есть много счастливчиков, которым повезло работать в ситуации, когда объёмы по-настоящему огромны и требования кажутся невыполнимыми. Но есть те, кому по настоящем крупно повезло! Я говорю о тех, кто решал задачи в пространствах, где размерность больше 1.

Давайте разбросаем осколки по всей земле?

Разбрасываем?
Всего голосов 8: ↑8 и ↓0+8
Комментарии1

Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров4.8K

Привет, Хабр!

Мы в билайне любим машинное обучение. В какой-то момент моделей машинного обучения стало так много, что это вынудило нас решать определенные задачи. Я Дмитрий Ермилов, руковожу ML в дирекции по искусственному интеллекту и цифровым продуктам. О решении одной такой задачи и будет этот рассказ.

Давайте представим, что у вас в компании большое количество моделей машинного обучения, каждая из которой может зависеть от нескольких десятков до нескольких тысяч признаков (фич). Причем разные модели могут зависеть от одних и тех же фич. Неожиданно случается несчастье, и одна из популярных фич ломается. Может произойти поломка на уровне подготовки данных, могут измениться внешние источники, отвалиться интеграции и прочее. Что делать с этим знанием? Конечно, бежать в продуктовые команды и кричать, что модели, которые зависят от этой фичи, могут деградировать, то есть их метрики качества могут снизиться. Вопрос только в том, какие модели могут деградировать и в какие команды бежать?

Напомним, в каких условиях мы анализируем данные и строим модели машинного обучения.

Читать далее
Всего голосов 8: ↑10 и ↓-2+12
Комментарии0

Spark. План запросов на примерах

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.4K

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

Читать далее
Всего голосов 7: ↑7.5 и ↓-0.5+8
Комментарии4

Как создать изолированную среду для Nextcloud: полная инструкция

Время на прочтение4 мин
Количество просмотров5.8K

Привет, Хабр! Меня зовут Максим Анисимов, я главный инженер отдела технической поддержки в хостинг-провайдере SpaceWeb. В статье расскажу, как создать изолированный от внешней сети инстанс Nextcloud, который будет доступен только из-под VPN по IP-адресу. И объясню, чем именно и для кого такое решение будет полезно.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии8

Почему эксперты жалуются на низкую надежность дешевых USB-флешек

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров9.6K

Дешевые USB-флешки, которые и так никогда не считались эталонными запоминающими устройствами, в последнее время стали еще хуже, убедились исследователи CBL Datenrettung. По мнению экспертов, накопители этого типа быстро теряют в качестве, стабильности и долговечности, что не позволяет полагаться на них как на надежные средства записи и хранения данных. Спасибо нечистым на руку производителям, которые экономят на всем, чем только можно.

Читать далее
Всего голосов 10: ↑11 и ↓-1+12
Комментарии35

Векторные СУБД и другие инструменты для разработки ML-моделей

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.3K

На фоне развития генеративных и больших языковых моделей набирают обороты векторные базы данных. В прошлый раз в блоге beeline cloud мы обсудили, насколько этот тренд устойчив, а также предложили несколько книг для желающих погрузиться в тему. Сегодня же мы собрали компактную подборку открытых СУБД и поисковых движков, способных помочь в разработке систем ИИ. Обсуждаем такие инструменты, как Lantern, LanceDB, CozoDB, ArcadeDB, Dart Vector DB, Marqo и Orama.

Читать далее
Всего голосов 6: ↑6.5 и ↓-0.5+7
Комментарии3

Ближайшие события

Gmail исполнилось двадцать лет

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.6K

Когда выпущенный двадцать лет назад дурашливый пресс-релиз ознаменовал открытие Gmail, многие посчитали это розыгрышем. Обещалось, что сервис предоставит солидный по тем временам 1 гигабайт хранилища — огромная величина в эпоху 15-мегабайтных почтовых ящиков. Заявлялось, что он будет абсолютно бесплатным, хотя многие почтовые ящики в то время были платными. Смущала и дата: о запуске сервиса объявили первого апреля, что предвещало какую-то шутку.

Но вскоре действительно начали приходить приглашения в настоящую бету Gmail, ставшие желанной целью фанатов технологий. В моей «ботанской» старшей школе получение такого приглашения мгновенно делало тебя очень крутым. Я не знала, действительно ли мне понадобится Gmail, но все мои одноклассники говорили, что он изменит мою жизнь навсегда.

Подростки известны своей драматичностью, но Gmail действительно удалось совершить революцию в электронной почте. Он переосмыслил возможности наших почтовых ящиков и стал основной частью наших цифровых личностей. По оценкам, сейчас сервис насчитывает 1,2 миллиарда пользователей (примерно седьмую часть от мирового населения) и сегодня он стал практически необходимостью для выполнения любых действий онлайн. Часто кажется, что Gmail всегда был и всегда будет.
Читать дальше →
Всего голосов 32: ↑42.5 и ↓-10.5+53
Комментарии36

Ликбез по методологиям проектирования хранилищ данных

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров8.7K

Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.

Рассмотрим сильные и слабые стороны самых популярных методологий.

Читать далее
Всего голосов 8: ↑5 и ↓3+2
Комментарии8

Новая линейка СХД АЭРОДИСК ENGINE AQ

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.3K

Здравствуйте, Хабровчане!

Сегодня мы хотим рассказать о новых продуктах АЭРОДИСК в области систем хранения данных – моделях СХД ENGINE AQ Лайт, AQ 440 и AQ 450. Это очень значимое обновление линейки СХД в этом году, и, что немаловажно, оно связано не только с обновлением на программном уровне, но и с изменениями в аппаратном обеспечении.

Чтобы первым узнать про новую линейку СХД Engine АQ и функциональные возможности каждой модели – записывайтесь на наш вебинар «Синергия технологий: Обзор новой линейки СХД от Аквариус и АЭРОДИСК» 9 апреля в 15:00 (МСК).

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии0

Жёсткие диски не сдаются: технологии записи данных совершенствуются, ёмкость HDD растёт

Время на прочтение3 мин
Количество просмотров12K

За последние пару лет не раз и не два приходилось слышать мнение, что HDD вскоре уступят место твердотельным накопителям. Они становятся всё более ёмкими и быстрыми, а цена на них падает. Но всё не так просто, поскольку технологии в мире HDD тоже не стоят на месте, а продолжают развиваться. На днях стало известно о новом достижении разработчиков из Seagate и учёных из Университета Тохоку. Подробности — под катом.

Читать далее
Всего голосов 23: ↑23.5 и ↓-0.5+24
Комментарии82

Настоящие российские коммутаторы, ИИ-ускорители и новые видеокарты от NVIDIA: новинки в мире железа за март

Время на прочтение7 мин
Количество просмотров6.8K

Если спросить у популярного GPT-бота, какое серверное железо появилось в марте 2024 года, — он расскажет о серверах на основе квантовых вычислений. А еще про сверхпроводящие интерференционные устройства и технологии ионных ловушек для хранения и обработки кубитов. Правда это или простая галлюцинация нейросети — оставим на обсуждение в комментариях. Но что точно настоящее, так это дайджест железа.

Привет! Меня зовут Сергей, я менеджер выделенных серверов в Selectel. В этой статье расскажу о новинках в мире железа за прошедший месяц. В программе — новые видеокарты от NVIDIA, коммутаторы, диски и СХД. Подробности под катом!
Читать дальше →
Всего голосов 51: ↑54.5 и ↓-3.5+58
Комментарии62

Выбор БД в новом проекте

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров5.9K

При разработке приложения, сервиса, системы и тп возникает один из главных вопросов: как мне хранить данные (какую БД выбрать). В связи с тем, что чаще всего в получите ответ “зависит” (it depends), предлагаю рассмотреть несколько стратегий, которые будут работать почти всегда.

Найти стратегии можно тут
Всего голосов 13: ↑4 и ↓9-5
Комментарии12

Как дисциплина управления мастер-данными влияет на продажи

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров689

Иногда это целая проблема — найти товар с редкими свойствами. Информация о товаре должна быть доступна для поиска, но в лучшем случае особые характеристики указываются в текстовом описании. Даже если для интересующего свойства сделали отдельное поле, то его заполняют левой задней пяткой без гарантий достоверности. В результате покупатель может плюнуть и уйти из магазина, так и не найдя то, что искал. А секрет прост: чтобы все получилось, нужно правильно приготовить мастер-данные.

Рассказываем, чем грамотно построенные процессы управления мастер-данными могут помочь продажам. 

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии1
1
23 ...