Pull to refresh
  • by relevance
  • by date
  • by rating

Что посмотреть на выходных? Обзор лучших докладов в свободном доступе. Часть вторая, JBreak 2017

JUG Ru Group corporate blogJavaHadoop

Что можно посмотреть вечером или на этих выходных? Можно смотреть какие-нибудь фильмы, а можно — наш непрекращающийся сериал под названием «Java-конференции». Единственный сериал, после просмотра которого у вас может радикально увеличиться зарплата.


Вчерашняя статья про JPoint 2017 оказалась удивительно успешной. У неё почти не было комментариев, но на данный момент — 88 закладок. То есть статья попала в цель: люди добавляют в закладки и смотрят — ура. Буквально в первый час её пришел читать сам Сатана.


Сегодня мы будем действовать по старой схеме: я для вас отсматриваю подряд 10 докладов, делаю короткое описание содержимого, чтобы неинтересное можно было выбросить. Кроме того, с сайтов собираю ссылки на слайды и описания. Полученное сортирую и выдаю в порядке увеличения рейтинга — то есть в самом низу будет самый крутой доклад. Оценки — это не лайки на YouTube, а наша собственная оценочная система, она круче лайков.



Читать дальше →
Total votes 37: ↑33 and ↓4+29
Views13K
Comments 3

Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data

JUG Ru Group corporate blogJavaBig DataMachine learningHadoop
Все мы любим посмеяться над дремучим legacy на Java, которое якобы живёт в банках. После прочтения этой статьи у вас появится понимание другой грани этой истории. Оказывается, конкретно в Сбербанк-Технологиях есть целые большие отделы, занимающиеся прорывными технологиями и направлениями, включая Big Data и Machine Learning. Более того, скоро мы можем оказаться в мире, где Machine Learning встроен чуть ли не в каждую кофеварку. К добру или к худу, но Internet of Things, следящий за нами тысячью глаз из каждого банкомата, — куда более актуальное прочтение этой старой шутки.

Как вы, наверное, заметили, я пишу на Хабре про виртуальные машины, внутренности OpenJDK, JVM и другую системную разработку. Почему эта статья — о банковском софте? Потому что это актуально как никогда. Вот представьте, вы такой весь в белом, дважды Data Scientist и четырежды важный гуру JIT-компиляции. Что дальше? Кому всё это может быть нужно прямо здесь и сейчас? Часто слышу рассуждения на тему: «Вот сейчас ты ковыряешься в своей любимой Java, а завтра никто тебя на работу не возьмёт». Это очень забавное и опасное заблуждение. Благодаря таким товарищам, о которых пойдёт речь в этой статье, работа у нас будет всегда.

Конечно, на слово мне никто верить не должен, поэтому специально для Хабра я сорвался на самолёт в Москву, чтобы пообщаться с начальником отдела разработки спецпроектов в Сбербанк-Технологиях. Вадим Сурпин потратил на меня чуть больше часа, а в этом интервью будут только самые важные мысли из нашего разговора. Кроме того, удалось уговорить Вадима подать заявку на участие в нашей конференции JBreak. Более того, Вадим — первый человек, который показался мне достойным инвайта на Хабр: vadsu (инвайт был честно заработан статьей про хакинг ChromeDriver).

Читать дальше →
Total votes 46: ↑40 and ↓6+34
Views29K
Comments 24

NewSQL = NoSQL+ACID

Одноклассники corporate blogIT InfrastructureNoSQLDatabase AdministrationDistributed systems

До недавнего времени в Одноклассниках около 50 ТБ данных, обрабатываемых в реальном времени, хранилось в SQL Server. Для такого объема обеспечить быстрый и надежный, да еще и устойчивый к отказу ЦОД доступ, используя SQL СУБД, практически невозможно. Обычно в таких случаях используют одно из NoSQL-хранилищ, но не всё можно перенести в NoSQL: некоторые сущности требуют гарантий ACID-транзакций.

Это подвело нас к использованию NewSQL-хранилища, то есть СУБД, предоставляющей отказоустойчивость, масштабируемость и быстродействие NoSQL-систем, но при этом сохраняющей привычные для классических систем ACID-гарантии. Работающих промышленных систем этого нового класса немного, поэтому мы реализовали такую систему сами и запустили ее в промышленную эксплуатацию.

Как это работает и что получилось — читай под катом.
Читать дальше →
Total votes 61: ↑60 and ↓1+59
Views29K
Comments 60

Cassandra для хранения метаданных: успехи и провалы

Конференции Олега Бунина (Онтико) corporate blogHigh performanceDatabase AdministrationData storage
Каким требованиям должно удовлетворять хранилище метаданных для облачного сервиса? Да не самого обычного, а для enterprise с поддержкой географически распределенных датацентров и Active-Active. Очевидно, система должна хорошо масштабироваться, быть отказоустойчивой и хотелось бы, чтобы было возможно реализовать настраиваемую консистентность операций.

Под все эти требования подходит только Cassandra, а ничто другое не подходит. Надо заметить, Cassandra действительно классная, но работа с ней напоминает американские горки.


В докладе на Highload++ 2017 Андрей Смирнов (smira) решил, что о хорошем говорить неинтересно, зато подробно рассказал, про каждую проблему, с которой пришлось столкнуться: про потерю и порчу данных, про зомби и потерю производительности. Эти истории и вправду напоминают катание на горках, но на все проблемы находится решение, за которым добро пожаловать под кат.

О спикере: Андрей Смирнов работает в компании Virtustream, реализующей облачное хранилище для enterprise. Идея состоит в том, что условно Amazon делает облако для всех, а Virtustream делает специфические вещи, которые необходимы большой компании.

Читать дальше →
Total votes 38: ↑37 and ↓1+36
Views16K
Comments 15

CRDT: Conflict-free Replicated Data Types

ProgrammingSystem Analysis and DesignAlgorithmsMathematicsDistributed systems

Как считать хиты страницы google.com? А как хранить счётчик лайков очень популярных пользователей? В этой статье предлагается рассмотреть решение этих задач с помощью CRDT (Conflict-free Replicated Data Types, что по-русски переводится примерно как Бесконфликтные реплицированные типы данных), а в более общем случае — задачи синхронизации реплик в распределённой системе с несколькими ведущими узлами.
Читать дальше →
Total votes 20: ↑19 and ↓1+18
Views22K
Comments 14

Cassandra Sink для Spark Structured Streaming

ScalaApacheBig Data
Sandbox
Пару месяцев назад я начала изучать Spark, и в какой-то момент столкнулась с проблемой сохранения вычислений Structured Streaming в базе данных Cassandra.

В данном посте я привожу простой пример создания и использования Cassandra Sink для Spark Structured Streaming. Я надеюсь, что пост будет полезен тем, кто недавно начал работать со Spark Structured Streaming и задается вопросом, как выгружать результаты вычислений в базу данных.

Идея приложения очень проста — получить и распарсить сообщения из кафки, выполнить простые трансформации в спарке и сохранить результаты в кассандре.
Читать дальше →
Total votes 12: ↑11 and ↓1+10
Views3.2K
Comments 0

DataGrip 2018.3: поддержка Cassandra, генерация SQL-файлов из объектов, много улучшений в автодополнении и многое другое

JetBrains corporate blogPostgreSQLSQLNoSQLDatabase Administration
Привет! Это рассказ о том, что нового в нашем плагине для баз данных. Мы выпускаем его, как отдельный продукт DataGrip, и поставляем почти во все другие наши IDE. Будет много картинок и гифок. Для тех, кому лень их смотреть:

  • Поддержка Cassandra
  • Создание SQL-файлов из объектов схемы
  • Новые инспекции
  • Много новых штук в автодополнении
  • Работа с источником данных через одно подключение
  • Новый поиск
  • Высококонтрастная цветовая схема

Спасибо тем, кто пробует EAP-версии и сообщает в наш трекер о проблемах: это помогает не дотащить их до релиза :) Активные пользователи уже получили бесплатные подписки на год.

image
Читать дальше →
Total votes 34: ↑32 and ↓2+30
Views6.9K
Comments 20

Как не превратиться в стрекозу, если у вас много разных баз данных

Gals Software corporate blogPostgreSQLSQLMicrosoft SQL ServerDevOps


На фотографии макрофото глаз стрекозы. Они имеют фасеточное строение и состоят примерно из 30000 шестиугольных фасетов, что позволяет стрекозе смотреть практически на 360 градусов (за исключением направления «прямо назад»). Полезное умение, если ты стрекоза.

Когда в организации «зоопарк» баз данных, а их унификация на горизонте даже не просматривается, нужно прилагать усилия, чтобы успевать управлять и следить за их работой. Посмотрите ещё раз на стрекозу.

В статье расскажем об инструменте мониторинга Foglight for Databases, который объединяет в одной консоли мониторинг SQL Server, Oracle, MySQL, PostgreSQL, DB2, SAP ASE, MongoDB и Cassandra. В нём также есть лёгкий налёт DevOps в части логирования изменений в конфигурации баз данных. Обо всём по порядку. Под катом много скриншотов.
Читать дальше →
Total votes 13: ↑13 and ↓0+13
Views6.3K
Comments 3

ok.tech: Cassandra meetup

Одноклассники corporate blogNoSQLDatabase AdministrationData storagesDistributed systems


Работаете с NoSQL-хранилищем Apache Cassandra?


23 мая Одноклассники приглашают опытных разработчиков в свой офис в Петербурге на митап, посвященный работе с Apache Cassandra. Важен лишь ваш опыт работы с Cassandra и желание им поделиться.
Зарегистрироваться на мероприятие
Читать дальше →
Total votes 19: ↑19 and ↓0+19
Views2K
Comments 4

Основы проектирования баз данных – сравнение PostgreSQL, Cassandra и MongoDB

OTUS corporate blogProgrammingSQLDatabase Administration
Translation
Здравствуйте, друзья. Перед уходом на вторую часть майских праздников делимся с вами материалом, который мы перевели в преддверии запуска нового потока по курсу «Реляционные СУБД».



Разработчики приложений тратят много времени на сравнение нескольких операционных баз данных, чтобы выбрать ту, которая лучше всего подойдет для предполагаемой рабочей нагрузки. Потребности могут включать в себя упрощенное моделирование данных, транзакционные гарантии, производительность чтения/записи, горизонтальное масштабирование и отказоустойчивость. По традиции выбор начинается с категории базы данных, SQL или NoSQL, поскольку каждая категория предоставляет четкий набор компромиссов. Высокая производительность с точки зрения низкой задержки и высокой пропускной способности обычно рассматривается как требование не допускающее компромиссов, и поэтому является необходимым для любой базы данных из выборки.
Читать дальше →
Total votes 11: ↑6 and ↓5+1
Views19K
Comments 5

Архитектура биллинга нового поколения: трансформация с переходом на Tarantool

Mail.ru Group corporate blogКонференции Олега Бунина (Онтико) corporate blogHigh performanceSystem Analysis and DesignNoSQL
Зачем такой корпорации, как МегаФон, Tarantool в биллинге? Со стороны кажется, что обычно приходит вендор, приносит какую-то большую коробку, втыкает штекер в розетку — вот и биллинг! Когда-то так и было, но сейчас это архаика, и такие динозавры уже вымерли или вымирают. Изначально биллинг это система для выставления счетов — считалка или калькулятор. В современном телекоме — это система автоматизации всего жизненного цикла взаимодействия с абонентом от заключения договора до расторжения, включая real-time-тарификацию, прием платежей и еще много чего. Биллинг в телеком-компаниях похож на боевого робота — большого, мощного и обвешанного оружием.



Причем же здесь Tarantool? Об этом расскажут Олег Ивлев и Андрей Князев. Олег — главный архитектор компании МегаФон с огромным опытом работы в зарубежных компаниях, Андрей — директор по бизнес-системам. Из расшифровки их доклада на Tarantool Conference 2018 вы узнаете, зачем нужен R&D в корпорациях, что такое Tarantool, как тупик вертикального масштабирования и глобализация стали предпосылками появления этой БД в компании, про технологические вызовы, трансформацию архитектуры, и чем техностек МегаФон похож на Netflix, Google и Amazon.
Читать дальше →
Total votes 42: ↑36 and ↓6+30
Views11K
Comments 9

Как мы тестировали несколько баз данных временных рядов

ITSumma corporate blogIT systems testingDatabase AdministrationData storageDIY


За последние несколько лет базы данных временных рядов (Time-series databases) превратились из диковинной штуки (узкоспециализированно применяющейся либо в открытых системах мониторинга (и привязанной к конкретным решениям), либо в Big Data проектах) в «товар народного потребления». На территории РФ отдельное спасибо за это надо сказать Яндексу и ClickHouse’у. До этого момента, если вам было необходимо сохранить большое количество time-series данных, приходилось либо смириться с необходимостью поднять монструозный Hadoop-стэк и сопровождать его, либо общаться с протоколами, индивидуальными для каждый системы.

Может показаться, что в 2019-м году статья про то, какую TSDB стоит использовать, будет состоять лишь из одного предложения: «просто используйте ClickHouse». Но… есть нюансы.

Действительно, ClickHouse активно развивается, пользовательская база растет, а поддержка ведется очень активно, но не стали ли мы заложниками публичной успешности ClickHouse'а, которая затмила другие, возможно, более эффективные/надежные решения?

В начале прошлого года мы занялись переработкой нашей собственной системы мониторинга, в процессе которой встал вопрос о выборе подходящей базы для хранения данных. Об истории этого выбора я и хочу здесь рассказать.
Читать дальше →
Total votes 45: ↑39 and ↓6+33
Views11K
Comments 16

ок.tech: Cassandra Meetup #2

Одноклассники corporate blogNoSQLDatabase AdministrationData storagesDistributed systems


В конце мая мы провели первый митап, посвященный Apache Cassandra, в рамках мероприятия мы рассмотрели типичные конфигурации нод и кластеров в различных production инсталляциях, обсудили, как расширять кластера с ростом объёмов данных и нагрузки и как заменять отказавшие узлы с минимальным эффектом для клиентов, выяснили, как мониторить кластера, чтобы заблаговременно понимать, где и что именно работает не так, затронули проблемы деплоя новых версий Cassandra.

Но многие темы оказались за рамками встречи и поэтому мы решили продолжить!

Зарегистрироваться на ок.tech Cassandra Meetup #2
Читать дальше →
Total votes 16: ↑12 and ↓4+8
Views1.3K
Comments 5

Установка Apache Cassandra на Windows

NoSQLDevelopment for Windows
Tutorial

Для локальной отладки сервиса мне понадобилось установить Apache Cassandra на Windows 10. Нормальный установщик был только у компании DataStax, но они прекратили его поддерживать.


В данной статье я опишу, как установить Apache Cassandra на Windows в виде сервиса.

Читать дальше →
Total votes 9: ↑7 and ↓2+5
Views6.6K
Comments 5

Мини-интервью Олега Анастасьева: отказоустойчивость в Apache Cassandra

Одноклассники corporate blogNoSQLConferencesDevOpsDistributed systems


Одноклассники – самый крупный пользователь Apache Cassandra в Рунете и один из крупнейших в мире. Мы начали использовать Cassandra в 2010 для хранения оценок фото, а сейчас под управлением Cassandra находятся петабайты данных на тысячах нод, более того, мы даже разработали свою собственную NewSQL транзакционную БД.
12 сентября в своём петербургском офисе мы проведем второй митап, посвященный Apache Cassandra. Основным спикером мероприятия станет станет главный инженер Одноклассников Олег Анастасьев. Олег – эксперт в области распределённых и отказоустойчивых систем, он работает с Cassandra уже более 10 лет и неоднократно рассказывал об особенностях эксплуатации этого продукта на конференциях.

В преддверии митапа мы поговорили с Олегом про отказоустойчивость распределённых систем с Cassandra, поинтересовались о чем он будет рассказывать на митапе и почему стоит посетить это мероприятие.
Читать дальше →
Total votes 27: ↑25 and ↓2+23
Views3.2K
Comments 0

QIWI Server Party 5.0

QIWI corporate blogDatabase AdministrationIT careerConferencesMicroservices
Привет!

Мы собираем QIWI Server Party в пятый раз — уже через 10 дней, 17 октября, мы соберемся на улице Правды, дом 24 стр. 3.

Остаёмся привержены традициям — бесплатное участие для тех, кто заранее зарегистрировался, трансляция и интересные выступления спикеров (которых будет целых 8).


Читать дальше →
Total votes 17: ↑17 and ↓0+17
Views1.7K
Comments 1

Митя Александров и Дмитрий Константинов на встрече jug.msk.ru

JUG Ru Group corporate blogJava
23 октября 2019 года, за пару дней до конференции Joker 2019, состоялась встреча московского сообщества Java-разработчиков jug.msk.ru. С докладами выступили Митя Александров (про MicroProfile) и Дмитрий Константинов (про Cassandra).


Читать дальше →
Total votes 14: ↑13 and ↓1+12
Views972
Comments 0

Миграция Cassandra в Kubernetes: особенности и решения

Флант corporate blogSystem administrationDatabase AdministrationDevOpsKubernetes


С базой данных Apache Cassandra и необходимостью её эксплуатации в рамках инфраструктуры на базе Kubernetes мы сталкиваемся регулярно. В этом материале поделимся своим видением необходимых шагов, критериев и существующих решений (включая обзор операторов) для миграции Cassandra в K8s.
Читать дальше →
Total votes 41: ↑39 and ↓2+37
Views7.3K
Comments 16

Интерфейсы для мониторинга производительности популярных БД в Foglight for Databases

Gals Software corporate blogOraclePostgreSQLSQLMicrosoft SQL Server


В прошлых статьях мы рассказывали о мониторинге различных БД в Quest Foglight for Databases и о подходе к быстрой локализации проблем производительности SQL Server. В этой мы покажем какие ещё дашборды можно использовать на основе собираемых метрик. А метрик этих достаточно. Под катом скриншоты интерфейса и описания к ним.
Читать дальше →
Total votes 14: ↑14 and ↓0+14
Views2.9K
Comments 0

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data

Plarium corporate blogData MiningBig Data
Translation
Перед вами перевод статьи из блога Seattle Data Guy. В ней авторы выделили 5 наиболее популярных ресурсов для обработки Big Data на текущий момент.



Сегодня любая компания, независимо от ее размера и местоположения, так или иначе имеет дело с данными. Использование информации в качестве ценного ресурса, в свою очередь, подразумевает применение специальных инструментов для анализа ключевых показателей деятельности компании. Спрос на аналитику растет пропорционально ее значимости, и уже сейчас можно определить мировые тенденции и перспективы в этом секторе. Согласно мнению International Data Corporation, в 2019 году рынок Big Data и аналитики готов перешагнуть порог в 189,1 миллиарда долларов.
Читать дальше →
Total votes 14: ↑9 and ↓5+4
Views8.5K
Comments 8