bikutoru Nov 16 2018 at 12:32

Конференция Velocity London от O'Reilly: обзор и слайды

9 min

2.7K

Badoo corporate blogHigh performance*Website development*ConferencesPresentations

Velocity — это конференция, которая посвящена распределённым системам. Её организует издательство O'Reilly, и она проходит трижды в год: один раз в Калифорнии, один раз в Нью-Йорке и один раз в Европе (причём город меняется каждый год).

В 2018 году конференция была в Лондоне с 30 октября по 2 ноября. Главный офис Badoo находится там же, так что у нас с коллегами было сразу два повода съездить на Velocity.

Её устройство оказалось несколько сложнее, чем то, с каким я сталкивался на российских конференциях. Кроме достаточно привычных двух дней докладов тут было еще два дня тренингов, которые можно брать полностью, частично или не брать совсем. Всё вместе это превращается с серьёзный квест по выбору типа нужного билета.

В этом обзоре я расскажу про те доклады и мастер-классы, которые мне запомнились. К некоторым докладам я прикладываю ссылки на дополнительные материалы. Частично это материалы, на которые ссылались авторы, а частично материалы для дальнейшего изучения, которые я нашёл сам.

Общее впечатление от конференции: авторы очень хорошо выступают (а keynote сессии — это целое шоу с представлением спикеров и их выходом на сцену под музыку), но при этом мне попалось мало докладов, которые были бы глубокими именно с технической точки зрения.

Самая "горячая" тема этой конференции — Kubernetes, который упоминается чуть ли не в каждом втором докладе.

Очень хорошо выстроена работа с соцсетями: в официальном twitter-аккаунте во время конференции было очень много оперативных ретвитов с материалами докладов. Это позволяло бегло посмотреть, что происходит в других залах.

Мастер-классы

31 октября был день, когда докладов не было, но происходило шесть или восемь мастер-классов по три часа чистого времени каждый, из которых нужно было выбрать два.

P.S. В оригинале они называются tutorial, но мне кажется правильным перевести их как "мастер-класс".

Chaos Engineering Bootcamp

Ведущая: Ana Medina, инженер в компании Gremlin | Описание

Мастер-класс был посвящён введению в chaos engineering. Ана бегло рассказала, что это такое, какую пользу приносит, продемонстрировала, как его можно использовать, какое ПО может помочь и как начать использовать его в компании.

В целом, это было хорошее введение для начинающих, но мне не очень понравилась практическая часть, которая представляла собой развёртывание демонстрационного web-приложения в кластере из нескольких машин с помощью Kubernetes и прикручивания к нему мониторинга от DataDog. Главная проблема заключалась в том, что мы на это потратили почти половину времени мастер-класса и это было нужно только для того, чтобы 5-10 минут поиграться со скриптами, эмулирующими различные проблемы в кластере, и посмотреть на изменения в графиках.

Мне кажется, что для этого же эффекта достаточно было дать доступ к заранее настроенному DataDog и/или продемонстрировать это всё со сцены, а это время потратить, например, на более подробный обзор и примеры использования того же Chaos Monkey, про который было просто рассказано буквально пару фраз.

Интересное: на этой конференции докладчики достаточно часто упоминали термин "blast radius", который до этого мне не встречался. Им обозначали часть системы, которая оказывается задета при возникновении конкретной проблемы.

Дополнительные материалы:

Chaos Engineering: The History, Principles, and Practice
Chaos Monkey Guide for Engineers
Репозиторий со скриптами для эмуляции проблем в системе (скрипты использовались в мастер-классе и там же есть ссылки на презентацию с аналогичного мастер-класса)
Chaos Engineering Monitoring & Metrics Guide
Planning Your Own Chaos Day

Building evolutionary infrastructure

Ведущий: Kief Morris, консультант по инфраструктуре и автор книги "Infrastructure as a code" | Описание

Основные тезисы мастер-класса можно свести к двум вещам:

Системы всё время меняются, поэтому нормально, что инфраструктура тоже должна меняться;
Раз инфраструктура меняется, то нужно добиться, чтобы это было просто и безопасно, а добиться этого можно только автоматизацией.

Основная часть его рассказа была посвящена именно автоматизации изменения инфраструктуры, возможным вариантам решения этой проблемы и тестированию изменений. Я не специалист в этой теме, но мне показалось, что он рассказывал очень уверенно и подробно (и очень быстро).

Основной момент, который мне запомнился из этого мастер-класса, — рекомендация максимально выносить различия между средами (продакшен, стейджинг и т.д.) из кода в переменные окружения. Это уменьшит вероятность возникновения ошибок в инфраструктуре при смене среды и сделает её более тестируемой.

Доклады

1 и 2 ноября были дни докладов. Они были разбиты два принципиальных блока: серия из трёх или четырёх коротких keynote докладов, которые шли с утра в один поток (и для них собирался большой зал из двух меньших по размеру) и более длинные тематические доклады в пять потоков, которые шли весь остальной день. В течение дня было несколько больших пауз между докладами, когда можно было погулять по экспо со стендами партнёров конференции.

Evolution of Runtastic Backend

Simon Lasselsberger (Runtastic GmbH) | Описание и слайды

Один из немногих докладов, в которых автор не просто рассказывал, как что-то нужно делать, а показывал детали конкретного проекта и что с ним происходило.

В начале у Runtastic была общая база данных Percona Server и монолит с кодом, обслуживающим мобильные приложения и сайт. Потом они стали писать в Cassandra (не помню, по какой причине именно в неё) часть данных, для которых было достаточно key-value хранилища. Постепенно база пухла, и они добавили MongoDB, в который стали писать данные из большинства сервисов. Со временем они сделали общий уровень, который обслуживает запросы и от web, и от мобильных приложений (что-то вроде нашей апификации, насколько я понял).

Большая часть доклада была посвящена переездам между дата-центрами. Сначала они держали сервера в Hetzner, который через какое-то время посчитали недостаточно стабильным и смигрировали данные в T-Systems. А еще через несколько лет они столкнулись с нехваткой места уже там и переехали еще раз в Linz AG. Самая интересная часть тут — это миграция данных. Они запустили копирование данных, которое длилось несколько месяцев. Они не могли столько ждать, т.к. у них заканчивалось место, и они не могли его добавить, поэтому они сделали в коде fallback, который пытался читать данные из старого дата-центра в случае, если не их не было в новом.

В будущем они планируют разделить данные на несколько отдельных дата-центров (Симон несколько раз говорил, что это нужно для России и Китая) и жестко разделить базы данных по отдельным сервисам (сейчас используется общий пул на все сервисы).

Любопытный подход к проектированию модулей в системе, про который Симон вскользь упоминал: hexagonal architecture.

Allow an application to equally be driven by users, programs, automated test or batch scripts, and to be developed and tested in isolation from its eventual run-time devices and databases.

Alistair Cockburn

Дополнительные материалы:

Monitoring custom metrics; or, How I learned to instrument first and ask questions later

Maxime Petazzoni (SignalFx) | Описание и презентация

Рассказ был посвящён сбору метрик, необходимых для понимания работы приложения. Основной посыл заключался в том, что обычных RED-метрик (Rate, Errors, and Duration) совершенно не достаточно, и кроме них нужно сразу собирать и другие, которые помогут понимать, что происходит внутри приложения.

Тезисно автор предлагал собирать каунтеры и таймеры для каких-то важных действий в системе (и обязательно счётчики отказов), строить по ним графики и гистограммы распределения, определить мета-модель для пользовательских метрик (чтобы у разных метрик был один и тот же набор обязательных параметров и одни и те же значения везде называли одинаково).

Словами пересказывать детали достаточно тяжело, проще будет посмотреть подробности и примеры в презентации, ссылка на которую есть на странице доклада на сайте конференции.

Дополнительные материалы:

Monitoring and Observability with USE and RED

How serverless changes the IT department

Paul Johnston (Roundabout Labs) | Описание и презентация

Автор представился как CTO и environmentalist, рассказал, что serverless — это не технологическое, а бизнес-решение ("You pay nothing if it's unused"). Потом описал best practices для работы с serverless, какие компетенции нужны для работы с ним и как это влияет на выбор новых сотрудников и работу с уже имеющимися.

Ключевым моментом "влияния на IT-департамент", который я запомил, было смещение необходимых компетенций от просто написания кода к работе с инфраструктурой и её автоматизацией ("More "engineering" than "developing"). Всё остальное было довольно банально (нужно постоянно проводить code review, документировать потоки данных и события, доступные для использования в системе, больше общаться и быстро учиться), но почему-то автор относил их к особенностям именно serverless.

В целом, доклад показался немного неоднозначным. Многие вещи, про которые говорил спикер, можно отнести к любой сложной системе, которая не помещается в голову целиком.

Дополнительные материалы:

Serverless Best Practices — статья автора c раскрытием best practices

Don't panic! How to cope now that you're responsible for production

Euan Finlay (Financial Times) | Описание и презентация

Доклад о том, как разбираться с инцидентами на продакшене, если прямо сейчас что-то идёт не так. Основные тезисы были разбиты на части по времени.

До инцидента:

разграничьте алёрты по критичности — возможно, какие-то могут подождать, и с ними не нужно срочно разбираться;
заранее подготовьте план для разбора инцидентов и поддерживайте документацию в актуальном состоянии;
проводите учения — ломайте что-то и смотрите, что происходит (aka chaos engineering);
заведите единое место, куда стекается вся информация о изменениях и проблемах.

Во время инцидента:

это нормально, что вы не знаете всего — привлекайте других людей, если это необходимо;
заведите единое место для общения людей, работающих над решением инцидента;
ищите максимально простое решение, которое вернёт продакшен в рабочее состояние, а не пытайтесь полностью решить проблему.

После инцидента:

разберитесь, почему возникла проблема и чему это вас научило;
важно написать отчёт об этом ("incident report");
определите, что может быть улучшено, и запланируйте конкретные действия.

В конце Юэн рассказал забавную историю инцидента в Financial Times, который возник из-за того, что по ошибке была модифицирована продакшен база (которая называлась prod) вместо предпродакшен (pprod), и посоветовал избегать настолько похожих названий.

Learning from the web of life (Keynote)

Claire Janisch (BiomimicrySA) | Описание

На этот доклад я опоздал, но в Твиттере про него очень хорошо отзывались. Нужно посмотреть, если попадётся.

Видео с фрагментом выступления можно посмотреть на сайте конференции.

The Misinformation Age (Keynote)

Jane Adams (Two Sigma Investments) | Описание

Философский доклад на тему "можем ли мы доверять алгоритмам принятие решений". Общий вывод был, что нет: алгоритм может оптимизировать конкретные метрики, но при этом серьёзно влиять на то, что сложно измерить или лежит за пределами этих метрик (в качестве примера была дискриминация в алгоритме найма сотрудников в Amazon, что отрицательно влияло на культуру в компании и заставило отказаться от этого алгоритма).

The Freedom of Kubernetes (Keynote)

Kris Nova | Описание

Я оттуда запомнил две мысли:

гибкость — это не свобода, а хаос;
сложность сама по себе не проблема, если она несёт какую-то ценность (в оригинале это называлось "necessary complexity"), которая превышает стоимость этой сложности.

Доклад был достаточно философский, поэтому, с одной стороны, у меня не получилось вынести из него много, но с другой то, что всё-таки вынес, применимо не только в Kubernetes.

What changes when we go offline-first? (Keynote)

Martin Kleppmann (University of Cambridge), автор книги "Designing Data-Intensive Applications" | Описание

Доклад состоял из двух логических частей: в первой Мартин рассказал о проблеме синхронизации между собой данных, которые могут изменяться в нескольких источниках независимо друг от друга, а во второй рассказал про возможные варианты решений и алгоритмы, которые можно для этого использовать (operational transformation, OT, и conflict-free replicated data type, CRDT)) и предложил своё решение — библиотеку automerge для разрешения таких проблем.

Дополнительные материалы:

A programmer's guide to secure connections

Докладчик: Liz Rice | Описание и слайды

Доклад проходил в виде live coding сессии, и в нём Лиз показала, как работает HTTPS, какие ошибки могут возникать при работе с защищёнными соединениями и как их решать. Каких-то больших глубин там не было, но сама демонстрация была очень хорошая.

Самое полезное: слайд с основными ошибками (он же с доклада Лиз на другой конференции):

Дополнительные материалы:

Код и слайды с подобного доклада

Everything you wanted to know about monorepos but were afraid to ask

Simon Stewart (Selenium Project) | Описание

Основной тезис доклада — в монорепо гораздо проще управлять зависимостями в коде, и это перекрывает все плюсы отдельных репозиториев. Апеллировал к тому, что Google и Microsoft хранят данные в одном репозитории (размерами 86 Tb и 300 Gb соответственно), а репозиторий Facebook (54 Gb файлов) использует "off the shell mercurial".

Зал "взорвался" после вопроса "У кого в компании репозиториев больше, чем сотрудников?"

Аргумент "с большим репозиторием медленно работать" разбивал следующим образом:

вам необязательно забирать на локальную машину всю историю изменений: используйте shadow clone и sparse checkout;
вам необязательно использовать все файлы из репозитория: организуйте иерархию файлов и работайте только с нужной директорией, а всё остальное исключайте.

Дополнительные материалы:

Building a distributed real-time stream processing system

Amy Boyle (New Relic) | Описание и презентация

Хороший рассказ про работу с потоковыми данными от инженера из NewRelic (где у них явно много опыта по работе с такими данными). Эми рассказала, что собой представляет работа с потоковыми данными, как их можно агрегировать, что можно делать с запаздывающими данными, как можно шардировать потоки событий и как их перебалансировать при отказах обработчиков, что мониторить и т.д.

В докладе было очень много материала, не буду пытаться его пересказать, а просто порекомендую посмотреть саму презентацию (она уже есть на сайте конференции).

Architecting for TV

David Buckhurst (BBC), Ross Wilson (BBC) | Описание

Большая часть доклада была посвящена фронтэнду BBC. У ребят есть интерактивное телевидение и много телевизоров и других устройств (компьютеров, телефонов, планшетов), на которых это должно работать. С разными устройствами нужно работать совершенно по-разному, поэтому они придумали свой язык на базе JSON для описания интерфейсов и транслируют его в то, что умеет понимать конкретное устройство.

Основной вывод для меня — по сравнению с телевизионщиками у мобильных приложений нет никаких проблем со старыми клиентами.

Tags:

Hubs:

Конференция Velocity London от O'Reilly: обзор и слайды

Мастер-классы

Chaos Engineering Bootcamp

Building evolutionary infrastructure

Доклады

Evolution of Runtastic Backend

Monitoring custom metrics; or, How I learned to instrument first and ask questions later

How serverless changes the IT department

Don't panic! How to cope now that you're responsible for production

Learning from the web of life (Keynote)

The Misinformation Age (Keynote)

The Freedom of Kubernetes (Keynote)

What changes when we go offline-first? (Keynote)

A programmer's guide to secure connections

Everything you wanted to know about monorepos but were afraid to ask

Building a distributed real-time stream processing system

Architecting for TV

Articles

Information