Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Интенсив по SRE 21–23 мая в Москве

Блог компании SouthbridgeПрограммированиеIT-инфраструктураКарьера в IT-индустрииDevOps


Внедрить SRE-подход, когда в команде нет опытного SRE-специалиста получается только через пробы и ошибки. Чтобы такие ошибки не стоили дорого, можно перенять опыт коллег из других компаний. Приглашаем на интенсив по SRE 21–23 мая 2021 года.


Формат интенсива: офлайн или онлайн на выбор.

Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Просмотры586
Комментарии 0

Сотрудник Google уволен за нарушение приватности

IT-компании
Мы доверяем Google личные данные и надеемся, что компания обеспечит максимальную конфиденциальность. На самом деле она не может. Даже несмотря на титаническую работу Google по отсеву потенциальных кандидатов, среди 20 тыс. сотрудников обязательно найдётся «паршивая овца».

Программист Google в течение нескольких месяцев шпионил за пользователями Gmail и Google Voice, прежде чем его обнаружили. Сегодня компания официально подтвердила этот факт и признала проблемы в обеспечении конфиденциальной информации.

27-летний Дэвид Берксдейл (David Barksdale) был уволен в июле 2010 года. Он занимал должность Site Reliability Engineer (SRE) и имел неограниченный доступ к аккаунтам пользователей.
Читать дальше →
Всего голосов 132: ↑122 и ↓10 +112
Просмотры4.2K
Комментарии 151

Site Reliability Engineering: антология мудрости Google или новое слово в DevOps

Блог компании Издательский дом «Питер»Разработка веб-сайтовIT-стандартыПрофессиональная литература
Перевод
Здравствуйте, уважаемые читатели!

Полагаем, не только нас заинтересовала книга "Site Reliability Engineering", написанная большим коллективом авторов из Google. Мало того, что она продолжает занимать первые строчки всевозможных рейтингов Amazon; самое интересное, что в ней дается действительно доступная и исчерпывающая информация о безупречной эксплуатации систем любой сложности.



Более того, нас в перспективе интересует и более общая обзорная книга по методологии DevOps, выхода которой мы с нетерпением дожидаемся:



Поскольку мы практически убеждены, что варан с быком составят идеальную пару, остается надеяться на не меньший читательский интерес к SRE и DevOps. Предлагаем изучить немного сокращенный обзор книги «Site Reliability Engineering». Автор статьи Майк Догерти — один из соавторов книги, частично ее вычитывавший.
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры34.6K
Комментарии 5

Интервью портала A Cloud Guru с Келси Хайтауэром: о DevOps, Kubernetes и serverless

Блог компании FunCorpОблачные вычисленияAmazon Web ServicesDevOpsGoogle Cloud Platform
Перевод

image


Наверняка не все знают, что по нагрузке и числу пользователей iFunny является настоящим highload-сервисом. API обслуживает в пиках порядка 15000 запросов в секунду, система аналитики обрабатывает около 5 миллиардов событий в сутки, а для поддержки полного функционала работает до 400 инстансов EC2. Поэтому для приложения очень важно иметь сильную команду инженеров. Чтобы решать типичные проблемы высоконагруженных систем и улучшать свою работу каждый день, команда iFunny постоянно ищет новые инструменты и решения. И в этот раз невозможно было пройти мимо интервью одного из основных контрибьюторов мирового IT-сообщества — Келси Хайтауэра. Достойно перевода и вашего внимания.

Читать дальше →
Всего голосов 19: ↑18 и ↓1 +17
Просмотры5.8K
Комментарии 0

Обзор книги Database Reliability Engineering

Блог компании Издательский дом «Питер»Анализ и проектирование системIT-инфраструктураАдминистрирование баз данныхПрофессиональная литература
Перевод
Здравствуйте, коллеги!

У нас только что пришла из типографии долгожданная фундаментальная работа Мартина Клеппмана, именуемая в оригинале "Designing Data-Intensive Applications" (анонсировали ее мы еще в сентябре 2016 года). Книга доступна для заказа на сайте (не благодарите, мы сами ликуем)



А в конце ноября прошлого года в издательстве «O'Reilly» вышла долгожданная книга «Database Reliability Engineering», которая, на наш взгляд, отлично дополнила бы работу Клеппмана. Кстати, пока на Amazon — только восторженные отзывы



Под катом мы предлагаем вам не только оптимистичный обзор книги с лошадкой, но и реалистичный комментарий к этому обзору, который, надеемся, также вас заинтересует
Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Просмотры8.4K
Комментарии 7

Книга «Высоконагруженные приложения. Программирование, масштабирование, поддержка»

Блог компании Издательский дом «Питер»Анализ и проектирование системIT-инфраструктураАдминистрирование баз данныхПрофессиональная литература
imageВ этой книге вы найдете ключевые принципы, алгоритмы и компромиссы, без которых не обойтись при разработке высоконагруженных систем для работы с данными. Материал рассматривается на примере внутреннего устройства популярных программных пакетов и фреймворков. В книге три основные части, посвященные, прежде всего, теоретическим аспектам работы с распределенными системами и базами данных. От читателя требуются базовые знания SQL и принципов работы баз данных.

В обзорном посте рассматривается раздел «Знание, истина и ложь».

Если у вас нет опыта работы с распределенными системами, то последствия этих проблем могут оказаться весьма дезориентирующими. Узел сети ничего не знает наверняка — он способен только делать предположения на основе получаемых (или не получаемых) им по сети сообщений. Один узел в силе узнать состояние другого узла (какие данные на нем хранятся, правильно ли он работает), только обмениваясь с ним сообщениями. Если удаленный узел не отвечает, то нет никакого способа выяснить его состояние, поскольку невозможно отличить сетевые проблемы от проблем в узле.
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Просмотры28.7K
Комментарии 6

Мониторинг распределённых систем — опыт Google (перевод главы книги Google SRE)

IT-инфраструктураЧитальный залDevOpsKubernetes
Перевод
Tutorial


SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 6 Monitoring Distributed Systems книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале @monitorim_it и блоге на Медиуме я публиковал также ссылку на перевод 4 главы этой же книги о целях уровня обслуживания.

Перевод по катом. Приятного чтения!
Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Просмотры5.3K
Комментарии 3

Цели уровня обслуживания — опыт Google (перевод главы книги Google SRE)

IT-инфраструктураЧитальный залDevOpsKubernetes
Перевод
Tutorial
image

SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 4 Service Level Objectives книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале monitorim_it и прошлом посте на Хабре я публиковал также перевод 6 главы этой же книги о мониторинге распределённых систем.

Перевод по катом. Приятного чтения!
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры4K
Комментарии 1

11—13 декабря онлайн-интенсив SRE: Одна из самых востребованных IT-профессий в мире

Блог компании SouthbridgeСистемное администрированиеСерверное администрированиеDevOpsKubernetes

Как совсем недавно была мода и высокий спрос на DevOps-инженеров, так сейчас рекрутеры крупнейших компаний ищут Site Reliability Engineer. Достаточно зайти на сайты крупнейших компаний, лидеров IT-рынка, чтобы в этом убедиться. Apple, Google, Booking, Amazon.


Site Reliability Engineering — это билет в открытый мир IT. Любая страна, любая IT-компания.


От Apple до Google






На три дня вы погрузитесь в теорию и практику SRE: разработаете и будете поддерживать сайт, состоящий из нескольких микросервисов.


Научитесь правильно распределять ограниченные ресурсы для обеспечения быстродействия, отказоустойчивости и доступности сайта для максимальной надежности, достаточной, чтобы были довольны пользователи.


Читать дальше →
Всего голосов 19: ↑11 и ↓8 +3
Просмотры1.2K
Комментарии 2

«Цель SRE — надёжная система». Обзор основных метрик SRE

Блог компании SouthbridgeСистемное администрированиеIT-инфраструктураУправление разработкойDevOps

Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году.


В статье опишем, как SRE-подход соотносится с DevOps, какие задачи решает инженер по SRE и о каких показателях заботится.


Читать дальше →
Всего голосов 22: ↑22 и ↓0 +22
Просмотры14.3K
Комментарии 1

Митап по SRE: вторник, 3 ноября, 19:00 по Москве

Блог компании SouthbridgeСистемное администрированиеIT-инфраструктураУправление разработкойDevOps


Слёрм приглашает на митап «Профессия SRE: практика и мифы». Поговорим про SRE с экспертами, обсудим вопросы участников.
Повестка дня:


  • Что такое SRE и зачем все это нужно IT и бизнесу?
  • SRE – хайп или проверенный подход?
  • Как с этим работать?
  • Практики SRE.
  • Как внедрить у себя?
  • Что нужно, чтобы стать SRE-инженером?

Начало митапа: 3 ноября, вторник, 19.00 МСК.

Читать дальше →
Всего голосов 13: ↑13 и ↓0 +13
Просмотры620
Комментарии 0

5 недель до старта интенсива по SRE

Блог компании SouthbridgeСистемное администрированиеIT-инфраструктураУправление разработкойDevOps


Команда Слёрма продолжает готовиться к интенсиву по SRE, который пройдет с 11 по 13 декабря 2020 в онлайне. Расскажем немного подробнее, что будет на интенсиве и как проходит подготовка.

Читать дальше →
Всего голосов 16: ↑13 и ↓3 +10
Просмотры951
Комментарии 0

Как Лёха стал инженером по SRE: выдуманная история про невыдуманные проблемы

Блог компании SouthbridgeСистемное администрированиеIT-инфраструктураУправление разработкойDevOps

Направление Site Reliability Engineering становится всё более популярным. Хайп не на пустом месте: проблемы и задачи, которые решает SRE, действительно насущны для многих компаний.

Популярность SRE растёт, но знаний о нём всё ещё недостаточно. Я не буду повторять формальные определения, а вместо этого расскажу несколько историй из жизни системного инженера Лёхи. Путь выдуманного Лёхи во многом похож на путь, который прошли реальные крупные компании, где впервые и возникли SRE-инженеры (даже если назывались иначе).

Через историю Лёхи вы узнаете о задачах, которые решает SRE, и причинах, по которым для решения этих задач пришлось выделять отдельный класс инженеров.

Читать дальше
Всего голосов 31: ↑30 и ↓1 +29
Просмотры8.9K
Комментарии 14

«Можно бить разработчиков за баги, а можно внедрить SRE» — о чём говорили на митапе Слёрма

Блог компании SouthbridgeСистемное администрированиеIT-инфраструктураУправление разработкойDevOps


Зачем нужно SRE, когда есть DevOps, что такое SLO и бюджет на ошибки, каким компаниям точно не надо внедрять новую методологию, существуют ли джуниор-инженеры по SRE и сколько платят опытным. Об этом и не только говорили на митапе Слёрма «Профессия SRE: практика и мифы».


На YouTube можно посмотреть видеозапись встречи, а здесь мы приводим текстовую версию разговора с некоторыми сокращениями.

Читать дальше →
Всего голосов 17: ↑12 и ↓5 +7
Просмотры4.8K
Комментарии 0

После DevOps: как стать SRE и устроиться на работу в Google

Системное администрированиеКарьера в IT-индустрииDevOps
Recovery mode

SRE — это Site Reliability Engineer


В IT отрасли это инженер, который отвечает за надежность очень сложных сервисов. Появилась профессия в Google и придумали методологию именно там. Оно и понятно, Гугл – это сервис, который использует весь мир. Это огромные мощности и большая сложность.

14 декабря в работе гугла был сбой, весь мир был в недоумении. Вот в таких случаях и нужен SRE-инженер. Он не должен допустить подобных промахов.

Методологию DevOps российский IT-рынок освоил раньше и теперь ведутся жаркие споры об SRE vs DevOps. Кто-то говорит, что это одно и тоже, кто-то, что SRE это нечто, что логично продолжает DevOps. В России профессия только появилась. Крупные банки, которые содержат большие мощности, стали серьезно задумываться о таких ребятах.

В общем, Пока все спорят, мы решили пообщаться об SRE и DevOps, а также о работе в Гугл и Тинькофф.

Одного SRE я нашла в Tinkoff, до этого он работал в Google – у первоисточника, так сказать. Зовут его Дима Масленников. Google мы уделили отдельное внимание, так как есть стереотип, что работать там весело. Мы выяснили, что не всем.

Читать дальше →
Всего голосов 14: ↑8 и ↓6 +2
Просмотры3.4K
Комментарии 2

Книжка Google по SRE и трехдневный интенсив в мае

Блог компании SouthbridgeПрограммированиеIT-инфраструктураКарьера в IT-индустрииDevOps


С 2016 года вышло немало статей, разборов, мнений о книге Google «Site Reliability Engineering». Книги – это мощь, поэтому мы не будем однобокими – поищем хорошее и не очень.
А на проблемы внесём конструктивное предложение и расскажем об одном из возможных вариантов во вселенной: практическом офлайн-интенсиве «SRE» от Слёрм.
Читать дальше →
Всего голосов 19: ↑8 и ↓11 -3
Просмотры2.1K
Комментарии 5

«SRE — это не только про алертинг и постмортемы, а ещё про то, чтобы до продакшена не доходил код, который будит ночью»

Блог компании SouthbridgeПрограммированиеIT-инфраструктураУчебный процесс в ITDevOps


21 мая в «Слёрме» начнётся интенсив по SRE. На три полных дня участники погрузятся в теорию и практику поддержки высоконагруженных сервисов. Никаких задач по работе, никаких семейных дел — только учёба. Под катом рассказываем, что вас ждёт, если решите присоединиться.
Читать дальше →
Всего голосов 10: ↑7 и ↓3 +4
Просмотры1.4K
Комментарии 0