Как стать автором
Обновить

Комментарии 42

Я вот думал у них по разным датацентрам приложения GAE раскиданы. Оказывается пока нет.
Думаю, что такая возможность скоро появится. По крайней мере переменная окружения DATACENTER появилась месяца 2 назад ('DATACENTER': 'na1',). Не думаю, что это просто так.
Думаю что эта переменная, если она есть (кстати, где? Не нашёл в коде на code.google.com/p/googleappengine/source/browse/ ) связана всё же не с разбиением множества приложений по разным ДЦ, а с multihoming'ом — возможностью одного и того же приложения работать одновременно в двух разных ДЦ

Она в переменных окружения приложения (os.environ в рантайме питона)
А вот к чему разрабы придут в итоге — я не знаю (в смысле будем указывать, какой датацентр (-ы?)использовать, или еще что-то более сложное придумают). Ждем-с, не просто так она там.
и у великого Гугла случаются факапы! Ох и влетит кому-то за неверные DRP для дежурных!
как мне кажется дело не в самих «факапах», а в том что делается, что бы они не повторились. А гугл это умеет.
под «факапом» я имел в виду не отключение электричества как таковое, это скорее «дизастер», а то, что в DRP (Disaster Recovery Plan) закрались взаимоисключающие параграфы.
Да нет, тут всплыл целый комплекс ошибок проектирования всей системы.
Проблемы бывают у всех
Но не все способны их признать (вспоминаю русских хостеров)
Респект Гуглу
Русские хостеры для начала могут пару недель о них тупо не знать (например о том что MySQL сломался и все данные утеряны). После того как их спросишь «ребята, а что у вас там с MySQL?» они выяснят что все две недели бекапы делались со сломанной базы и стало быть ничего в себе не содержат, а более древних бекапов нет. Личный опыт.

Впрочем, врядли это связано именно с русскимихостерами.
Перенёс, но всё же в более тематический habrahabr.ru/blogs/gae
может. Но по мне так вопрос больше инфраструктурный, а не конкретно по GAE.
Вот это я понимаю скорость ( при таких то огромных объёмах ), почему то сразу вспоминаются собственные провайдеры которые простейшую проблему решают сутками…
>>>>9:35. Установлен контакт с инженером, знакомым с аварийной процедурой и он начинает руководить процессом. Трафик переносят в альтернативный ДЦ, сначала в режиме «только чтение»

они все таки смогли его разлбудить!!!111
не только разбудить, но и разговорить)
Интересно, а какая база данных у них стоит на серверах?
Datastore у AppEngine, если вы о нём, работает на Bigtable.
Ну не совсем, Bigtable это промежуточный уровень (как распределенное транзакционное хранилище ключ-значение, не поддерживающее схемы и пр.), а на сегодня самый верхний уровень это megastore.
Ну да, Megastore. Но по нему нет таких научных статей :)
Я думаю этой статьи хватит для того, чтобы было «понаучнее» :)
Ну это чьи-то записки с гугловской презентации на SIGMOD'08, не статья ни разу :)
Какой забавный usecase! Спасибо за публикацию! :)
Так пишут, ей-богу, будто это хронология взрыва Чернобыльской АЭС
Причем сильно не хватает вагонов матов между строк.
Они подразумеваются )
Кстати, а ведь очень похоже. Не по масштабам, конечно, а по некоторой идиотичности причин и по чёткости реакции и организации «спасательных работ».
НЛО прилетело и опубликовало эту надпись здесь
Похвально, что подобные вещи не скрываются, а выносят на суд общественности с подробным описанием. За это можно лишь уважать.
Если электричество отключится у вас дома, то скорее всего ничего серьёзного с вашим компьютером не произойдёт. Может конечно сгореть блок питания или накрыться диск — для вас это неприятно, но не смертельно.


Если сгорит диск на котором 200 гиг редчайшего коллекционного музла, собиравшегося по крупицам 10 лет — это все же более, чем досадная неприятность…
Давно пора купить внешний диск, который будет в роли резервного — подключаться только для синхронизации, вами, вручную, раз в неделю. К примеру до 320Гб эти диски стоят уже совсем небольшие деньги; и точно, несопоставимо меньшие по сравнении с потерей «200 гиг редчайшего коллекционного музла, собиравшегося по крупицам 10 лет»…

Но ваш контр-пример в тему)
Я буду больше переживать из за личных данных — фото, видео, мультитреки из студии, куски кода, архив важной переписки. На всякий случай самое ценное храню в двух местах сразу.
Если вам дороги ваши фотки, музыка и т.д., то почему вы еще не используете что-то вроде https://mozy.com? Тогда это все-таки останется мелкой неприятностью — нужно будет всего лишь вытащить эти 200 гиг обратно на новый винт.
ВНИМАНИЕ!
Волнующие и захватывающие приключения APC UPS в фашистских условиях двухвазного тока, потеря надежды и душерзрывающая кульминация в рассказе «Хронология отключения электричества в датацентре у меня дома»:

21:34 — свет отключили
21:36 — свет включили

Конец.
НЛО прилетело и опубликовало эту надпись здесь
О Боже, сколько же раз я был в состоянии этого инженера…
Гуглу, конечно, респект за скорость и старания, но вот мне интересно, как так вышло, что никто из имеющихся инженеров:
-не знал процедуры переноса на резервный дата-центр
-не знал, что он не знает этой процедуры и не пытался её узнать
-не знал, где взять документацию

Вот есть пару десятков человек, в их ОСНОВНЫХ служебных обязаностях — безотказная работа системы, бекапы и восстановления, а они этого делать не умеют. И как бы это никого (ни их, ни их начальство) не тревожит?
Дежурные инженеры — самые обычные разработчики, их основной обязанностью является всё же написание кода. Помимо этого они посменно дежурят и реагируют на сбои. Специальные SRE есть у многих наиболее критических продуктов и внутренних сервисов, но далеко не у всех.

Ну и «никто» — слишком сильное слово, кто-то как видите знал :) Проблема была в том что документаций было две, и непонятно какая правильная. Эта оплошность собственно в постмортеме и не отрицается, и выводы там делаются.
Что, правда одни и те же люди занимаются написанием приложений (ну, Gmail там пишут или код поисковика) и занимаются последствиями пропажи электричества в дата-центрах?
*Последствиями* отключения занимаются всё же SRE. Но инженеры, за приложениями которыми не следят постоянно SRE, сами должны на отключение отреагировать и перевести трафик в резервные ДЦ. А кроме таких катастроф, постоянно происходят мелкие и не очень происшествия, и таки да, их устраняют те люди, которые «пишут gmail» (подставьте нужный продукт).
Вы сломали Google
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации