Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Shit happens. Яндекс удалил часть виртуальных машин в своем облаке

IT-инфраструктураОблачные вычисленияСерверное администрированиеDevOpsОблачные сервисы
image
Кадр из фильма Мстители: Война бесконечности

По сообщению пользователя dobrovolskiy 15 мая 2019 года в результате человеческой ошибки Яндекс удалил часть виртуальных машин в своем облаке.

Пользователь получил письмо от техподдержки Яндекса с таким текстом:
Сегодня мы проводили технические работы в Яндекс.Облаке. К сожалению, из-за человеческого фактора были удалены виртуальные машины пользователей в зоне ru-central1-c, которые хоть раз находились в статусе SUSPENDED. Мы сразу заметили ошибку и остановили удаление. Увы, некоторые ВМ и их boot-диски были удалены.

В результате пользователем были полностью потеряны некоторые продакшн-сервера. Бекапы у пострадавшего были, но часть данных всё равно утрачена безвозвратно. Обычно Яндекс компенсирует даун-тайм своих сервисов, согласно своей политике, но кто компенсирует потерю данных?

UPD Яндекс официально подтвердил инцидент и прокомментировал ситуацию.
Читать дальше →
Всего голосов 130: ↑118 и ↓12+106
Просмотры103K
Комментарии 268

Обновление ассортимента фотополимерных 3D-принтеров Anet

3D-принтеры
Новый достойный представитель фотополимерных 3D-принтеров, производства Anet3D.
Модель N4 продуманная, полностью собранная и готовая к работе «из коробки».


Читать дальше →
Всего голосов 20: ↑17 и ↓3+14
Просмотры2.2K
Комментарии 1

Вебинар «Интернет-магазин в облаке: с 0 до Aliexpress» 22 сентября от Mail.ru Group

Блог компании Mail.ru GroupВиртуализацияАдминистрирование баз данныхХранение данных


Время летит незаметно: приближаются дни распродаж перед новогодними праздниками. И хорошо бы, чтобы под нагрузкой в эти дни сайты и приложения магазинов работали как часы. Без висяков, таймаутов и ушедших навсегда так-и-не-покупателей.

Для этого гибкостью и производительностью интернет-магазина необходимо заняться не накануне, и даже не за месяц, а ещё раньше. Лучше прямо 22 сентября.

22 сентября мы приглашаем вас принять участие в вебинаре, на котором расскажем, как организовать хостинг в облаке, обеспечив максимальную надежность и производительность вашего сервиса.
Подробнее о вебинаре
Всего голосов 11: ↑11 и ↓0+11
Просмотры714
Комментарии 0

Вебинар «Интернет-магазин в облаке: c 0 до Aliexpress. Часть 2» 30 октября от Mail.ru Group

Блог компании Mail.ru GroupВиртуализацияАдминистрирование баз данныхХранение данныхKubernetes


Сезонные всплески спроса, хорошая статья на хабре, «черная пятница» — интернет-магазину всегда нужно быть начеку, чтобы лавинообразная нагрузка не застала врасплох и поток заказов был быстро обработан. В первой части вебинара мы рассказали, как быстро запустить свой интернет-магазин «из коробки» или развернуть его на базе инфраструктурных сервисов (IaaS).

30 октября приглашаем вас принять участие в вебинаре «Интернет-магазин в облаке: с 0 до Aliexpress. Часть 2», где мы покажем, как с помощью платформенных сервисов (Kubernetes как сервис, управляемых баз данных, сервиса по работе с большими данными) обеспечить отказоустойчивость и масштабируемость, снизить нагрузку на основные OLTP базы данных ваших приложений, реализовать процесс change data capture, построить ETL/ELT пайплайны, а также реализовать платформу для работы ваших аналитиков. Присоединяйтесь!
Подробнее о вебинаре
Всего голосов 7: ↑6 и ↓1+5
Просмотры678
Комментарии 3

Соглашения об уровне обслуживания

Чулан
Соглашения об уровне обслуживания (SLA, Service Level Agreements) в условиях повышенной конкуренции на рынке являются одним из мощнейших средств для привлечения новых и удержания старых клиентов.
Читать дальше →
Всего голосов 9: ↑7 и ↓2+5
Просмотры899
Комментарии 4

Аптайм 99,9% теперь для всех сервисов Google Apps PE

IT-компании
Теперь условие о гарантированном аптайме 99,9% на платных сервисах Google Apps Premier Edition распространяется не только на Gmail, но и на все остальные веб-сервисы, в том числе Google Calendar, Google Docs, Google Sites и Google Talk. Все они теперь попадают под действие Google Apps Service Level Agreement.

Аптайм 99,9% означает, что сервисы могут быть недоступны не более 45 минут в месяц, в противном случае компания будет обязана выплатить пользователю компенсацию (интересная деталь: согласно SLA, промежутки меньше чем 10 минут не считаются даунтаймом). Размер компенсации тоже установлен в SLA.

Статистика за последние годы показывает, что надёжность сервисов Google в несколько раз превосходит гарантированную. Средний даунтайм составил 10-15 минут в месяц, даже по бесплатной версии Gmail. По данным независимых аналитиков, это гораздо выше, чем у других компаний, которые предлагают аналогичные сервисы за деньги. В качестве примеров приводятся решения на базе Novell GroupWise (даунтайм 66 минут в месяц), IBM Lotus (120 минут) и Microsoft Exchange (150 минут): см. диаграмму. У тех даже есть некие «запланированные» даунтаймы, которые в Gmail отсутствуют в принципе.
Всего голосов 37: ↑35 и ↓2+33
Просмотры455
Комментарии 11

Кому нужен SLA?

Чулан
Многие из вас, наверное, слышали, да и обсуждали такие инициативы как «Соглашение об уровне сервиса» (SLA или Service Level Agreement); многие, наверное, его используют при работе с внешними провайдерами. Например, с телеком провайдерами.

А нужно ли такое соглашение внутри компании? Как соглашение между ИТ службой и бизнес подразделением? По сути, ведь можно написать все, что угодно, но если ИТ служба или бизнес-подразделение нарушит соглашение, то применить штрафные санкции, такие как не заплатить или перезаключить контракт с новым поставщиком, просто невозможно.
Читать дальше →
Всего голосов 65535: ↑32767.5 и ↓32767.50
Просмотры919
Комментарии 2

Реальный IT management — давайте без умных слов и лишней теории

Чулан
Привет, друзья.

Надеюсь, что выбор Habr.ru в качестве хостинга для блога об IT-менеджменте является правильным шагом.

У меня есть знания, которыми я с удовольствием с вами поделюсь.

У меня есть желание учиться, поэтому я с удовольствием готов слушать вас.
Именно на диалоге, в отличие от, на мой взгляд, слишком сухой схемы «статья-пустота», мы будем строить с вами взаимодействие.

КАК МОЖНО БОЛЬШЕ ПРИМЕРОВ — вот мой основной принцип.

Проанонсирую материалы на январь-март:

1. Сервисная модель — посмотрите на IT глазами пользователя (2-3 части)

В рамках обсуждения данной темы мы:
— Взглянем на IT глазами обычных пользователей (операционный уровень) и топ-менеджеров от бизнеса (тактический/стратегический уровни)
— Поймем, что такое ИТ-сервис
— Разработаем простейший каталог сервисов
— Проанализируем преимущества сервисного подхода для IT-департамента
— Рассмотрим несколько успешных и ужасных примеров попытки прийти к сервисному подходу

2. Управление инцидентами — мы попали в армию? (3-5)
Мы поймем:

— Что такое инцидент
— Почему тема «Управление инцидентами — мы попали в армию?» это лишь верхушка айсберга
— Как устроен service изнутри и для чего он нужен
— Откуда берутся инциденты и куда они исчезают
— Как быть с теми инцидентами, которые исчезать не хотят
Всего голосов 25: ↑8 и ↓17-9
Просмотры4.1K
Комментарии 15

Мониторинг состояния канала по jitter / packet loss

Cisco
Добрый день, коллеги.

Собравшись с мыслями, решил нормально оформить родившееся у меня решение.

Итак, постановка задачи:

Есть два канала между точками А и Б, чаще всего от разных провайдеров. Необходимо обеспечить учет качества обслуживания на данных каналах, а именно:
1. При потерях >0.5% на канале, канал не должен использоваться.
2. При jitter > 10мс, канал не должен использоваться.

Такая задача возникла у меня на работе, поскольку два города соединены двумя каналами, по которым бегает в большом количестве голос, который, как известно, весьма капризен в отношении вышеописанных показателей. Кому интересно — милости прошу под кат.
Читать дальше →
Всего голосов 48: ↑45 и ↓3+42
Просмотры39K
Комментарии 37

Вышла версия 1.6.0

Google App Engine
Спустя три с половиной года после презентации платформы на Campfire One, App Engine выросла и стала полноправным продуктом Google. Мы создавали прокдукт, следуя простой философии: «удобно использовать, просто масштабировать и легко начать». Сейчас у нас более 100 миллиардов посещений в месяц, более 300 тысяч активных приложений и более 100 тысяч разработчиков, использующий продукт. Подход полностью оправдал себя. Спасибо за Вашу поддержку. Google верит в светлое будущее App Engine.
via The App Engine Team
Обзор изменений
Всего голосов 28: ↑25 и ↓3+22
Просмотры864
Комментарии 3

Клиент всегда прав

Блог компании Parking.ru
imageНа данный момент многие пострадавшие от сбоя в хранилище виртуальные серверы были мигрироваваны и полностью или частично восстановлены на другом хранилище.

По прогнозам нашей технической службы оставшиеся виртуальные машины будут перенесены до завтрашнего утра. Работы по восстановлению нескольких «сложных» серверов ведутся активно, наши специалисты восстанавливают информацию при помощи специальных аппаратных и программных средств.
Читать дальше →
Всего голосов 5: ↑4 и ↓1+3
Просмотры1.6K
Комментарии 8

Для кого SLA – мгла, расскажем, в чем тут дела

Блог компании Гарс Телеком
Соглашение об уровне сервиса – документ, описывающий уровень оказания услуг, ожидаемый клиентом от поставщика, основанный на показателях, применимых к данному сервису, и устанавливающий ответственность поставщика, если согласованные показатели не достигаются.

Грубо говоря, если у вас отключают интернет дома, то в конце концов вы плюнете и пойдете на прогулку, в кино или кабак, в лучшем случае надеясь на перерасчет.

Если же у вас отключается связь в офисе, то у вас останавливаются продажи (клиенты не могут дозвониться и, не дождавшись ответа по почте, уходят к другим поставщикам), бухгалтерия не может проводить платежи (здесь вы подводите уже ваших партнеров), а если вы, скажем, трейдерское бюро, то сумма убытков может достигать тысяч долларов (вы не сможете вовремя купить или сбыть акции).

Здесь может быть лирическое отступление про резервирование каналов и т.д., но у нас перед глазами есть пример – здание комплекса Москва-Сити, в котором пару лет назад неожиданным образом и основной, и резервный канал оказались от одного провайдера. А беда, как известно, не приходит одна. В итоге дважды на 7-8 часов (в рабочее время) оказывались без связи компании из рейтинга «Fortune 500».
Поэтому особо дотошные юридические службы компаний, чей бизнес особо чувствителен к качеству связи, стараются исчислять размер ущерба компании не только стоимостью не потреблённых сервисов, но и выгодой, упущенной клиентом вследствие простоя связи.
Читать дальше →
Всего голосов 17: ↑12 и ↓5+7
Просмотры35K
Комментарии 19

Основные сбои в работе облачных сервисов в 2012 году, и какие выводы из этого можно извлечь

Amazon Web Services
Исходя из недавнего отчета IWGCR (International Working Group on Cloud Computing Resiliency) каждый год сервисы облачных вычислений недоступны, в среднем, в течение 7.5 часов. Компании, которые частично или полностью используют облака для своих приложений и сервисов, в этом году пострадали несколько раз. Давайте рассмотрим самые большие отказы в работе облачных сервисов в 2012 году.
Читать дальше →
Всего голосов 22: ↑11 и ↓110
Просмотры8.7K
Комментарии 11

Дон Джонс. «Создание унифицированной системы IT-мониторинга в вашем окружении» Глава 4.Мониторинг: взгляд за пределы ЦОД

Облачные вычисления
Перевод

В этой главе речь пойдёт о способах объединения внешнего и внутреннего мониторинга. На что обратить внимание при выстраивании системы, какие при этом есть ограничения. Как не упустить мелочи и получить возможность обозревать картину не только снизу вверх, но и сверху вниз.

Читать дальше →
Всего голосов 5: ↑4 и ↓1+3
Просмотры10K
Комментарии 0

Дон Джонс. «Создание унифицированной системы IT-мониторинга в вашем окружении».Глава 5. Превращаем проблемы в решения

Облачные вычисления
Перевод

В этой главе автор собирается поделиться своим видением на способы хранения и поддержания в актуальном состоянии знаний, накопленных в результате длительного хождения по граблям. Основная сложность при их хранении и поддержании массива знаний — найти людей, которые бы сочетали несочетаемое: были тщательны, креативны, усидчивы, обладали острым аналитическим умом, интуицией и не просили бы много денег.

Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Просмотры8.8K
Комментарии 3

Дон Джонс. «Создание унифицированной системы IT-мониторинга в вашем окружении».Глава 6.Унифицированное управление на примерах

Системное администрированиеIT-инфраструктураСерверное администрирование
Перевод

Ну, вот наконец мы и добрались до последней главы в книге. Здесь будут рассмотрены некоторые практические примеры, ради соблюдения этики автор практически не называет никаких конкретных систем, кроме очень хорошо известных. Рассматривается состояние дел до внедрения систем унифицированного управления и после.

Читать дальше →
Всего голосов 4: ↑2 и ↓20
Просмотры8.7K
Комментарии 3

Оптическое кольцо высокой доступности

Блог компании Cloud4Y
Добрый день, уважаемые Хабраюзеры.
Хотели бы Вам рассказать о реализованном нашими инженерами проекте по построению оптического кольца высокой доступности между нашими облаками в Москве.


Читать дальше →
Всего голосов 10: ↑7 и ↓3+4
Просмотры18K
Комментарии 11

Про InfiniBand: как мы уменьшали пинг с 7 мкс до 2,4 мкс (и результаты тестов)

Блог компании КРОКВысокая производительность

InfiniBand-свитч SX6005. 12 FDR 56Gb/s портов на одном юните, коммутация 1.3Тб/с.

Многие считают, что InfiniBand — это «космос». То есть считается, что дорого и нужно только для «суперкомпьютеров» (HPC) производительностью в 1-2 Петафлопа и с гиганскими объмами обрабатываемых данных. Тем не менее, с помощью этой технологии можно организовывать не только самые скоростные межсистемные соединения в кластерах, но и радикально снижать задержки в работе критичных приложений. Конкретно – делать то, что может решаться и с помощью Ethernet, но экономичнее и быстрее. Вот пример.

Задача


У одного нашего крупного заказчика из финансовой сферы была проблема в скорости работы двух приложений. Специфика приложений заключалась в том, что необходимо было обрабатывать большое количество транзакций с минимальной задержкой. 6-7 мкс latency – это лучшие результаты, которые они достигли путем апгрейда серверов и максимальной софтверной доработкой. Дальнейшие возможные оптимизации сулили улучшения на уровне 0,3-0,5 мкс. Мы же пришли и сообщили, что сможем уменьшить задержки в два раза.
Читать дальше →
Всего голосов 47: ↑35 и ↓12+23
Просмотры36K
Комментарии 49

Так какой же у Clodo SLA?

Хостинг
Все началось с того, что частые проблемы с хостингом виртуального сервера в Clodo, а именно в датацентре «KIAEHOUSE», стали напрягать. Но эта статья совсем не об этом. Я хочу рассказать, как мы пытались понять, есть у Clodo SLA или нет.
Читать дальше →
Всего голосов 46: ↑44 и ↓2+42
Просмотры11K
Комментарии 22