Pull to refresh

Comments 337

Присоединяюсь… В 22:25 отказал сервер, написал тикет, а сейчас и панель не работает :(
Присоединяюсь. Кто посоветует хорошие выделенные Win Сервера?
Меня тоже порядком достали такие серьезные и частые лаги.
В итоге я поднял Proxmox и как только селектел очухается перенесу всё к себе.
Задолбало!
Угу, сейчас недоступен selcdn.ru, selectel.ru, support.selectel.ru, а также виртуальный сервер :(
habrahabr.ru/qa/24289/
ну и плюс твиттер
twitter.com/i/#!/search/realtime/selectel

Селектел ‏@selectel
Клиентские машины (физические, виртуальные и облачные) работают, но не доступны по сети
Впрочем, по фразе «selectel лежит» на хабре больше инфы нет. Что за история?
Не можно просто так взять и понять почему упал Селекте.

image
Проблема доступности сервисов связана со сбоем в работе сетевого оборудования. Наши специалисты занимаются устранением неполадок. Клиентские машины (физические, виртуальные и облачные) работают, но не были доступны по сети какое-то время, сейчас вроде почти все поднялось.

Подробности будут позже.
Фух, а то я то уж начал кирпичи класть :)
UFO just landed and posted this here
Даунтайм облаков уже 2,5 часа. Выделенный сервер работает с перебоями.
На тикеты уже полтора часа нет ответа, хотя раньше при падениях ваши инженеры своевременно отвечали.

Пожалуйста, сообщите какой статус работ и вообще любую информацию — что происходит?
Ха, проекты пингуются, но не коннектятся к mysql по localhost)
На самом деле управление машиной в облаке не работает, ни перезапустить, ниче сделать нельзя.
Та же проблема, затормазилась файловая система и упали все БД…
Виртуальный сервер лежит как минимум с 22:08, до сих пор никак не доступен. Пожалуй хватит уже терпеть :(
попробуйте в админке зайти в консоль.
Зашел, сервер выключен, включить панель не дает — «Возникла проблема при совершении действия», ляпота…
ага, то же самое. вот так проблемы с сетью…
У меня в панеле один облачный сервер сам включился, а для другого как раз возникает ошибка при включении.
Как объяснить клиенту, что в таком клевом дата-центре авария третий раз за два неполных месяца? Ведь не поверят)
ну а как вы ему исходно мотивировали выбор хостера? ;)
Исходно я просто сказал, что за календарный год был только один факап, что является неплохим показателем в России) Летом клиент туда перешел, и вот перед нами картина маслом… у меня уже комплекс вины перед клиентом как будто его сайты у меня в сортире хостятся…
Аналогичная ситуация. Перенес клиента к ним, все работало хорошо, но за последние факапы крайне стыдно и неприятно. Вт и думаем, может проще было купить жирный тариф на хостинг у предыдущего, ежели брать не рабочую услугу тут.
На этой планете не существует хостингов, которые бы не падали.
Все вопросы стабильности решаются только избыточностью и ничем больше.
Поднимайте 2-3 и более одинаковых серверов в разных местах и не придется нервничать.
Это понятно все и банально, просто хочется какой-то более-менее стабильности. Проект небольшой, бюджет тоже, надеялись облако нам поможет контролировать расход расход финансов, дабы можно было их направить на расширение. В итоге получили абсолютно противоположную картину. Обидно.
Ну более-менее стабильность есть. У меня в облаке сервер с декабря 2010го.
И за это время было лишь 2 падения которые затронули мой сервер. Были еще, более мелкие, но они проходили мимо меня незаметно.
Конечно последний суточный факап это нечто, но даже он не заставит уйти.

З.Ы. Очень хотелось бы узнать, что могло положить ДЦ(и не один) на почти сутки.
Ну, отсутствие серверов в сумме пару суток за 22 месяца (пользуюсь с декабря 2010) — вполне подходит под определение «какой-то более-менее стабильности».

> надеялись облако нам поможет контролировать расход расход финансов, дабы можно было их направить на расширение. В итоге получили абсолютно противоположную картину.

Вот этого не понял. Что, расход финансов получился неконтролируемым? Тогда причем тут проблема доступности сервера?
Человек зарабатывает на своем сайте «миллионы долларов» и думаю вы сами знаете как это обычно бывает, что именно в этот день он должен был заработать второй миллион и я виновен, что посоветовал такой хостинг. Свои проекты держу на AWS, пусть дороже, но спокойне.
А что, aws не падает что-ли?
А человеку правильно посоветовали. Если у него там завязаны ценный бизнес на сайты — нечего жмотиться на избыточность. Если не ценные — то один день в год — это очень неплохая статистика, особенно за эти деньги…
Когда нибудь падает все. Проблема чисто с психологической точки зрения. Предупредил, что бывают «ситуации», что падает все. Просто человеку кажется это странным, что именно после переезда его сайта, начались даунтаймы.
Хмм. Тут товарищ утверждает, что может делать DNS failover с временем переключения в течение 1 минуты (на основе двух неудачных проверок, проводимых раз в 15 секунд), — это время для тех пользователей (браузеров), которые уважают DNS TTL, и которых якобы большинство.

Кто-нибудь использовал такое?
Дык а в чем проблема? Если юзать внешний DNS-хостинг и хотя бы еще один зеркальный сервер, то сделать DNS failover не проблема. Это требует всего лишь лишних денег…
ну, это значит, что пусть себе лежит любой отдельно взятый хостер, не? :)
Все верно, но это — деньги и это дополнительная работа по настройке синхронизации, а так клево конечно :)
собственно, держать зеркальный сервер в облаке, на минимуме ресурсов, чтобы он был готов принять на себя полную нагрузку — вполне облачный use case. Вопрос еще в затратах на администрирование :)
Зависит от разных факторов. Облако похожее на Selectel еще нужно найти, у многих облаков фиксированные инстансы с HDD завязанным на оперативку. Поэтому если нужно много места, то это дополнительный расход. А в заграничных облаках еще и трафик дорогой: у меня сайт ест 5 Тб трафа в месяц, если в Selectel я плачу за это ~3k рублей, то в Rackspace или Amazon это выйдет в 15-20k :( Поэтому переключение на такой зеркальный сервер влетит в крутую копейку…

Я уже склоняюсь к возврату на обычное железо, без всяких облаков. За те деньги, что я плачу за 5 Тб трафика, 2 Гб RAM и 60 Гб HDD в том же Hetzner можно взять 2 сервера с 16 Гб RAM каждый, двумя HDD по 3 Тб каждый + 100 Мбит канал на 10 Тб в месяц каждый.
алсо, тут есть еще такой параметр: сколько стоит времени выкатить (разумеется, автоматизированно по одной кнопке) новый сервер по запросу сразу после сбоя, и переключить на него DNS. Если приемлемо, то можно убрать постоянные расходы на поддержание горячего резерва.
Копию актуальных данных все равно нужно где-то держать… Высокая надежность и доступность всегда упирается в деньги, к сожалению.
За такие деньги вполне можно держать собственные сервера, и снять наконец с ушей лапшу, о облаках.
Именно это и собираюсь сделать.
При всей моей лояльности по отношению к селектелу, не смотря на подкупающую полноту объяснений причин падения amarao — тоже прихожу к мнению, что пора бежать.
На текущий момент панель управления доступна, машина выключена и нет возможности её включить.
Аналогичная ситуация. Все сайты в дауне. В панель управления зайти не могу. Как бы там нибыло, но это последная капля. У меня время 2 ночи. Я спать хочу, а не в очередной раз выяснять почему сайты лежат.
В админке пишут: «Интерфейс администрирования временно недоступен, серверы продолжают работать. Просим прощения за временные неудобства.».
Я отключил старт машин (и панель), потому что в условиях нестабильной работы сети от действий клиентов больше вреда, чем пользы (для машин).

Как только будет добро от сетевиков, я запущу все виртуальные машины, которые были запущены на момент до начала аварии.
как долго еще ждать!?? а то вдохновение пропадет!!! =)))
Откровенно, мне уже хочется спать. Но — ждём. Из… хм… приятных новостей — я нашёл метод сэкономить ещё примерно 2-3% времени при старте каждой виртуальной машины.

Сейчас перепроверяю списки запуска, как только скажут, что стабилизировалось — запускаю.
Вообщем я очень терпеливый и поддерживаю вас… всякое бывает. Давайте решайте и стабилизируйте работу. =)
Лишь бы данные не похерились…
Данные 100% на месте. Собственно, те немногие, кого успели перенести, даже работают (если не считать падений сети). Как только перенесём всех — будет лучше.
Машинки запустились, но одна так и не поднялась: не отвечает по консоли и ssh.
Уже работаю с вашими специалистами над этим через тикеты.
Это я просто к тому что недостаточно перезапустить автоматически виртуалки, и уйти спать.
У меня одна из двух виртуалок не работает не на логическом уровне, а вполне себе на уровне облака — она не запустилась (несмотря на зеленый индикатор), консоль не отвечает, показывает просто курсор (до первого утреннего тикета консоль вообще не открывалась).
Вам видимо надо доработать автоматический перезапуск не только чтобы он запускал машины, но и чтобы проверял запустились ли. Сейчас полдевятого утра, а последствия аварии для меня еще до сих пор актуальны и их вполне можно было устранить без моего отдельного запроса.
Я ещё не ушёл спать. на консоли просто нажмите enter. Если не появилась — загрузитесь в rescue initrd и сделайте fsck.

Для всех пользователей первого пула, у которых были проблемы с fsck, я её сделал (8 машин было).
Опять не работает сеть. Сайт Селектела тоже не загружается.
Насчет спать извините — выражаю сочувствие, все мы люди.
В данную секунду у меня даже не открывается support.selectel.ru хотя я уже видел сообщение что авария устранена и надо проверить машины. Авария еще не устранена?
Консоль появилась после исправления чего-то с вашей стороны, но навести фокус и нажать enter не помогло. Насчет загрузки в rescue initrd понял, но пока мне недоступна панель управления.
Через 5 минут после моего ответа у меня замерла консоль с недописанной командой, и я понял, что день у меня будет весёлый. Не менее весёлый, чем была ночь.
Искренне сочувствую.
Те же яйца, клиенты отрубились по таймауту в 22.07.
В 23.10 связь появилась, сервер все это время работал, но без клиентов.
В 23.56 снова пропала связь.
Действительно не смешно. У меня теперь вообще машины пропали из списка, как бы данные не повредились, потому как количество ошибок в консоли, когда удалось туда зайти на пару минут, было огромным.
Из-за проблем с сетью панелька не могла связаться с сервером API, так что списка просто не было видно.

Сбой коснулся только сети — т.е. хранилища стоят нетронутые, виртуалки просто потеряли к ним доступ. Как только сеть нормализуют, машины будут включены, для них это будет эквивалентно «принудительному отключению».
Интересно, по мунину вижу, что внеший инет упал 2 часа назад, но домашний мунин сервер все равно почти все это время мог собирать статистику с клиента на селектеле.

Видимо с падением сети падало и соединение с дисками — было несколько минут когда iowait упирался в потолок, так что каким-то серверам от этого могло поплохеть.
Да я даже читать это не хочу, особенно 4 страницу с табличкой про 99% процентов. Мне от их компенсаций потом не жарко не холодно, доверия утрачено, до свидания, либо я им, либо клиенты моего бизнеса мне.
Мы выплачиваем компенсации. Не могу сказать, что это радостный процесс, и я бы предпочёл без этого.
С нарушениями SLA на самом деле ситуация крайне неприятная. С одной стороны нам — это убытки (а с учётом тикающего счётчика и лежащих 3/4 пула — крайне ощутимые), с другой — клиентам от этой компенсации никакой радости.
Особено когда выслушиваешь ожидание очереди на инглише и регулярное «Thank you for your patient», то сам удивляешься тому что оно у тебя еще не лопнуло.
Видась у них циска совсем погорела. Сейчас со слада везут. Вот пипец
ох! последнюю живую кошку отдали вконтактам, а остальным ждать со склада?
надеюсь мы ошибаемся. )
Если бы! Как раз эти работы (на самом деле — перенос машин со старых сторов на новые) должны были предотвратить дальнейшие проблемы.

В этой аварии те, кого успели перенести получили несколько перерывов в интернете и всё.

Но, я надеюсь, в ближайшее время я закончу перенос и мне больше не нужно будет следить за коммитами Нила Брауна в апстрим так пристально.
Вроде как поднялось облако.
Надпись «Аптайм 2 недели 9 часов 2 минуты 25 секунд» улыбнула.
Аптайм высчитывается как shutdown_time — now.
Мда… Слишком слишком часто стал падать селектел… :(
Куда бежать??? Подскажите плиз
Для себя пока наметил Hetzner, к облакам доверие подорвано окончательно, по крайней мере к российским, а западные пока дороговаты для моего трафика.
Хетцнер. Я там был два года — никаких проблем. Съезжал в селектел по финансовым причинам. Теперь вот возвращаюсь обратно. Только берите напрямую, без реселлеров всяких.
Тоже hetzner.de порекомендую
Количество падений селектела превысила для нашего проекта допустимый предел, после сегодняшнего инцидента мы уходим к другому хостеру, причем сразу на запад, и не в облако, а на выделенную машину. Извини, селектел, я долго терпел.
Куда уходите, не поделитесь?
Анализирую, пока непонятно. Мне советовали hetzner, но в процессе обсуждения с коллегами по несчастью (которые тоже в селектеле сейчас) — выяснил что hetzner не так уж хорош, и с ним много потенциальных проблем.
Ушел бы в амазон, но очень дорого. Поэтому будем думать и собирать советы. Буду рад, если вы поделитесь :). Ищем какой-нибудь американский (в крайнем случае европейский) надежный хостинг, менее дорогой чем амазон.
Спасибо, будем смотреть!
У leaseweb все плохо с внутренней сетью, пока не закажете свитч — обратите на это внимание.

Самое интересное, что если бы не гигантские проблемы с сетью и поддержка, не берущая телефон, когда это больше всего нужно, Селектел — один из лучших dedicated в Европе. Современные машины с приличной конфигурацией если заказывать кастомное железо, нормальная полоса. Но увы.
Зато с внешней сетью у Лизвеба все хорошо + брендовое железо + охлаждение нормальное, а не как в Хецтнере — 40-45 градусов на дисках в стендбае
А какие потенциальные проблемы с хетцнером?
Полоса всегда шарная. Могут оключить ни за что (знакомые сталкивались неоднократно). Машины — десктопы, если не сказано иначе. Нет кастомных конфигов.
1) Десктопы не пугают, ибо за 2 года траблов не было.
2) Про отключение ни за что тоже слышал, но если абуза левая то все быстро решается (сам не сталкивался).
3) А можно пруф про полосу? Нас тогда ddosили, никто вроде не жаловался из других клиентов (решилось заменой аплинка на 1G, насколько мне память не изменяет).
Десктопы должны пугать, попробуйте побенчить свое приложение рядом на ксеонах и на десктопных i7. В много процессов, разумеется.

Про полосу — какой именно пруф? Сравните покупку полосы у Селектела или конфигуратор полосы на LeaseWeb с Хецнером. Там даже если заказывать гигабит, все равно ширина не гарантируется. Для дешевой раздачи это неплохое решение, для гарантированной нагрузки не годится.
Скажу честно — для моих скромных задач/проектов того что дает хетцнер будет достаточно с головой. Главное, чтобы не падало, как селектел. В остальном лично меня все устраивает. Тем более за 2000р в месяц ;) А те решения, о которых Вы пишете — стоят совершенно иных денег, да и не требуются они мне пока.
>> попробуйте побенчить свое приложение рядом на ксеонах и на десктопных i7. В много процессов, разумеется.
А вы пробовали? Разница весьма невелика.
Писали что-то про б/у харды, которые быстро летят. Насколько актуально — не знаю, лишь пересказываю.
UFO just landed and posted this here
Сейчас хетцнер выдаёт айпишники в 5.0.0.0/8, а это настолько прекрасно, что у некоторых до 10% пользователей теряется.
В каком смысле теряется? У некоторых хостеров теряется, потому что уходят за прекрасным к хетцнеру, или у клиентов хетцнера теряется, потому что эти айпишники содержат в себе какую-то проблему?
Спасибо за инфу. Все веселее и веселее :(
Да я скорее всего в hetzner, потенциальная проблема там в общем-то одна — следить надо за винтами. За те же деньги, что и в Selectel я могу получить 3x3Tb HDD + аппаратный RAID: 2 винта ставим в RAID1, третий — под бэкапы. До облаков я на такой конфигурации (в России) просуществовал не один год без особых проблем, 2 раза менял винт в рейде при выходе из строя.

В Америке хостинг очень не дешевый, особенно по трафику :(
В очередной раз посоветую форнекс fornex.com/?server=835 (реф). 1.5 года арендую у них сервер. Аптайм 99.99%. Пару раз по непонятным причинам зависал сам сервер, но был успешно перезагружен через KVM. ДЦ в Германии (www.first-colo.net), сам хостинг зарегистрирован в Испании. Саппорт хороший.
Спасибо за ваши авторитетные оценки, хабраюзеры. Ведь хостинг на самом деле хороший.
Алсо я не вижу ничего плохого в явно указанной реф ссылке. Кто не хочет, тот не заходит.
UFO just landed and posted this here
Не, хватит с меня VPS и VDS, только железо, только хардкор! :)
Раза 3-4 в датацентр сбегаете решая проблемы с железом- передумаете ;-)
У меня за 5 лет хостинга на железном сервере, причем в России, сайт никогда столько не лежал. За все это время я 2 раза просил сменить посыпавшийся винт в RAID'е. Ни разу никуда не бегал. А за последний год в облаках — сплошной негатив и постоянные проблемы. Так что опыт есть, передумывать некуда :)
У меня у домашних серверов аптайм больше, чем у серверов на работе. Из моего опыта получается, что это нормальная ситуация. Дома разве что питание отключат, а на работе всякое может быть, то траншею роют, то железо обновляют, то на новый софт переезжают… :)
5 или 6 падений за последние ~4 месяца. И только один раз сервер был поднят обратно со стороны селектела, а не руками пришлось из интерфейса. Еще и все файлы разок терял.
Как хорошо все начиналось, сколько описаний и подробных ответов, «киллер фич»…

Заметил, что одна машинка лежит, еще днем. Разбираться времени не было. Написал тикет только вечером. Утро. Просыпаюсь — легло все оставшееся.
У вас удобно и недорого, но, с вашей надежностью, максимум, что у вас буду держать — тестовые машинки.
И только что Селектел полностью лег по сети третий раз за сутки. У нас dedicated, без облака вообще.

Вот это уже рекорд.
Ну и разумеется трубку не поднимают — зачем, правда? Ситуация пара месяцев назад, когда поддержка от меня узнала, что лежит один из аплинков, была как-то веселее.
у меня там вообще колок :(
Это не третий раз, это один затянувшийся процесс. Я из-за него не могу машины стартовать, которые задело. К счастью, задело только старую часть пула, новая тьфу-тьфу такие вещи переживает.
Самое интересное, что облачных аналогов Селектела в России — нет. И если мой основной VPS уже давно «живёт» в Нидерландах, то выбор недорогой локальной площадки для NS и бэкапов становится нетривиальной задачей.
Для NS советую Amazon Route 53 — очень нравится прогрессивный прайсинг, получается в итоге дешевле чем на специализированных сервисах вроде Zerigo.

Для бекапов — все та же схема с s3sync, если подходит, или Bacula в облаке угадайте где.

Вот где взять хороший dedicated за разумные деньги — это действительно проблема, и тут как раз аналогов нет.
Кстати Zerigo за 19 долл/в год вполне хватает. Но я любитель сделать еще лучше, поэтому, в дополнение, держу территориальные ns'ы для критичных проектов у Селектела.
Zerigo недавно лежал больше суток и неплохо так повалил проектов, поэтому даже остатки оттуда пришлось перенести :(
О чём и речь. В тот момент выручил Селектел и Ру-центровский secondary, сейчас Zerigo. А на случай «ядерной зимы» на скамейке запасных — Ру-центровский Secondary. А на случай… хотя кому утёрлись мои проекты в случае падения всех трёх.
Четвертый, только что сеть отвалилась в четвертый раз.
Поднялись, сегодня не спим — понятно, ждем пятого раза
Кстати, а вы проекты (пострадавшие) хостите только в селектеле, или есть какой-нибудь failover где-нибудь ещё?.. Ну, на такой случай.

Я всерьез задумался хотя бы рассчитать такой план, чтобы сначала перебросить DNS, а потом уже разбираться. Объёмы данных, впрочем, пока довольно смешные.
Долго работал с Selectel, но несколько месяцов ушел от них к Linode.

Не пожалел ни разу. Вот мои впечатления от этого прекрасного хостера.
А за что минусуете человека? Чем плох Linode?
Спасибо сетевикам. Как только сеть стабилизируют, подниму машины.
Всем вам большооооой привет. Без Селектел жизнь скучна и однообразна.
+30-40 минут от момента починки сети. А вот с сетью — не знаю.

У меня restore полностью отлаженный, так что я сейчас закончил причёсывать пулы от «залипших» tapdisk'ов. Как только получу добро — будет запущена вот такая конструкция:

for pool in $pool_list do; poolwide_exec vm_restart DOWNSTART-1;done

И дальше оно строго параллельными рядами начнёт запускаться.

Я не знаю гордиться мне отлаженностью процесса запуска облака после аварии или нет. Как технарь — гордиться, как человек, представляющий облако общественности — скорее, стыдиться.

В любом случае, я надеюсь, что в ближайшие дней 10-15 я закончу перенос машин и ситуация должна нормализоваться.

меня именно эстимейты по сети интересуют, ибо как уже говорилось выше — колоки…
Я так понимаю, что там сейчас идёт выяснение проблемы в режиме «должно работать, но не работает». (это спекуляции, я реальной картины не вижу, не хочу зря человека отвлекать).
Перенос машин куда и какая ситуация должна нормализоваться — прекращение столь частых сбоев?
У нас проходят серьёзные работы (в бэкграунде) по модернизации инфраструктуры облака.

Я думаю, говорить об изменениях и сравнении «было/стало» можно будет после завершения работ.
По тому, что говорят, «точно должно заработать». Я уже минут 10 запускаю виртуалки.
Аватарка, у вас, очень «втему».
Если 404 показывается, значит сеть работает.
Доброй ночи, спасибо, что вы с нами. Отпишите потом, «что это было».
а от вас будет нормальный postmortem или на «сетевики молодцы» ограничимся?
Они ещё заняты, т.е. проблему всё ещё решают. Я попробую выяснить (завтра или послезавтра — зависит от того, сколько будут отсыпаться). Если разрешат disclose — опубликую.
Разрешать дисклоузить? От Селектела не было ни единого статуса в течение пяти часов — причем за это время сеть упала еще три раза. Это даже не отсутствие информирования клиентов, я не знаю как это назвать. Бесплатный хостинг какой-то. Неужели кроме инженеров нет человека, ответственного за публичный сапорт?

Можно ли дисклоузить причину неответа на телефон суппорта, кстати?

Зачем тогда вообще диверсифицировать бизнес от хостинга ВК если на массовые сервисы плюнуть и растереть, вот что я не могу понять.
в тви писали… около 11.20 PM MSK
а дозвониться — да…
> в тви писали… около 11.20 PM MSK

> не было ни единого статуса в течение пяти часов
уже туплю, простите.
Факт аварии мы скрывать не будем, речь идёт про детальный рассказ что именно сломалось (а не просто «проблемы с сетевой инфраструктурой»). Я обычно рассказываю о глубинных причинах произошедшего, в случае сетевого оборудования ДЦ этот вопрос решать буду не я.

Саппорт отвечает на звонки, кому-то даже я отвечал, когда инженеры затруднились ответить на вопрос. Но легко догадаться, что 10к звонящих клиентов и десяток инженеров службы поддержки — силы несопоставимые.

Да, я думаю, что сбои с сетью могли ещё повлиять на IP-телефонию. Подробностей я совсем не знаю, так что это гипотеза.
Либо повлияли, либо PBX не справлялась :)
Одно время сразу давался отбой.
Поскольку дозвонится голосом я все равно не могу, а вместо публичного фидбека есть инженер, который никак не относится к аварии (и на том спасибо), вы не могли бы проиграть для инженеров-сетевиков данный ролик от благодарных клиентов? Спасибо.
Вы хотите говорить во время аварии с человеком, который аварию устраняет?

Я вот тут вот на хабре лясы точу просто потому, что я сейчас в роли наблюдателя. А если бы от меня требовались какие-то действия, то максимум чего вы от меня бы добились — это «устраняю», или «подробности позже».

Очевидно, что человек, который сеть чинит, не может отвечать клиентам — каждая минута ответа на вопросы — это плюс минута к даунтайму.

Мы виноваты в аварии — и да, но я считаю, что техническая часть (т.е. нотис с объяснением сути проблемы в панели управления, информирование инженеров службы поддержки) сделана на нормально.
На нормально? В технической части у вас пять перебоев за шесть часов, в части поддержки клиентов — полный провал в публичной поддержке и первой линии.

Панель управления, очевидно, недоступна существенное время, дозвониться до первой линии невозможно, а позиция инженеров предсказуемо сводится к «скажите вообще спасибо, за то что мы (вставить нужное)» — в этом вы еще раз только что расписались. И спорить, вроде как, не о чем, потому что единственный человек в паблике к аварии отношения не имеет — красиво.

Это далеко не первый раз, когда при аварии никто не берет трубку, но целая ночь даунтайма у вас впервые. Судя по тому, как сервис Селектела последовательно деградирует примерно с зимы того года, то ли еще будет.

Из данного ночного тредика я для себя вынес, что позицию Селектела в том числе и по отношению к клиентам колоков и дедиков можно сформулировать как «с вас хватит того, что аварию мы вообще стали устранять». Это уровень бесплатного хостинга.
Во-первых, авария такого уровня на моей памяти первый раз.

Во-вторых, наша собственная инфраструктура затронута аварией (вот это — вполне себе повод для разбирательств с теми, кто планировал реакцию в случае глобального отказа) — так что отсутствие связи нас так же затрагивает (включая неработающие телефоны и IM внутри дата-центров).

В третьих — неужели мои слова тут можно интерпретировать как «с вас хватит того, что аварию мы вообще стали устранять»? Я понимаю, что в этой ситуации хочется, чтобы оно «взяло и начало работать». Нам этого тоже хочется.

Но в аварийных ситуациях должно быть сделано:

1) Дать информацию об аварии. Насколько смог — дал, с учётом, что точные причины и т.д. ещё никто, кроме устраняющего не знает — как мне кажется, достаточно подробно.

2) Постараться устранить в кратчайшие сроки. Именно этим сейчас заняты сетевики, плюс я жду «на подхвате», чтобы запустить тех, кто выключен в облаке.

3) Разбор полётов пост-фактум. Думаю, его стоит отложить всё-таки на пост-фактум, потому что сейчас я не располагаю полной информацией о произошедшем.
amarao, скажите пожалуйста — вам добавку к з/п платят за то, что вы лицо компании на этом ресурсе(ну прям как Ленин и партия) и вам приходится брать на себя весь возникший негатив?
Нет, я не могу относиться к этой деятельности как к работе. Когда мне интересно или оно меня волнует, я пишу, когда мне пофигу (типа «запустили новую суперконфигурацию дедиков с ХХХ и YYY») — я игнорирую.
Авария ещё не закончилась. Увы.
Если авария в Питере, то почему встал колокейшн в ДЦ «Берзарина», Москва?
Пока не знаем. По-идее там свой роутер. (я не тот человек, который может сказать про маршрутизацию трафика на Берзарина).
Московский трафик начал ходить через 178.18.224.42.spb.peering.dataix.ru
Да и раньше до Берзарина в Москве трафик ходил через Питер.
Держитесь, ребят! И поднимайтесь быстрее.
Забавно, у меня будет ещё одна неделя оплаченная Селектелом. Я уж подумал, неужели сбоев в сентябре не будет? А ведь первые два месяца работы, всё прекрасно работало. Сейчас, насколько я понял, всё работает. У меня сеть отвалилась в 2:00 и до 7:47 сервер был недоступен (или просто не включён, не знаю, я решил спать).
Я вспоминаю серию «Друзей», где Фиби (так ее звали?) все время получая компенсацию. Ей подарили как бонус за терпение банку колы, так в нем нашелся отрезанный палец, и ей компания в ответ прислала колы какое-то невероятное количество.

Если Селектел за каждое «отжимание» (упал-поднялся) подарит по неделе, негатив, конечно. будет подслащен, но серьезное что-то хостить все равно уже страшновато :(

В реальности же, я понимаю, каждая VPS-ка никак серьезным сервером не выглядит, упали они сотнями (если не тысячами), вряд ли будет им с руки сильно много подарков делать, это все равно деньги. С другой стороны, VPS-ки упали так, что без fsck иные и не поднялись (т.е. если человек бросил на сервер, скажем, сайт, то без «рук» сайт не поднимется) — это на «мелкий сбой» не тянет…
Облачный сервер заработал в 7:33 после девяти с половиной часов даунтайма.
А теперь снова все легло что ли? Их сайт не доступен, наши сайты недоступны.

Ну это уже за гранью добра и зла!
Из панели: «Увы, проблемы с сетью повторились. К сожалению, сроки пока не известны.»
Да, снова легло. Буквально через пол-часа после того, как я с последней проблемной машиной разобрался.

Степень моего восторга словами не описать.
UFO just landed and posted this here
У них 2 проблемы: недоступность их автономки со многих направлений из мира, и глюки с облаком. Со вторым вроде они справились («никогда не говори никогда» — не последний раз это за сегодня, чувствуется), а вот «видимость» волнами идет, то «есть контакт», то нет.

Видимость у меня на одно из машин уже третий день то есть, то нет, так что верить в стабилизацию оснований все меньше. Вопрос про поиск альтернативы весьма актуален, да.

Жаль, хорошие ребята. Но за трое суток не уломать аплинки…
@Увы, проблемы с сетью повторились. К сожалению, сроки исправления пока не известны. @
Все, ребята, это уже ппц.
Хабр практически уже стал системой мониторинга Селектела. Интересно — действительно всем интересно как поживает селектел?
Я как клиент получаю больше информации отсюда, чем по другим каналам.
Обалдеть. Я клиент мобильного оператора — давайте сюда его новости постить теперь.
Давайте не будем передергивать. Впрочем, если Мегафон полностью упадет на 12 часов, то я опять же предпочел бы прочитать все подробности здесь, а не три сухих фразы на официальном сайте.
Я бы предпочел хотя бы сухие, но правдивые. Здесь больше догадки.

А Селектел убил ответом в тикете «надеемся на ваше понимание». Много слов в ответ просится, да.
Да благим матом ругаться хочется, один крупный клиент уже сказал, что уходит(
Мегафон полностью упадет на 12 часов

Сплюньте!
Я бы рад, но слюна еще ночью закончилась!
А что, у нас интернет от МТС вчера на 4 часа полностью падал, лежал полнейшим трупом. 100 000 абонентов в разгар рабочего дня сидели без интернета.
А я не буду уходить с Selectel, пока там работает Amarao. Москва тоже не сразу строилась :) А пока работают такие спецы как Amarao то я спокоен за хостера, ибо верю что «Все будет хорошо».
Тем временем у меня виртуальные машинки появились в онлайне в полном составе. Неужели конец приключениям? Тьфу-тьфу-тьфу, тук-тук-тук…
вот, кстати, соглашусь. по размышлении — это главный фактор, по которому я в итоге выбрал хостинг для своих виртуалок =)
Ну я пока свалю на хецнер а годика через полтора посмотрю на хабре что там амарао пишет про падения.
Бетатестером в ущерб своим продуктам я быть не хочу никак.
В отделе с сетью, как мы видим, он не работает. Простой сети 12 часов — мог ли такое допустить Яндекс, или ВКонтакте? Видимо проблема именно в спецах.
Пардон, промахнулся, это к комменту выше.
Да ладно вам. Тот же самый Яндекс падал неоднократно, Амазон падал, Гугл падал. Вконтакт в свое время вообще был дырой на дыре. Наверное, у них тоже проблема в спецах.
Мой ключевой акцент был не на то что они падали, а на то что проблема устранялась за 1-2 часа. Все падают.
Я тоже ценю наличие amarao, но меня волнует абсолютная величина проблем, а не относительная. За полгода в облаке было минимум 4 сбоя. Уже как минимум повод отказаться от облака в пользу выделенного сервера. А дедик уже можно выбирать там, где сбои в сети устраняют быстро — тут надо исследовать. 12 часов это долго для такого крупного и серьезного хостинга.
edition.cnn.com/2011/TECH/web/04/22/amazon.cloud.mashable/index.html

The trouble was apparently due to excessive re-mirroring of its Elastic Block Storage (EBS) volumes — this essentially created countless new backups of the EBS volumes that took up Amazon's storage capacity and triggered a cascading effect that caused downtime on hundreds (or more likely thousands) of websites for almost 24 hours.
Так то молния, а не ошибка сетевиков. Если цунами накроет селектел, я им прощу.
UFO just landed and posted this here
Зато он с пользователями работает и держит в курсе новостей, в отличие от того же Клодо или Оверсан, когда пользователи сидят и гадают, что же случилось
Ага, и даже за работу не считает.

Правда странно, что такая активность — инициатива сотрудника, а не стратегия компании.
Мой сервер поднялся, хотя админка закрыта на время перезапуска серверов.
Опять упал, в админке надпись «Ведутся работы».
UFO just landed and posted this here
зайдите через веб-консоль в админке, скорее всего она зависла в maintenance. во всяком случае, у меня она требовала fsck вручную сделать.
UFO just landed and posted this here
вот да, у меня то же самое было.
собственно, я сделал то, что написано на экране. ввёл пароль от рута, запустил команду fsck, после её завершения сделал init 6 — взлетело.
UFO just landed and posted this here
Ну что, спустя 14 часов машина запущена и доступна из внешнего мира, после fsck само собой, куда без этого.
На этот раз только облако.
Продублирую: вранье, затронуло дедики.
Увы, да, еще часть дедиков.
Селектел не врет. Ситуация меняется в реальном времени, отслеживать ее через несколько сотрудников оперативно не получается
В неудобных ситуациях Селектел предпочитает вообще ничего не говорить. Почитайте ночные посты здесь и в твиттере — подобралась отличная тусовочка техдиректоров. Всю ночь сеть скорее не работала, чем работала, однако любой обратной связи от Селектела за исключением amarao добиться невозможно, включая поддержку. Вы, надеюсь, выспались ок?
Лежим :) 14:30 по МСК. Пойду попью чаю хотя бы
Спасибо хоть на 20 минут подняли облако — успел забэкапить.
Рано обрадовались… amarao перестал отвечать, значит ли это, что теперь проблема и с облаком тоже? Или человек просто не выдержал и ушёл спать.
Amarao не комментирует потому что поднимает все.
UFO just landed and posted this here
Amarao — безусловно хороший человек и специалист, а вот услуга в таком виде — полное дерьмо.
UFO just landed and posted this here
Надо расклонировать Amarao еще в 3-4 экземплярах, что бы они делали сеть/электрику и прочее — тогда будет надежно :)
Я думал, кто-то из сотрудников Селектела поет :)
У меня порой впячатление, что amarao единственный сотрудник Селектела — столько всего делает.
От клавы кабель прямиком к логотипу Хабра нужно пририсовать ))
… единственный, который что-то на хабре регулярно пишет, это да.
Коллеги, что-то у вас явно не то с BGP:

Может, помощь хаброюзеров пригодится?
Но, ничто не мешает вам собирать количество апдейтов от прямых пиров любым удобным способом, рисовать и даже статистически анализировать.
Мешает отсутствие готового софта. Мастерить самому пока нет необходимости.
Какая классная штука, почему я раньше об этом не знал!? Спасибо.
моя машинка до сих пор лежит. в панели надпись «идет запуск машин», и ничего нельзя сделать.
ну их нафиг. заберу бэкап, и свалю на какую-нибудь линоду…
в итоге тоже поднял на линоде сервер. теперь жду возможности забрать бэкап…
а какой объем полного бэкапа, если не секрет?
На сайте Selectel в разделе вакансии требуется «сисадмин-копирайтер»: selectel.ru/about/careers/ )))))
Есть еще вопросы «почему опять селектел в дауне?» )))
А Вы знаете значение слова копирайтер?
Я к тому, что лучше набрали бы не писак технических новостей и анонсов, а работников.
Думаете девять девушек смогут родить одного ребенка за месяц?
Одно другому не мешает, amiright?
Вот и дневной сбой: облако ещё раз упало в 13:22 и до 15:29 было вырублено (в панель не заходил, только смс читал с вздохом «опять…»).
Я рыдаю. 16:20 — снова упало (у всех ли?).
Незнаю как у всех, но у меня на пол шестого каждые 30 минут после запуска
не поднималось ещё толком. из пяти машин у меня только две работали часа полтора.
Если бы на Amarao и не расценки — давно бы уже ушел.
Произошел повторный сбой одного из аггрегирующих коммутаторов.
Физически клиентское оборудование не отключалось, только было недоступно по сети.

Выясняем причины.
Как только нормализуется ситуация с сетью облачные машины станут доступны.
Ребята, ну это удручает!
Перед клиентами уже не знаем как оправдываться.
Уехали из Питерхоста потому что их провалы на час, а то и на два просто не давали работать. Год у Вас жили без проблем и забот, а тут такое уже второй день.
Просто мне кажется что чем сильнее расширяется компания тем сложней этой компании прогнозировать свои сбои и быстро их устранять. Даже «нештатная» ситуация должна быть «штатной» и контролируемой.

Искрине желаю Вам чтобы таких сбоев больше не было.
Повторный в смысле четвертый подряд за сутки?
За один сбой я разумеется считаю сообщение от Селектела что все починено, а машины перезапущены и работают.
Можно ли предположить, что аггрегирующий коммутатор не зарезервирован?
Судя по всему, будет востребована аренда серверов в облаке, физически размазанном по Москве и Питеру, по многим ДЦ, принадлежащим разным операторам и провайдерам. Ибо на машину ценой в 200 руб за сутки было изведено нервов на заметно большую сумму. При том, что и машинок не одна, и клиент не один явно.
пора уже строить социальное облако — каждому на машину по клиенту, который будет хостить какую-то небольшую часть. был такой сервис для вычислений каких-то научных, не помню уже как назывался. хотя, может он и по сей день жив.
Сервисы живы, а вот такие, что бы сайты размазывали — я не помню. Можно сеть размазывать — это i2p.
Хранилище-то социальное пытались строить сколько раз — и то находились грабли, а ведь там жертвовать надо было диск и канал, а не CPU.

А тут — вышла новая Дьябла, и 60% участников соцоблака вышло из игры ))
Красиво. Чем рисовал, чем собирал? :)
Пинговалка для старого-доброго MRTG
«Повторение проблем сетью, машины будут перезапущены после восстановления.»
Этот день войдет в историю компании Selectel. Надеюсь они научатся многому за сегодня и больше таких простоев не будет! Аминь
UFO just landed and posted this here
Очень интересно почитать потом, что же случилось.
Слабо себе представляю аварию на сети в ЦОД, которую не выходит устранить за такое время. Такое ощущение что наткнулись на баг в ПО и инженеры ждут ответа от ТАС вендора, попутно пробуя разные костыли для восстановления работоспособности.

У меня последняя крупная авария, положившая ЦОД на час, была связана с забытым на одном свитче STP и неудачной коммутацией менеджмент-линков оборудования, что не позволило оперативно удаленно понять что происходит.
До сих пор лежит.
Повторение проблем сетью, машины будут перезапущены после восстановления.
печаль. downtime — 4:45 за последние 24 часа
Это вам крупно повезло. У меня за последние 24 часа аптайм минут 25.
У меня за последние 24 часа даунтайм почти 17 часов. Это при том, что где-то в час дня сайт переехал с облака на выделенный сервер в Селектеле. Облака у меня до сих пор лежат.

Отчет Pingdom:


Перевести сайт с облака в короткий дневной просвет — это здорово. Мы вот остались в облаке, и до сих пор одни маты на уме. Потому что до сих пор облако лежит.
Со мною что-то происходит: был на Скалакси — Скалакси падал, Селектел хвалили; ушел на Селектел — Селектел стал падать, про Скалакси молчат. Чувствую, если перейду на Хетцнер или Линод… Впрочем, не стоит ))
Идите-идите, нам тут хорошо станет ;) Будем отечественного производителя поддерживать а он нас радовать стабильностью :D
В том и дело, что меня Селектел в общем и Амарао в частности очень радуют :) Опять же, расценки очень достойные, а техподдержка почти идеальная.
Ну, для чего-то по-настоящему важного, можно держать копии серверов в разных облаках.
Бегает народ постоянно между хостерами, только нет пока ни одного с надежностью в 100%.
Ахахаха. Я-то думал один такой. 6 дней как перешел со Скелекси и не тебе. Впрочем лежать на скелекси было дороже.
Да, похоже ты тот самый «чувак с баксами», которого на башорге регулярно вспоминают :)
А доллары не ты покупал случайно? :)
реакция контакта на своего партнера
vk.com/wall-9713780_34482
Чтобы создать комфортную для разработчиков и конкурентную для хостинг-провайдеров среду, мы начинаем искать новых партнёров в области предоставления услуг по размещению VDS и Dedicated-серверов.
Если у Вас есть продолжительный и успешный опыт работы с такими хостинг-компаниями, предлагаю поделиться этими знаниями в комментариях к этой записи.
Мне бы тоже хотелось узнать кого вы выберете, но доступ закрыт (
Суровая у вас закрытая открытость :((
Кста интересно что данный «опрос» производится рогозовым в закрытой группе.
Точно. Хорошо бы иметь под рукой стабильный аналог селектелу. Потому что такие падения радости не доставляют.
Дурак какой-то, честное слово.
Как он себе представляет процесс «отдайте баккапы» без работающей инфраструктуры, особенно сети…
Я думаю, он не дурак. Он просто выразил свои эмоции, в том ключе что, мол, «поднимитесь, отдайте мне мою инфу и больше я о вас даже слышать ничего не желаю»… Наболело, понимаю ;)
Я понимаю, у меня то же днем все сервера там пропали (вот сейчас пара уже поднялась).
Но писать такой бред — это за гранью для технического специалиста.
Плюс не иметь баккапов где-то в другом месте — еще более странно для технического специалиста.
Он не технический специалист.
Мне известно что он далеко не дурак.
Эмоции всех нас переполняют.
Восстановление сегмента сети облака завершено. Начат запуск облачных серверов. Примерные сроки запуска всех машин 1-3 часа.
Уже не жду, начиная с 16:00 всех клиентов сразу ориентирую на то, что починят только к утру. С Селектел только так.
У меня на одной из машин проблема с частичной доступностью ее из мира уже третьи сутки (чинят, ломают, опять чинят), так что ваши «с 16» прямо райские условия :)))
Да клиенты все равно уже ни во что не верят после всего произошедшего(
Уточните, пожалуйста, все клиенты? Можно список?
Да уж, зачем мне ваши клиенты. Хотя, может списком можно удачно торгануть? :)
Ситуация не тривиальная, и… я так понимаю, что на съедение владельцам/акционерам/инвесторам должны будут кого-то отдать. Может у кого есть опыт подобных проблем, что делают с виноватым ( — премия, увольнение, четвертуют)?
… я надеюсь это не из опыта )))
когда у провайдера работал, аж несколько раз и без наркоза)))
Страшный Вы человек… Если, конечно, человек :)
а было так: упал DWDM — виноваты все, упал сервак или целая междугородка — виноваты все, вплоть до эникейщиков...))
Вот интересно, а за что минусуют? Неужели Вы думаете, что как только все восстановится сотрудники и руководство сойдутся на мнении «с кем не бывает»?
Просто все на нервах, не знают на ком злость сорвать:)
У меня пока еще не стартануло…
У меня пара стартанула, несколько еще нет.
Старый пул полностью запустился. Примерно 60% машин из нового пула запущено.
Все запустилось. Счастье есть.
Сервер вроде как встал, но панель никак не хочет работать.
Пинг есть, sftp есть, но 80 порт мертв. Панель не але.
Все виртуальные машины запущены. Для некоторых может потребоваться нажатие Enter в консоли для запуска fsck
Действительно запустились, но консолька в панели управления не работает.
Да, только консоль не доступна, а так все хорошо, ага ;)
Ага, консоль то поднялась, только машина в глубоком дауне :(
Ребут в init.d с последующей fsck нихрена не дал:

fsck from util-linux 2.20.1 fsck: WARNING: couldn't open /etc/fstab: No such file or directory

У меня единственный вопрос — каким боком это связано с сетью?
Они ж там писали уже — сеть пропала в т.ч. между хостами и хранилищем. т.е. аналог жесткого ребута или отвалившегося диска. Отсюда и вылезший при загрузке fsck, и прочие возможные прелести.

Ну уж fstab написать — дело одной минуты максимум, если это единственный потерянный фаил — вам не о чем грустить.

ЗЫ а в lost+found его случаем нет?
Скорее всего, не с тем аргументом fsck запускаете (у меня было такое).
Помог ребут в Rescue initrd, потом vgchange -ay, потом fsck -y /dev/mapper/ИмяЛогическогоТомаLVM — в таком случае на fstab не ругается.
У меня все машины ок поднялись, до fsck еще руки не дошли)
Вообще надоели они с этими падениями, перед выведением на продакшн похоже придется ставить свой сервер на колокейшн.
Была как-то мысль перевести на селектел пару онлайн проектов, хорошо, что отказался от такой идеи.
Для дебага и разработки — самый раз, а вот под продакшн у меня рука не поднимется., если падения будут с такой же периодичностью как сейчас.
Тьфу тьфу тьфу.
Все-таки хочется иметь стабильного облачного провайдера в России, а не где-то за кордоном.

Articles