vMaria Sep 16 2013 at 10:59

Архитектура BigData-инфраструктуры сервиса Pandorama и защита ее данных от сбоев

8 min

10K

Veeam Software corporate blogSystem administration*Virtualization*Data recovery*Backup*

+18

Comments 25

kay Sep 16 2013 at 13:56

Отключение одной ВМ или физического сервера. Команда эмулировала разные события, например, отключая ВМ одну за другой или целый хост, и смотрела, как это повлияет на всю систему. В то же время происходила имитация пользовательской нагрузки. Тестирование выявило определенные проблемы, которые позже были устранены.

Какие проблемы? И как устраняли? Можно подробности?

ultral Sep 16 2013 at 14:20

проблемы были разные, начиная от некорректных условий переключения на резервный SQL до проблемы, что CDN, что он продолжал стягивать картинки с отключенного сервера статики. про какую часть проблем подробнее рассказать?

kay Sep 16 2013 at 14:30

Желательно обо всех.

ultral Sep 16 2013 at 14:57

в процессе подготовки к релизу, был составлен список что может упасть:
-picture store — мы планировали использовать DFS, но после не тестов выяснилось, что там иногда начинает тупить репликация — не справляться. было решено вынести сохранение картинок на уровень приложения(краулер пытается сохранить картинку на диск на оба сервера), не очень красивое решение, но оно оправдано тем, что у нас нет файлового хранилища

-haproxy — если пользователь был залогинен, прокси могла выставить куку на рандомный сервер, решили выносом логики выставления куки на фронтэнд

-CDN первый наш CDN падал, в итоге перешли на cloudfare но там была проблема, что брался один из из списка, в итоге на picture store навешали NLB что бы внешний IP был общий

— Была проблема с логикой старта ВМ, в некоторых случаях(теоретических), у нас могла пропасть внутреняя сеть, но остаться внешняя сеть, в данном случае ВМ стартовали и поулчалось, например что раббита у нас было 2 на одном адресе после восстановления сети… что есть плохо

— с SQL была проблема, рассматривали вначале автоматическое переключение между серверами, при помощи 3 стороны witness, но т.к. у нас база в асинхронном режиме, то решили использовать скрипт, который переключает в одном направление primary сервер, а восстаналивать потом ручками, вдруг конфликты будут.

во время тестирования, параллельно смотрели как себя ведет система для конечного пользователя. Самое страшное для нас это падение SQL основного, тогда даунтайм будет до 15-30 минут, остальное для пользователя проходит не заметно. SQL кластер, было бы лучше равернуть, но он упирается в отсутствие файлового хранилища

kay Sep 16 2013 at 14:06

При этом, чтобы сам экземпляр HAProxy не стал точкой отказа, их развернуто несколько штук с настроенным DNS Round Robin. Это старая добрая ламповая технология, которая просто работает, когда пользователь выбирает случайный IP-адрес из списка.

Т.е. если один из HAProxy упадет, то каждый N-ый запрос пользователя не будет обрабатываться, т.к. DNS севрер не будет знать какой из HAProxy упал? А если и будет знать, то пройдёт какое-то время перед тем как DNS обновится на стороне пользователя?

ultral Sep 16 2013 at 14:11

в статье небольшая неточность есть, а именно: haproxy еще установлен heartbeat, который контролирует, что все IP, на которых весит сайт находятся на живой ноде. т.е. в случае падение одной из проксей, внешний упавшей IP будет авотматически поднят на другой проксе

kay Sep 16 2013 at 14:15

Используется ли в вашем случае conntrackd (или аналоги), чтобы восстанавливать сессии?

ultral Sep 16 2013 at 14:29

фактически пользователь попадает всегда на один и тот же фронтэнд, если он находится в работоспособном состояние, а прокси направляет его на нужный, в зависимости от куки. Если фронтэнд упадет, то пользовательская сессия пропадает, в случае падения прокси переключение составляет в пределах 1-5с, Пользователь должен попадать на тот же сервер т.к. генерация индивидуальной ленты на лету требует ресурсов и у нас их нет лишних. При логине, мы, конечно, проверяем на каком сервере уже залогинен пользователь.

kay Sep 16 2013 at 15:07

Для парсинга кук HAProxy работает в режиме HTTP? Если кук много, то откуда HAProxy понимает в какой backend отправлять пользователя? Используется какое-то хранилище?

ultral Sep 16 2013 at 15:15

да, конечно в режиме HTTP работает.https трафик тоже на прокси разбирается и по http идет на frontend

про много кук не понял, можно пояснить?
смотрится значение куки, и в зависимости от значения, направляется на нужный сервер, если не валидное значение, то на случайный север отправляется, и frintend выставит нужное значение

P.S. у нас на проекте сложилась, такая терминология: backend — 40 сервисов, которые обеспечивают поставку и прочее, frontend — сайт, который генерирует пользовательскую ленту, прокси — балансирует нагрузку между серверами frontend.

kay Sep 16 2013 at 15:27

Я полагал, что данные о сервере в куке зашифрованы. Теперь увидел, что они задаются в явном виде. Т.е. задав неправильную куку SERVERID=BZG-FE-02; я могу увеличить нагрузку на backend, который не обслуживал мою сессию изначально?

ultral Sep 16 2013 at 15:32

до того, как пользователь начнет грузится в кэш, будет проверено, не залогинен ли пользователь уже, если да, то кука будет изменена, и пользователь попадет на нужный сервер.

kay Sep 16 2013 at 15:37

Спасибо за ответы, интересно. В любом случае скрытие названий backend'ов в куках не повредит.

op8 Sep 16 2013 at 16:12

Спасибо! Подумаем над этим.

esayanoleg Sep 16 2013 at 15:58

Немного не по теме, но на стартовой странице кнопки и speech-bubble вроде бы низкого разрешения, особенно текст. Или только у меня?

op8 Sep 16 2013 at 16:02

Возможно у Вас retina-дисплей. Мы еще не оптимизировали для них картинки.

esayanoleg Sep 16 2013 at 21:06

Вроде бы нет, обычный дисплей, 1920x1200, 17 дюймов, 131ppi

op8 Sep 16 2013 at 22:31

Возможно что-то с версткой, мы посмотрим. Если Вас не затруднит, пришлите скриншот на kp(ат)deepdox.ru. Плюс, если возможно, дайте знать какое окружение (платформа, браузер и т.п.)

esayanoleg Sep 16 2013 at 23:11

Написал.

Don_Eric Sep 16 2013 at 17:29

Пытался зарегистрироваться, линк активации попал в gmail spam

op8 Sep 16 2013 at 18:21

Да, действительно. Пока не удается нам понять почему так про нас gmail думает. DKIM — используем. В письмах рассылки, как и положено, внизу есть unsubscribe-ссылка. Unsubscribe Rate примерно 0.10%, SPAM SCORE у писем активации 1.259 almost perfect.

Don_Eric Sep 16 2013 at 18:54

может из-за использование majljet?

op8 Sep 16 2013 at 18:59

Возможно, мы рассматривали в качестве кандидатов MailJet и SendGrid. Майлджет нам понравился удобной статистикой и мы остановились на нем. Сейчас пытаемся с их поддержкой по этому вопросу найти общий язык. Если не получится, то попробуем перейти на SendGrid или поискать кого-нибудь еще.

ISINK Jul 2 2015 at 15:21

Если не секрет, то какая именно SQL база использовалась?
Та же PostgreSQL не уступает MongoDB/

sysmetic Jul 2 2015 at 17:35

Использовалась MongoDB (NOSQL) и MSSQL Server в качестве реляционного транзакционного хранилища.