5000shazams Apr 20 2017 at 11:01

Вредные советы по настройке резервного копирования и несколько баек

7 min

28K

DataLine corporate blogIT Infrastructure*Backup*Data storage*

+24

Comments 51

inchernar Apr 20 2017 at 11:44

Нельзя не вспомнить)
https://hi-news.ru/internet/oshibochka-vyshla-servis-dlya-xraneniya-koda-gitlab-sluchajno-udalil-pochti-vse-dannye.html

mikkisse Apr 20 2017 at 11:50

Я бы посоветовал еще никогда не проверять бэкапы на валидность. Зачем время тратить? бэкап есть — значит рабочий.

alexoron Apr 21 2017 at 12:09

Особенно это касается (раньше так было, незнаю как сейчас) продуктов Acronis, когда там ОБЯЗАТЕЛЬНО нужно делать бекап бекапов!
Двойная трата дискового пространтсва и времени.
В свое время это меня очень бесило и не понимал зачем делать двойной бекап, потом забыл о нем навсегда.
Есть и другие системы резервного копирования.

KorP Apr 20 2017 at 12:17

Мне кажется в основной части этих вопросов проблема даже не в админах, а в руководителях, которые не хотят тратиться на РК, считая что их это никогда не коснётся. Сталкивался с таким несколько раз в небольших компаниях.

5000shazams Apr 20 2017 at 12:44

да, это отдельная проблема. Вот одна из таких историй, где после того, как прижгло, руководство решило таки инвестировать в инфраструктуру для резервного копирования. https://www.reddit.com/r/sysadmin/comments/63gs2s/update_to_got_hit_bad_tonight/

dmxrand Apr 20 2017 at 18:33

Вы знаете я как безумный ходил и жаловался КАЖДЫЙ день, что у меня нет диска для резервного копирования. Писал письма. Руководство отмахивалось. И вот в один прекрасный день грохнулся диск. Фирма с оборотом 7млн в день только в 1 офисе встала. Паника была неимоверная. И что вы думаете? Мне сказали: «Это твоя вина. Ты не сумел донести важность».

Про рейд. У знакомого была логика, что рейд это надежно. И что вы думаете? Слетает контроллер. Данные на дисках, но формат рейда никто не понимает (китайский какой, то почти софт рейд)…

Areso Apr 20 2017 at 12:50

Когда случилось непоправимое на одном из мест моей работы (в рамках политики резервного копирования, впрочем), я задал вопрос про разницу между бэкапом и точкой времени, на которую были потеряны данные и услышал в ответ: «А разницу руками забьют. Сегодня не будут пить чай и обслуживать клиентов, сейчас повесим распечатку и уведомим охрану, чтобы всех приглашали на завтра» оО.

KorP Apr 20 2017 at 13:02

Да, многим руководителям проще заставить кучу людей перепахивать, чем потратить несколько тысяч на простенькую систему, что бы прикрыть тылы. Грустно это.

rubikon Apr 21 2017 at 14:54

бизнес ничего личного. зп платится, простой не стоит ничего. а за систему бекапа денег хочет админ. нафиг оно

KorP Apr 21 2017 at 15:36

Это то меня и грустит. А я тут про какие то veeam'ы, datadomain'ы, репликацию резервных копий статьи пишу.......:)

rubikon Apr 21 2017 at 15:41

да просто когда боссам и прочим важет будт простой и они реально могут оценить потери от простоя, легче на диалог идут.
иногда надо потерять все что понять стоимость спокойствия

KorP Apr 21 2017 at 15:46

Проработав уже почти 3 года в крупной компании, где такие вещи даже не обсуждаются (в хорошем смысле) я всё-равно ещё чувствую эту боль где руководству пофигу :) При чём даже когда они понимают что стоимость простоя и кол-во головной боли просто огромное :(

UFO just landed and posted this here

navion Apr 21 2017 at 16:20

Везде нужно экономические обоснование, которое и есть тот самый "cool factor" для руководства.

Busla Apr 21 2017 at 00:46

А что вас удивляет? — это как раз и есть правильный подход: совместно с руководством определить допустимое время простоя.

uzverkms Apr 21 2017 at 16:01

Проблема в руководителях только отчасти. Потому что часто проблема в админах, которые на пальцах не могут обосновать необходимость затрат на резервное копирование.

UFO just landed and posted this here

Miller777 Apr 22 2017 at 13:46

Обновлял периодически 1С на одном военном заводе. Не админ, админа у них нет, просто раз в несколько месяцев обновлял релизы и ставил свежую отчетность.

Периодически говорил: а вот хорошо бы вам под 1С отдельный сервер… Меня не слышали. Зачем? Все же и так работает…

Умер жесткий диск на ПК, где лежала

Miller777 Apr 22 2017 at 13:52

… где лежала база. Хорошо так умер, похоронив все данные.

Вызывают меня. Я нахожу на другом ПК свой бэкап базы, которую делал перед обновлением. Полугодовой давности.

вызывают директора завода, полковника. Тот смотрит на бухгалтеров и говорит: а мне-то что? Хоть умрите тут. Сидите и восстанавливайте, чтоб все было восстановлено. Настоящий полковник, да.

Бухгалтерия — 5 человек две недели до глубокой ночи забивала в старую базу данные за пол-года с бумажных носителей.

После этого был куплен сервер и настроено автоматическое резервное копирование каждую ночь.

Все замечательно доходит через руки.

aik Apr 22 2017 at 14:05

Бухгалтерия — 5 человек две недели до глубокой ночи забивала в старую базу данные за пол-года с бумажных носителей.

Сейчас знакомая контора (просто знакомая, я их не обслуживаю) как раз этим самым и занимается, шифровальщика словила, а он им файловые базы 1С обработал.
Бэкапы, теневые копии? Не, мы таких слов не знаем.

Да даже если далеко не ходить — на моей основной работе деньги на сервер бэкапов, про который я говорил и писал два или три года дали только после того, как шифровальщик добрался до главбуха.

UFO just landed and posted this here

Taciturn Apr 22 2017 at 14:52

Для бекапа файловой 1С вообще достаточно любого архиватора и простейшего скрипта.
Да и SQL-версию можно просто архивировать, если штатно останавливать SQL-сервер перед архивацией и запускать после.

navion Apr 22 2017 at 14:59

Даже в SQL Express проще настроить штатный бекап, который сам будет жать архивы. С Postgres ещё проще, ей достаточно консистентного бекапа папки с базой (например, через VSS).

aik Apr 22 2017 at 15:37

1С беэкапится несколькими халявными скриптами, не обязательно за них деньги платить.
У файловой просто файлы базы копируешь куда-нибудь, у sql'ной я делаю дампы средствами sql плюс выгрузку в dt'шки средствами 1С.

UFO just landed and posted this here

aik Apr 22 2017 at 17:19

Вообще по копированию файловых баз я специалист небольшой, у меня их мало и по ночам там никого не бывает, так что всё нормально копируется.
Из sqlной же базы я народ не выгоняю, сперва делаю дамп средствами БД, потом его восстанавливаю рядышком и оттуда уже средствами 1С сливаю dt. В основной базе при этом спокойно продолжают работать.
А вторая копия базы часто пригождается, когда народ хочет поиграться, не трогая основную базу.

На счет версий скрипта — ну разве что при обновлении платформы меняю путь к исполняемому файлу 1С. А sql'ные скрипты вообще не трогаю, там ничего менять не нужно.

UFO just landed and posted this here

msolovyev Apr 20 2017 at 17:42

Не так давно на рынке было полно материнских плат с софт-рейдами и даже NAS-ов, в которых можно было собрать зеркало из дисков. При отказе одного из дисков вы, что логично, меняли дохлый диск на живой, и… ребилда не следовало, потому что функция ребилда рейда реализована не была!
Это в плюс того, что нужно тестировать :)

dmxrand Apr 20 2017 at 18:34

Недели две назад в на один форум обратился человек. Он собрал рейд и стал тестировать как система выдерживает сбои. Жал ресет. В итоге убил один диск и через пару дней умер второй.

navion Apr 20 2017 at 19:53

Складывайте бэкапы на ту же СХД, где находятся исходные данные

Прямо рекламный слоган NetApp и прочих любителей снепшотов.

Для третьих – после потери базы остается только обратиться к техподдержке вендора (Commvault).

Есть четвёртые, у которых все метаданные хранятся в базе (TSM/Spectrum Protect) и при её утрате даже поддержка не спасёт. RPO базы приходится учитывать задавая срок хранения объёктов в пуле (REUSEDelay), чтобы после её восстановления остались данные на диске.

khanid Apr 20 2017 at 23:55

Но ведь снэпшот — не бэкап. Сколько говорено уже. И в части гипервизоров функция снэпшота — не средство бэкапа.

Noa69 Apr 21 2017 at 14:52

Снапшот такой-же «бекап» как и RAID

onix74 Apr 20 2017 at 20:22

Все важные обновления, изменения, установки и настройки делайте в пятницу после обеда, а ещё лучше — перед какими-нибудь длинными праздниками (типа новогодних каникул). И со спокойной совестью поезжайте куда-нибудь отдохнуть. Желательно туда, где нет телефонной связи и интернета. :-)

Miller777 Apr 22 2017 at 13:57

Плюсую. Еще лучше — поздно вечером, в замученном состоянии, и чтоб некому было даже в минимальном объеме проверить работу.

SlavikF Apr 20 2017 at 21:34

Поделюсь одной весьма полезной штукой, появившейся в последних файловых системах, о которых почему-то пока ещё редко упоминают, говоря о backup.

Преположил, что вы настроили backup, и делаете две копии, и даже offsite, и проверяете их.
Но случилось так, что часть этих данных была удалена / испорчена / отредактирована… НО ЭТО СРАЗУ НЕ ОБНАРУЖИЛИ.
И backup забэкапил скомпроментированные данные. Приплыли…

Так вот в ZFS, BTRFS есть снэпшоты — крутая штука. Позволяет вернуться к состояниям любых файлов в прошлом, для которых есть спэпшоты. Я делаю снэпшоты каждую неделю (хотя можно делать хоть каждые пять минут).

Конечно, совсем правильно делать снэпшоты не на продуктиве, а на бэкапе, но на современных файловых системах снэпшоты практически не тормозят систему и очень удобны.

И да, конечно, снэпшоты — это не бэкап, может быть только полу-бэкап (решает проблему компроментации данных, но не решает потерю физического носителя — дисков или контроллера).

aik Apr 21 2017 at 07:00

По-моему, это давно уже всеми используется для оперативного восстановления данных. Не замена полного бэкапа, конечно, просто удобное дополнение.
В windows зовется «предыдущие версии файлов».

vladimirad Apr 20 2017 at 22:45

Интересный момент с RAID 10 — как конкретный контроллер понимают эту 10-ку,
0+0=1 или 1+1=10 этот момент не описывается в документации. иногда может быть важен.

aik Apr 21 2017 at 07:03

Обычно видно в админке. Но особой разницы нет, всё равно вылет двух винтов может пережить только с определенными оговорками, просто на оба варианта оговорки будут разные. :)

Tabletko Apr 21 2017 at 10:49

Не совсем так raid10 переживает вылет 2-ух дисков в разных парах, а raid 01 — при вылете одного. Второй вылет в другой паре для него фатален, так как первый страйп уже развалился.

aik Apr 21 2017 at 11:03

10 — страйп зеркал, информация переживёт вылет одного диска в каждой паре, умрёт, если вылетят оба диска в одной паре.
01 — зеркало страйпов, информация переживёт вылет двух дисков в одной паре, умрёт при вылете двух дисков в разных парах.

PS. Это про четыре диска в массиве, конечно. При большем количестве дисков математика уже немного другая начинается.

Tabletko Apr 21 2017 at 12:07

Я не пытаюсь с Вами спорить. Мы, видимо, об одном и том же говорим, но с разных сторон. Я веду к тому, что в случае Raid01 смерть второго диска в паре не важна, так как страйп уже умер.

vladimirad Apr 21 2017 at 13:47

Написал потому, что видно одно, а по факту другое. Документация хорошо, а эксперимент — всему голова. Накатил систему, потом проверь. У меня был сервак, который не пережил вылет одного из четырех дисков.

aik Apr 21 2017 at 14:00

А как проверить? Вот у меня в админке видны два зеркала в страйпе. Как мне убедиться, что всё устроено именно так, а не два страйпа в зеркале?

Vld_Sergio Apr 21 2017 at 21:59

Со временем почти все приходят к мысли сначала тестировать на тестовой сборке, а уж потом выносить в продакшн. Т.е. условно говоря — взяли сервер, собрали RAID, накатили боевые базы и софт (из бэкапа, хе-хе), прогнали на все возможные варианты крэша, потом снесли начисто всё, и заново установили, настроили, перенесли базы… и в продакшн. ))

aik Apr 22 2017 at 06:34

А как вы всё же проверите, 10 у вас или 01?
Видно два зеркала в страйпе. Выдернули вы два диска из одного зеркала, но массив продолжает работать. Какой вывод? У вас страйп в зеркале? А может просто софтинка врёт по другому и вы выдернули диски из разных зеркал?

Vld_Sergio Apr 22 2017 at 09:37

Ну вот придумать безукоризненный план тестирования новых серверов как раз самое сложное.
В случае софтрейдов, например, можно получить s/n каждого тома, и, выдернув диск, посмотреть, какой серийник на корпусе. И так далее, было бы желание качественно протестировать.

navion Apr 21 2017 at 10:39

По стандарту RAID10 — это RAID0 из RAID1, а RAID01 — наоборот.

navion Apr 21 2017 at 10:44

http://www.thegeekstuff.com/2011/10/raid10-vs-raid01/

aik Apr 21 2017 at 07:06

У меня как раз на днях вылетел один из дисков в десятом рэйде, а менеджер рейдов мне не сообщил. Заметил случайно, когда память в сервере добавлял. Посмотрел потом в менеджере — он видел, что диск вылетел, но считал это нормальным состоянием, зеленые галочки и всё такое. Похоже, что софтовый глюк в старой версии. После обновления сразу заорал о том, что всё плохо, диск снимают, клиент уезжает.

avlag Apr 21 2017 at 10:50

Во вредном совете 4 случай из реальной жизни (чистейшая административная ошибка/несогласованность действий) не имеет ни малейшего отношения к системам автоматизированной проверки корректности бэкапа. В частном случае к Veeam Sure Backup.
В этом случае из жизни проверка корректности бэкапа будет пройдена успешно.
Это примерно как рассчитывать на устранение пользовательской ошибки работы с БД средствами RAID'а

relia Apr 21 2017 at 12:55

К 4-му пункту еще одна история:

Упал интернет-магазин, есть бекап месячной давности (!), но из него восстановить базу не получается — что-то как-то сильно ругается и процесс обрывается даже не воссоздав всю схему данных. Клиент обратился ко мне — выяснил, что в бекапе 4 или 5 таблиц закольцованы по foreign key. Кто, где, когда и почему так сделал — неизвестно, т.к. модернизацией магазина занимались за все его жизнь несколько команд «разработчиков» с Upwork и никто документацию не вел. Отдельного бекапа схемы данных конечно тоже нет.

Пока вытащил схему данных из бекапа (к упавшему продакшену доверия нет), руками закомментировал эти ключи, восстановил схему, восстановил закольцованные ключи (зачем они? пусть разработчики разбираются — я тикет оставил), накатил данные из бекапа… Магазин не работал больше 16 часов (из них на меня пришлось почти 6 часов, из которых 2,5 часа ушло на операцию восстановления данных).

Через 4 месяца заглянул на тот сервер: бекапы собираются примерно раз в месяц в ручном режиме, закольцованные ключи на месте… Скорее всего этот магазин станет моим постоянным клиентом :)