SLY_G Dec 30 2018 at 12:00

Почему меня нервируют отказы современных SSD

3 min

118K

Server Administration*Cloud services*Computer hardwareData storaging

Translation

+34

291

Comments 291

foxyrus Dec 30 2018 at 12:14

Было точно так же с ADATA Ultimate SU800 128GB через 5 месяцев работы как основной диск для windows 10 (просто рабочий бук, никакого видеомонтажа и тп), просто не включился, в BIOS не определялся.

1c80 Dec 30 2018 at 12:18

так они не особо качественные, адата например, такими же флэшками славилась, во она есть, а вот ее уже нет, много ли у Вас кингстонов или м2 самсунгов, так внезапно уходило в страну вечной охоты?

Taciturn Dec 30 2018 at 13:11

26 Kingston, например. 20 2.5, 6 M.2. Может это были неудачные партии, но смерть была именно как в статье — по SMART всё идеально, просто внезапно переставали работать. M.2, через некоторое время, снова начинали работать, 2.5 с концами. Точные модели не скажу, с 2.5 было 5 лет назад, с M.2 — два года.

1c80 Jan 2 2019 at 18:58

а они серии hyperx у Вас были?

Taciturn Jan 2 2019 at 19:03

Я не помню модель.

1c80 Jan 2 2019 at 19:12

жаль, просто отзывы смотрел перед покупкой и они весьма разнились, в зависимости от линейки

isden Dec 30 2018 at 16:42

> адата например, такими же флэшками славилась

К слову про адата. Уже лет так примерно 6 использую флэшку адата на 32 гига как временный кэш для торрентов. Жива до сих пор, никаких ошибок чтения/записи нет.
При этом, две флэшки кингстон померли в течение полугода после покупки.

1c80 Jan 2 2019 at 19:00

2 адаты накернились, кингстонов не было, а вот трансценды живы до сих пор, правда не особо дешево они мне тогда обошлись, но вроде как не зря потратился, посмотрим, что дальше будет с ними

UFO just landed and posted this here

periskop Dec 30 2018 at 20:33

Наверное, 8 мегабайт, а не гигабайт. Это известная проблема 320 серии, которая лечится обновлением прошивки. Но данные, если глюк произошел, уже не спасти, да. Гуглить по intel 320 ssd 8mb.

UFO just landed and posted this here

DrPass Dec 31 2018 at 01:18

Если вы это делаете каждый месяц, и не поменяли свой кингстон на что-то не зависающее, значит, вам это занятие определённо нравится.

UFO just landed and posted this here

DrPass Dec 31 2018 at 02:17

Я не верю, что человек, который себе мастерит такие игрушки, как RAID на SSD, может быть стеснён в средствах.

UFO just landed and posted this here

DrPass Dec 31 2018 at 03:26

Зеркалирование диска с важными данными теперь считается игрушкой для богатых?

Зеркалирование SSD на домашнем компе? Да. И раньше считалось, и теперь.

UFO just landed and posted this here

periskop Dec 31 2018 at 03:50

https://www.google.com/search?q=raid+is+not+a+backup

UFO just landed and posted this here

kotte33 Jan 3 2019 at 18:26

Имхо я бы переделал вашу схему на независимые диски с ежедневной синхронизацией (например Cobian backup) и/или средства в стиле Acronis. Например саму систему бэкапим раз в неделю, а данные каждый день (или чаще если всё очень критично). Но больше всего мне нравится другой вариант — диски перевести в RAID0 и купить жёсткий диск для бэкапов.

DrPass Dec 31 2018 at 04:15

Я избавился от предрассудков лет десять назад, когда у меня дома развалился этот самый RAID-1 по причине смерти одного диска. Я все равно потратил время на восстановление системы и стал перед дилеммой, искать ли мне ещё один такой же диск в RAID (а если по феншую, то два одинаковых новых), или купить любой другой и делать обычные бэкапы. И оказалось, что второй вариант намного практичнее.

UFO just landed and posted this here

progit Dec 31 2018 at 06:40

А почему не смотрите в сторону облачных хранилищ?

Сейчас они стоят копейки, а стабильности и простоты добавляют в разы больше. Как правило всегда есть "еще один ноутбук", "вон тот старенький ПиСи", "простенький смартфон" и тд, которые позволят получить доступ к необходимым данным "прямо здесь и сейчас".

Ограничений такого подхода, на мой взгляд, два:

хреновый интернет (привет, Камчатка!),
большие объемы (конвертация видео 4к и тд)

IMHO, RAID в текущих реалиях нужен только для машинок, которые должны быть с максимальной доступностью — сервера (но тут рейда недостаточно — должны быть более сложные системы отказоустойчивости), регистраторы систем видеонаблюдения и тд. Явно речь идет не про домашнюю машинку.

UFO just landed and posted this here

GlucK115 Jan 3 2019 at 18:26

Жуть. Как я всю жизнь обхожусь без рейдом и облачных хранилищ?
Максимум, скидываю копию, раз в пятилетку, на редко используемый винт.
Без феншуя. На SSD С — система и рабочее ПО, для быстрого старта. На диске H — всякий одноразовый хлам и торренты, которые надо посмотреть, пощупать и… удалить в последствии.
А вот на дисках между ними. Например диск D — реально рабочий (кстати на него спроецированы папки рабочего стола и прочии библиотеки форточек). Диск Е — древнейший архив (если копнуть на нём, то там файлики прошлого века).

Ну а если ближе к топику, то меня тоже тревожит вопрос не жданчиков со стороны SSD. За несколько пара штук умерла. На совсем. И если с HDD есть хоть какие-то шансы на восстановление инфы, то в случае SSD эти шансы стремятся к нулю.

Pochemuk Jan 3 2019 at 21:07

Очень просто… Вам не нужно обеспечить, в лучшем случае, бесперебойную работу десятка серверов, а в худшем — восстановление критической информации (и работоспособности) в течение нескольких часов.

А вот когда такая потребность появится, то будут и RAIDы, и регулярные автоматические локальные бэкапы, и удаленные и облачные. И резервирование провайдеров и ЗИПы не из б/у дисков, а из новья. И контроль S.M.A.R.T. где это возможно и фоновая верификация…

GlucK115 Jan 3 2019 at 21:29

Это да. Тут не спорю.
К счастью использовать в быту дисковые полки и прочее перечисленное вами, э… несколько излишне.
Но как это не странно, именно б/у диски у меня обладают большей надёжностью, по сравнению с новьём. Старьё уже к 10 годам работы приближается, а новые — от силы пару-тройку лет выживают. А на примере новых SSD (и примкнувших к ним разовых внешних винтов), и года не выживают, а то и полугода.

isden Jan 3 2019 at 23:51

> не из б/у дисков

Небольшое дополнение.
Насколько помню, в статистике, по-моему от Backblaze, было такое, что у новых дисков где-то до полутора-двух лет больше отказов, чем после. Т.е. самые надежные — это те, которые использовались полтора-два года и выжили.

Pochemuk Jan 4 2019 at 12:28

Ну, это не только для HDD/SDD:

https://ru.wikipedia.org/wiki/Интенсивность_отказов

Но тут есть нюанс…

Чтобы использовать такие диски-ветераны, они должны сначала поработать где-нибудь в «тренировочном лагере» годика 2. Причем, под адекватными нагрузками. Только после чего их можно будет ставить на боевой сервер.

Т.е. у них на эти самые 2 года уменьшится ресурс, не говоря уже о гарантии.

Т.к. гарантия в большинстве случаев для SSD составляет 60 месяцев, то такие меры можно было бы считать оправданными, если бы выход из строя в процессе «тренировки» превышал 40%.

Но что-то мне подсказывает, что эта цифра окажется явно завышенной.

Поэтому, может быть для снижения риска геморроя это и имеет смысл, но с экономической точки зрения впустую профукать 2 года жизни накопителя явно невыгодно.

InterceptorTSK Jan 6 2019 at 00:05

Зачем ждать два года? Есть методики искусственного старения, и что бы что-то состарить — нагрейте. Все что вы видите вокруг — стареет исключительно и по одной причине — из за температуры, и все что вы видите вокруг — это химические реакции. Возьмите банального Вант-Гоффа, и он вам расскажет почему курица в холодильнике не тухнет. Конечно это в некоторой степени притянуто заушы, и в некторых биологических реакциях оно не работает, но в подавляющем большинстве методики старения неорганики основываются именно на повышении температуры. Само собой методики не простые, составляются очень сложно, применяется тут очень сложная «наука») Я лично видел формулы, по которым рассчитывают искусственное старение. Сказать что они монструозные — это ничего не сказать… Но это все возможно, и используется да почти хоть где. Например на СибМоторе я жог двигатели пачками, по специально составленной методичке. Тупым и контролируемым нагревом работающие двигатели работая три месяца работали как бы три года)) И ровно такие же методики, но со своими приколами разрабатываются на все. На винт такую методику составить тоже в общем-то не проблема, да и 100% они в природе существуют) На заводах точно есть.

zergone Jan 3 2019 at 18:25

А что насчёт таджиков, перерубивших ГОРОДСКОЙ кабель экскаватором? Нет, через сутки всё восстановили конечно. Но как быть с потерей суток, если например это был дедлайн по крупному заказу?

DrPass Jan 3 2019 at 18:40

Но как быть с потерей суток, если например это был дедлайн по крупному заказу?

Никак. Домашний RAID эту проблему уж точно не решит. Какая разница, где у вас дома хранятся данные, на соло-диске или в массиве, если вы не можете ни обновления от коллег получить, ни отправить, ни отдеплоить.
Если у вас есть такие важные заказы, резервировать надо не диски, а провайдеров. Чтобы было два разных городских кабеля.

zergone Jan 4 2019 at 19:05

Если заказ требует много данных и они хранятся у меня локально, отключение сети затормозит только передачу файлов — саму финальную операцию. А вот облачное хранение остановит всю работу на сутки.
А насчёт второго канала — да это правильно. Только тут надо вести речь например о сотовой связи или спутнике. Я упоминал про обрыв входа в город.

DrPass Jan 5 2019 at 12:14

А вот облачное хранение остановит всю работу на сутки.

Я, честно говоря, слабо представляю, зачем вообще можно работать в облаке, не имея локальных копий, если вы работаете с компьютера, а не с планшета или телефона. Я этот сценарий даже не рассматриваю :)

Я упоминал про обрыв входа в город.

Так ведь у города нет какого-го центрального городского входа. Все входы принадлежат каким-то провайдерам. Сколько первичных провайдеров, столько и входов. Если провайдер в городе один, тогда, естественно, обрыв его линии приводит к общему шатдауну.

zergone Jan 5 2019 at 16:18

Сейчас, может быть, но сильно не уверен. Наукоград штука более подконтрольная, чем Задние Грязюки. А один кабель проще контролировать.

DrPass Jan 5 2019 at 19:01

Да кабель как раз никто контролировать не собирается, что оно за ценность? Наоборот, чем их больше, тем надежнее инфраструктура и выше пропускная способность. А кнопка «выкл» есть в коммутационных центрах у провайдеров.
Если мы говорим про небольшой городок тыщ на 30 жителей, то там действительно может быть один первичный провайдер с одним кабелем. Города-миллионники же соединены с внешним миром многими десятками независимых каналов. Причем шатдауны каналов происходят постоянно, и по внешним причинам, и для планового обслуживания. Пользователи этого просто не замечают, т.к. маршрутизация переключается на другие.

SergeyMax Dec 31 2018 at 16:31

когда у меня дома развалился этот самый RAID-1 по причине смерти одного диска

Какой-то у вас RAID1 неправильный.

DrPass Dec 31 2018 at 17:13

Неправильные были чуваки, которые писали прошивку встроенного в материнку контроллера.

UFO just landed and posted this here

DrPass Jan 2 2019 at 01:14

А в чём смысл использования встроенки?

По-моему, использовать имеющуюся аппаратную фичу как раз самый очевидный вариант. Мне вообще не было ни капельки интересно выяснять на практике, почувствую ли я разницу на каких-то своих задачах между программным и аппаратным рейдом. Я начал играться с компьютером в 1995-м году, и к 2008-му наигрался вдоволь, у меня уже не было желания экспериментировать с настройками дисков и софтовыми приблудами. Я предпочитал, чтобы он просто делал своё дело.

UFO just landed and posted this here

Stanislavvv Jan 9 2019 at 16:10

Подозреваю, что встроенное в материнку в любом случае работает хуже программного рейда. Даже на серверах HP вполне себе аппаратный рейд тормознее, чем программный рейд поверх тех же дисков через тот же контроллер…
Ну и про fakeraid забывать тоже не стоит, бывало всякое…

Greendq Jan 1 2019 at 03:00

Если совсем по фен-шую — то два диска из РАЗНЫХ партий, лучше — разных производителей. Но одного размера :)

gecube Jan 1 2019 at 11:17

Бывает, что размер чуть-чуть, но у разных производителей отличается )

Greendq Jan 2 2019 at 01:51

Да, есть такое дело — некоторые считают по стандарту (в бинарных байтах, некоторые — в десятичных. Причём не всегда у них кило — это 1000, у некоторых 1024). Но зеркало создать это не мешает — просто будет использоваться минимальный из доступных объём, остальное «потеряется».

-1

1c80 Jan 2 2019 at 19:01

а какой серии кингстон у Вас? hyperx?

x67 Dec 31 2018 at 01:15

Флешки кингстона уходили только так. Самые надежные флешки, что попадались мне одна серия transcend jetflash. Радовали и ценой и производительностью и стойкостью, было штук 5, до сих пор работают две, остальные просто растерялись

Maximuzz Jan 1 2019 at 18:19

подтверждаю transcend jetflash — это моя первая флешка купленная, более 10(?) лет назад работает до сих пор

DrPass Jan 2 2019 at 01:21

Тут ещё играет роль тип памяти. Старые-то были сначала поголовно на SLC-ячейках, потом на MLC, сейчас на TLC перешли и начинают на QLC. И каждый новый тип менее живучий. У меня в коробке с флешками есть даже 16-мегабайтный экземпляр начала 2000-х. Тоже работает как миленький.

1c80 Jan 2 2019 at 19:02

вот! поддержу

Pochemuk Jan 2 2019 at 20:39

У меня дома неописуемый зоопарк флешек — Тресценды, АДата, Кингстоны, СанДиски и прочие, у которых я даже на брэнд не смотрю. Потому что понял, что везде можно напороться на лажу.

Купил как-то SD-Card Transcend 16 Gb дочке в читалку. Вставил в слот, читалка увидела ее, сказала, что надо отформатировать, после чего выдала ошибку. И видит у нее только несколько мегов. В компьютере — то же самое. Попытки восстановления всякими утилитами ни к чему хорошему не привели. Сходил в магазин (благо он в моем доме же располагался) — заменили. Принес домой, вставил в комп — тоже самое. После того, как я пришел возвращать третью, продавцы дали мне тоже Transcend, но не в «зеленой упаковке, а в синей»… Говорят, партия была бракованная.

Хотя я сильно подозреваю, что это был просто контрафакт.

UFO just landed and posted this here

Frankenstine Dec 31 2018 at 14:00

много ли у Вас кингстонов или м2 самсунгов, так внезапно уходило в страну вечной охоты?

Ну не сильно внезапно, я успел снять данные пока он был в r/o, до того как он окирпичился, но таки мой первый ssd, Kingston SNV425 64GB отработал лишь чуть больше года.

muromdx Jan 1 2019 at 02:40

Что интересно — в офисе работают несколько дешевых адата, некоторые по несколько лет. А дорогой кингстон начал сыпаться (спасибо хоть не отключился без предупреждения) меньше чем через год.

old_bear Dec 30 2018 at 12:24

Все диски делятся на две категории — мёртвые и пока ещё живые. (с)
Все проблемы с дисками решаются бэкапом и гарантией производителя.
Все проблемы с излишними беспокойствами решаются пивом (если мы говорим про IT).

+10

Xalium Dec 30 2018 at 13:02

Все проблемы с дисками решаются бэкапом и гарантией производителя.

бекап — это решения проблемы информации, а не дисков. Пока ты не купишь/не поменяешь вышедший из строя диск, работа может простаивать.
И так как неизвестно, из-за чего он вышел из строя, то в ближайшее время могут и другие диски туда же отправиться.

DrPass Dec 30 2018 at 13:43

бекап — это решения проблемы информации, а не дисков. Пока ты не купишь/не поменяешь вышедший из строя диск, работа может простаивать.

Это всего лишь вопрос бюджета. Те, у кого есть потребность в обеспечении бесперебойной работы при отказах железа, и есть на это финансы, про дисковые массивы с горячей заменой дисков, как правило, слышали.

old_bear Dec 30 2018 at 14:30

И так как неизвестно, из-за чего он вышел из строя, то в ближайшее время могут и другие диски туда же отправиться.

А во времена HDD это было известно? IMHO, у людей просто была иллюзия на эту тему, которая приводила к фатальному нежеланию делать бэкапы и бесконечным форумным срачам на темы «дятлы против рыб» (если вы понимаете, о чём я) на основании душещипательных историй эксплуатации одиночных экземпляров.
Ситуация с SSD отличается только тем, что количество иллюзий стало меньше. А реальная статистика уже давно посчитана производителями и выражена в виде сроков гарантии. Ориентируйтесь на эти сроки, делайте бекапы, имейте в наличии нужное количество запасного железа и будет вам счастье. В случае домашнего использования, пункт про запасное железо можно исключить в пользу близлежащего магазина.

VBKesha Dec 30 2018 at 20:09

Ситуация с SSD отличается только тем, что количество иллюзий стало меньше.

Иллюзий стало больше, они читают рекламу и видят что движущихся частей нету, ломатся нечему, ресур такой что можено 5 лет каждый день весь SSD переписывать и даже если он он умрет то просто перейдёт в режим только для чтения, и все данные останутся целы.
И объяснить им что это большая флешка(кои мрут не так и редко) бесполезно, пока на грабли не наступят не верят.

yurisv3 Dec 31 2018 at 07:28

они читают рекламу

объяснить им

Разумно решать СВОИ проблемы, а эти ваши «они» — пусть «они» решают свои. Себя зачем грузите? Если своего мало, «так я вам работу-то быстро найду!» (с)

VBKesha Dec 31 2018 at 09:22

Потому что потом «их» проблемы становятся моими, потому что «они» бывают моими друзьями.

Alexey2005 Dec 31 2018 at 18:38

У SSD по сравнению с HDD очень низкая надёжность. Просто катастрофически низкая.
За всю свою жизнь, включая 90-е, я всего дважды сталкивался с выходом HDD из строя. Именно мгновенным выходом, а не ситуацией, когда диск начинает постепенно «сыпаться» и этот процесс растягивается на недели.
Тогда как с дохлыми SSD только за последние 3 года сталкивался 4 раза.
Причём, что самое удивительное, причины сдыхания SSD примерно те же, что и у HDD — дохнет как правило не сам чип памяти, а тухлый контроллер или дерьмово пропаянный разъём. Такое ощущение, что в случае SSD в качестве контроллеров используются отбракованные отходы производства. Не знаю, чем ещё объяснить такой чудовищный процент явного брака.

old_bear Dec 31 2018 at 18:48

За всю свою жизнь, включая 90-е, я всего дважды сталкивался с выходом HDD из строя. Именно мгновенным выходом, а не ситуацией, когда диск начинает постепенно «сыпаться» и этот процесс растягивается на недели.
Тогда как с дохлыми SSD только за последние 3 года сталкивался 4 раза.

А я за свою жизнь сталкивался с множеством выходов HDD из строя, а вот ни одного умершего у меня SSD не было.
И что это нам говорит? А говорит это нам то, что привычка домашних пользователей делать всеобъемлющие выводы по единичным экземплярам, бывшим у них в эксплуатации, является ~~полным детским садом~~ глубоко ошибочной с точки зрения статистического анализа. Про это я и написал в своём предыдущем комментарии.
Или может быть я трагически ошибаюсь и вы обладаете достоверной статистикой по, хотя бы, сотням экземпляров HDD и SSD? Правда ваши полные драматизма голословные заявления заставляют меня в этом сомневаться.

UFO just landed and posted this here

geher Dec 30 2018 at 14:50

бекап — это решения проблемы информации, а не дисков. Пока ты не купишь/не поменяешь вышедший из строя диск, работа может простаивать.

RAID, корзина с "горячей" заменой и ЗИП обоснованных размеров "спасут отца русской демократии".

UFO just landed and posted this here

geher Dec 31 2018 at 00:01

Даже в ноутбуке.
Системный диск заменяется из ЗИПа, после чего быстро накатывается образ.
Небольшие по объему данные быстро восстанавливаюься из бэкапа.
Объемные данные на внешнем устройстве с RAID1. Второе такое же устройство и диски к нему в ЗИПе
Как-то так.

UFO just landed and posted this here

geher Dec 31 2018 at 15:33

Вы выше пишете про RAID-1 и корзину с hot-plug. Я написал, что для ноутбука это, очевидно, не подходит.

У меня было как-то интересное усттойство, которое имело габариты внешнего жесткого диска (чуть больше ноутбучного жесткого диска по длине и ширине и чуть толще двух ноутбучных жестких дисков, уложенных один на другой.
Устройство умело подключаться по USB, умело RAID1 с горячей заменой (две дверки с простыми, но достаточно надежными защелками.
Что мне особо нравилось, диск, работающий в RAID1 можно было вынуть и полключить к компьютеру через SATA или простой USB переходник, и он нормально воспринимался, поскольку не имел в разметке извращений, свойственных дискам, крутящимся во мноших других RAID контроллерах.
Я его как раз использовал с ноутбуком в качестве носителя для объемных данных.
Восстановление системы с образа и пользовательских данных из бэкапа на SSD никогда не занимало очень много времени (не больше часа на все).

Еще вспомнился один интересный ноутбук, которыц довелось видеть живьем (ни производителя, ни модель сейчас не вспомню уже). 17" монстр с аппаратным рэйдом и ттемя слотами для SATA дисков. Горячей замены, правдв, не было, но замена диска заеимала всего пару минут: открутить винт (обычный крест), открыть крышку, заменить диск, поставить крышку на место и закрутить. Если экстремальное использование не ожидается, винт на крыоке можно не закручивать. Защелка нормально держит.

DaemonGloom Jan 1 2019 at 10:43

Это, кстати, плохо, что разметка была обычной и устройство читалось без софта специального. Ибо это означает, что контроллер не хранил контрольных сумм. Тогда в ситуации, когда он внезапно обнаруживает, что данные на дисках отличаются, ему только остаётся сказать об ошибке и отключиться — и пусть уже пользователь гадает, какая же из копий верная. Правильный контроллер делает нестандартную разметку, в которой помимо самих данных хранит ещё и контрольные суммы блоков. Тогда при обнаружении разных данных на диске он может проверить контрольную сумму и сказать "ребята, вот этот диск хороший, а другой какую-то фигню стал содержать, поменяйте именно его".

geher Jan 1 2019 at 18:23

Ну как-то это устройство определяло, какой диск объявить поврежденным в случае сбоя и с какого диска копировать данные при замене диска в устройстве, когда вставлялся диск, ранее уже использовавшийся в нем и не отформатированный.
Подозреваю, что всякую служебку, включая контрольные суммы, оно просто хранило в областях дисков, не распределенных под разделы.
Подозреваю также, что оно очень неэффективно (не зря же в серьезных контроллерах всегда извращенная разметка), но зато такой приятный бонус.
У меня не было в запасе второго такого же, и когда устройство померло, это позволило без лишних трат и ухищрений получить свои данные.

Lennonenko Jan 2 2019 at 23:37

хм, какой-то противоестественной связью у вас связаны чексуммы, разметка и поведение контроллера при сбое
это три разноуровневые вещи, никак друг от друга не зависящие

DaemonGloom Jan 3 2019 at 14:47

Они связаны крайне просто. Для определения, данные на каком диске корректны (из двух) нужны контрольные суммы. Поскольку хранить их внутри ФС аппаратный контроллер не может — ему приходится хранить их где-то в другом месте. Либо в месте в конце (и тогда есть шанс, что диск прочитается в любом компе), либо рядом с самими блоками. Тот же EMC вообще использует(использовал) для этого сектора по 520 байт вместо 512 стандартных — такие диски на других системах читались с большими проблемами. Если таких сумм нет — определить, где корректны данные (если это не сбой со смертью диска/сектора, отмеченный в S.M.A.R.T.) контроллер не сможет. Никакой противоестественности.

Lennonenko Jan 3 2019 at 15:04

контроллер же знает, какой диск ему не ответил или ответил неправильно, помечает этот диск флажком BAD, а весь массив — DEGRADED, зачем постоянно всё пересчитывать? пусть этим ФС занимается, у неё и журнал для этого есть
про чексуммы обычно говорят в контексте RAID5(6)

DaemonGloom Jan 4 2019 at 17:59

Он не всегда это знает — для любого диска есть шанс на некорректную запись/чтение бита информации. Соответствующая технология называется у всех вендоров разнообразно.
Для IBM — www.ibm.com/support/knowledgecenter/en/SSFKCN_4.1.0/com.ibm.cluster.gpfs.v4r1.gpfs200.doc/bl1adv_introe2echecksum.htm
Для HP — Data integrity checking
In addition to hardware fault tolerance, all HP 3PAR StoreServ Storage systems offer automated end-to-end error checking during the data frames’ journey through the HP 3PAR StoreServ Storage array to the disk devices to help ensure data integrity in support of Tier-1 resilience. In addition to this HP 3PAR Thin Express ASIC comes with the Persistent Checksum feature that ensures end-to-end data protection, from host HBA to physical drives. (Взято из pdfs.semanticscholar.org/4748/5777672b6c0b548b1c9a2984a091b66abcbb.pdf )
Есть аналогичное и у прочих.

edo1h Oct 23 2022 at 02:15

это всё-таки схд, а не контроллеры.
raid-контроллеров, которые считают контрольные суммы и учитывают их при чтении, я не встречал.

edogs Dec 31 2018 at 22:00

особенно в ноутбуке

От ноутбука зависит.
У нас на старом ноуте было 2 сата3 полноценных и один сата2 на м.2, плюс можно было двд диск вынуть получить еще один сата2 полноценный.
На нынешних 1 слот нвме и один слот сата3 обычный.
юсб3.1 вполне хватает для быстрых инкриментальных бакапов.

Lennonenko Jan 2 2019 at 23:33

если мы всё ещё говорим о «простое техники», то ноутбук меняется целиком, на любой подходящий с заранее раскатанным типовым образом, данные в домене и на файлопомойке
это и будет hotswap для ноутбука

Pochemuk Dec 30 2018 at 12:34

У нас большая часть проблем была связана с Vertex OCZ 4. Работает себе нормально и вдруг отваливается. Вынешь его, на стенде потестишь — нормальный. Ставишь обратно — опять работает.

С заменой Вертексов на Кингстоны и Самсунги проблемы пропали. Да и AData по сравнению с Вертексами вполне нормально работают.

А один Вертекс упорно не видится ни одним RAID-контроллером. Т.е. он прекрасно работает, подключенным к SATA-разъему, а встроенными в мамки или отдельными SAS-контроллерами совсем не воспринимается. И так с самого изнова.

InterceptorTSK Dec 30 2018 at 13:57

На вертексе четвертом прям щяс сижу и с этого кампа и пишу сюда)
Работает уже хз сколько, здоровье 92% поглядел только что, винт 120гб, куплен я уже и не знаю когда, лет семь назад что ли, а может быть уже и больше…
Когда ж ты сдохнешь-то зараза!!! Пока не сдохнет, я ж новый винт брать не буду)))
Так же в наличии разнообразный парк мошын, во всех без исключения воткнуты интелы и самсунги. Отказов ноль, проблем ноль.
До меня стояли какие-то убогие ссд-шки — все повылетали, поголовно все. А вполне себе живые и тоже всякие совсем ненужные hdd-шки я вытащил и снес оптом в кантору, торгующую б/у. Такие дела)

-1

Lennonenko Jan 2 2019 at 23:40

А вполне себе живые и тоже всякие совсем ненужные hdd-шки я вытащил и снес оптом в кантору, торгующую б/у.

зачем? харды лишними не бывают, бэкапы же, замены, да и новые тачки можно брать только с ссд и старые харды туда вставлять

DollaR84 Dec 30 2018 at 14:02

Когда я выбирал себе ssd домой как раз только появились OCZ Vertex 4, и было на разных форумах очень много жалоб на его контроллер, который грешил внезапным помиранием. В отличии от контроллера OCZ Vertex 3, который очень хорошо зарекомендовал себя. Потратил много времени чтобы найти именно третий Vertex, и не пожалел. Сколько лет до сих пор трудится. Не знаю зачем было менять такой хороший контроллер на малоизвестную новинку.

Revertis Dec 30 2018 at 15:53

У меня Vertex 3 стоял несколько лет, всё было отлично. В какой-то день я решил забэкапить все данные с него (проекты и другие файлы). Забэкапил, всё хорошо. Но тут начались какие-то странные глюки, подвисания компа на несколько секунд, даже мышь не двигалась.
Решил перезагрузить. После перезагрузки SSD не определяется.
Как будто ждал пока я не сделаю бэкап :)

edogs Dec 31 2018 at 22:07

Как будто ждал пока я не сделаю бэкап :)

Возможно.
Бакап долгая и грузящая операция, идет нагрев диска, старые диски не умели тротлить при нагревании, что приводило к проблемам. В основном это касалось не энтерпрайз дисков, которые на такое не особенно были расчитаны.
Современные ссд диски почти все умеют тротлить, да и тех.процесс стал меньше с энергопотреблением, поэтому та проблема почти ушла.

Lennonenko Jan 2 2019 at 23:41

при записи нагрузка в основном, на чтении раза в 3 меньше, не затроттлишь

migelle74 Dec 30 2018 at 16:49

У меня в ящике стола валяется такой вертекс. Сначала работал нормально, а потом стал блокировать случайным образом файлы и подвешивать систему. Переформатируешь, опять работает некоторое время, а потом глючить начинает. А с такими глюками хрен его сдашь по их хваленой гарантии.

sizziff Dec 30 2018 at 12:37

А каким образом crucial mx 300 внезапно стал «серверным» винтом?

BoyanBr Dec 30 2018 at 12:40

Если бы автор или его организация не покупали дешевые SSD, думается, что таких проблем у них было бы поменьше. Говорю как человек, который два года назад купил такой-же Crucial MX300 из-за очень выгодной цены. И этот SSD помер около 2 месяца назад (хотя у него умер не контроллер, а наверное часть памяти, поттому что было очень много «плохих» секторов).
Кстати, SSD никаким образом не более защищены от ранних производственных дефектов, чем остальные электронные устройства, и утверждение «теоретически такого происходить не должно» в корне неверно. Но да, вообще-то я не припоминаю таких сбоев контроллеров жестких дисков (кроме багов, как в Seagate Barracuda 11, если не изменяет память).

+10

Popadanec Dec 30 2018 at 13:07

У меня ОЗУ данного производителя умерла. Одно планка совсем, вторая сбоила периодически. Вот сюрприз так сюрприз, с учётом того что по крайней мере некоторые производители делают пожизненную гарантию. Ладно хоть они не были купленными, а приехали вместе с матерью.

DarkFatal1ty Dec 31 2018 at 15:38

У меня тоже. И их ССД тоже. К Crucial доверия нет. Всякий китай и дешман работает уже подолгу, а Крушл из коробки как-то попался мертвым.
А 2 терабайтный Seagate Firecuda уже полгода не могу поменять по гарантии, буду после НГ отсылать по гарантии в Нидерланды.

vics001 Dec 30 2018 at 14:13

Стоял на сервере Samsung 840 PRO: работал отлично, средняя нагрузка по 10-20 МБ/с на чтение. Работал года 3, и в один момент пропал диск из системы, перезагрузили сервер, работает. Следующий раз повторилось через 2 месяца, а затем начало повторяться раз в неделю, причем никакое сканирование, SMART и все другие утилиты не показывали никаких ошибок, но так как перезагружать сервер себе дороже пришлось его списать.

BoyanBr Dec 30 2018 at 14:33

Я поэтому и подстраховался, написав, что по-моему, проблем было бы меньше, а не что их бы не было вообще :)

Popadanec Dec 30 2018 at 16:08

Плюс, брак есть у всех.

DGN Dec 30 2018 at 16:25

Контроллер жесткого диска по сравнению с SSD невероятно прост. И то умудрялись косячить… SSD обходятся дешевле в контексте восстановления и не смотря ни на что — они надежнее HDD. Просто потребитель иногда начинает считать их настолько же надежными как DRAM и CPU (ну а что, и там кремний и тут), реальность внезапно удивляет.

p.s. Кстати, в домашнем ПК, SSD никогда не умрет по причине износа ячеек, то есть все смерти, с точки зрения SMART, будут внезапны и необъяснимы.

Kwisatz Dec 30 2018 at 19:01

Кстати, в домашнем ПК, SSD никогда не умрет по причине износа ячеек

Мой RevoDrive с вами несогласен 8) Умер правда 1 из 4 массивов но таки пришлось выкинуть. Держался достойно, лет 6.

DGN Dec 31 2018 at 04:24

Это не та ужасная конструкция в слот pci-e четыре сандфорса страйпом?

Kwisatz Dec 31 2018 at 18:39

она самая

ALF_Zetas Dec 30 2018 at 21:22

по статистике, ежегодно собираемой hardware.fr, два года тому, обогнав лидировавшую до этого RAM память, SSD стали самым надежным компонентом компьютера — но к старым моделям это не относится.

ЗЫ самый ненадежный компонент компьютера по той же статистике это видеокарта

DmitryOgn Dec 30 2018 at 23:08

Видеокарта работает, HDD усредненно работают лет по 10 (беру сигейты, сдыхали WD и IBM),

а SSD, две планки памяти и несколько материнок уже сдохли.

arantar Dec 31 2018 at 12:07

От чего может сдохнуть RAM и несколько материнок, если только это не брак и они не работают на износ 24/7?

DmitryOgn Dec 31 2018 at 20:33

От времени! Планки 5+ лет проработали, но диск (лет 10, не помню когда купил), еще живой, а планки обе сдохли, мать тоже менялась. В первый раз сталкиваюсь со сдохшей памятью.

Pochemuk Dec 31 2018 at 21:06

Да ла-а-адно… Полно.

Один раз планка памяти нам даже новая пришла дохлая. Закупили 4 планки по 16 Gb для расширения сервера… Вставили, а он не включается. Очко слегка взыграло (мало ли, что там в мамке могло треснуть, когда их вставляли), но начали разбираться. Выяснили, что с тремя запускается, а с одной — никак. Кое-как распределили память по слотам, чтобы на каждый процессор было поровну и отправили эту планку на замену.

А так да… От времени. Работает нормально, вдруг начинает вываливаться в BSOD или перестает загружаться. Память поменяли — снова дышит.

Но чаще — от кривых ручек. Когда криво в слот вставляют и питание подают. Хорошо, если при этом она ничего больше за собой не утянет. На YouTube видел ролик по ремонту, когда в результате криворукой замены памяти половину мамки вышибло.

ALF_Zetas Dec 31 2018 at 13:41

твоя персональная статистика против статистики всех сервисцентров и мастерских Франции? — смешная репрезентативность…

DmitryOgn Dec 31 2018 at 20:36

Вот именно — есть статистика, а есть «ситуация на местах». Которая не опровергает статистику, но и не соответствует ей.

DGN Dec 31 2018 at 04:28

Хмм… по мне, так с огромным отрывом в надежности идет CPU. Видеокарта ненадежна, да, особенно если считать ноутбуки, где видеокарты умирают регулярно.

Lennonenko Jan 2 2019 at 23:44

надёжнее процессора?
по браку — могу себе представить, по выходу из строя — не верю

Shurikh Dec 30 2018 at 21:16

Но да, вообще-то я не припоминаю таких сбоев контроллеров жестких дисков (кроме багов, как в Seagate Barracuda 11, если не изменяет память)

Я припоминаю. Проблемы IBM 75GXP/60GXP (тех самых «дятлов»), не связанные с контроллером, помнят многие, а вот не менее эпичный фэйл с отвалом контроллера из-за эрозии контактных площадок контроллера после перехода на безсвинцовые припои в последующих сериях жёстких дисков IBM, как-то подзабыли.

MTyrz Dec 31 2018 at 03:34

Fujitsu MPG же.
Проблемы серий IC на фоне эпического полета дятлов как-то не вспоминаются. Ну были, ну вроде работали, дохли не больше остальных… Да и вообще их очень скоро перепродали после этого.
А вот отвал контроллеров у Fujitsu MPG и частично MPF — вот это было вполне сравнимо с дятлами.

DrPass Dec 31 2018 at 04:17

По-моему, у всех вендоров были такие фейлы. Я могу абсолютно точно упомянуть Western Digital RE, которые массово умирали через несколько лет по той же причине — эрозии платы.

MTyrz Dec 31 2018 at 04:25

Фейлы были у всех, но не у всех так фатально гибла репутация. IBM и Fujitsu после этих фейлов в итоге избавились от производств. Обидно было, до фейлов я как раз их диски в основном и пользовал.

gecube Dec 31 2018 at 12:00

Ну, перегибаете. Все сложно. Повторюсь, что каждый производитель застал черную полосу

quantum (se, например, был очень надёжной моделью, а вот потом было буэ) — ушел к Макстору
hitachi даже после того как приобрели подразделение ibm — все равно их DeskStar страдали той же "контактной" болезнью. Пофиксил где-то линеек через пять. Хотя накопители реально были быстрые.
seagate barracuda 7200.7, которые переставили определяться из-за бага в фирмваре (?). Но я не слышал, чтобы у самой компании были серьезные проблемы из-за этого
макстор — я вообще удачных моделей не помню
Что интересно — после злополучной линейки Fujitsu MPG они избавились только от десктопных накопителей. Серверные линейки и ноутбучные существовали до недавнего времени, пока они не слились с Hitachi. Мне эти фуджи очень нравились. Реально надёжные были.
western эпохи до SATA (~20GB накопители). Ломались только так. Самое стремное, что у вестерна были линейки, который по сути накопители IBM, но под лого WD. Дурдом

MTyrz Dec 31 2018 at 15:45

Мне всегда интересно сравнивать свой опыт с чьим-то еще. Выявляются такие различия…

Quantum'ы, сколько я их помню, дохли всегда. У меня долго валялись эти серебристые трупики по всем углам, пока у коллеги не завелся знакомый, использующий магниты из хардов для улучшения характеристик дешевых гитарных звукоснимателей.

Когда Quantum был съеден Макстором, зараза перешла по наследству: до того были диски как диски, ничего особенного ни в какую сторону — после стало сыпучее и ломучее оно.
Потом Макстор, в свою очередь, оказался съеден Seagate'ом, с предсказуемым результатом. После знаменитой мухи це-це они ненадолго выправились, но потом надежность дисков окончательно покатилась под откос, зато появилась куча маркетинга: IronWolf, SkyHawk и прочий зоопарк.
И конечно, новый анимированный логотип (с) — помните статью в их блоге?

Hitachi — а куда бы они делись, когда купили завод с технологией?
У меня вообще ощущение, что надо смотреть не на торговую марку, а на конкретную производственную линию.
Но говорят, в итоге HGST стали весьма надежны. Я, правда, уже не понимаю, они сейчас Хитачи, ВД или сами по себе.

И в итоге пришлось остановиться на WD, которые были очень себе не айс во времена первых гигабайтов, но потом как-то улучшались, улучшались — а может, конкуренты ухудшались один за одним…

gecube Dec 31 2018 at 16:12

К сожалению, не могу согласиться полностью

как ниже заметили, дохли lct-подобные квантумы. Более ранние вполне были нормальными. На самом деле, то время было достаточно сложным, т.к. многие пользователи покупали откровенно дерьмовые блоки питания (типа codegen), так что это тоже могло быть фактором отказа. И, повторюсь, что более ранние серии квантумов (типа se) были вообще неубиваемыми
после покупки Макстором Квантума какое-то время наряду с оригинальными накопителями Макстор, под лейблом Макстор продавались бывшие квантумовские разработки. Они тоже страдали, если мне память не изменяет, той же lct-подобной болячкой. Потом линейки объединились (т.е. по сути пошло развитие максторовской линейки, но с учётом наработок квантумы). Но это продолжилось недолго — до покупки Макстора Сигейтом
кстати, что ещё у квантума было хорошо — так это их энтерпрайз линейка Atlas. Вполне нормальные накопители были. Они даже после перехода под эгиду Макстора так же производились и новый владелец разрабатывал эту линейку
у Хитачи до покупки подразделения IBM были вполне нормальные ноутбучные аутентичные накопители ))) Ес-но, их ветку потом после организации HGST свернули в пользу travelstar (ibm'овская разработка).
по Хитачи под WD вообще воздержусь от комментариев

-1

isden Dec 31 2018 at 18:09

> по Хитачи под WD вообще воздержусь от комментариев

Почему? Серверные HGST вполне норм, по сути там только название и осталось. Я бы лично сейчас бы брал современные WD Re или HGST Ultrastar, у них MTBF 2М часов, 0.44% AFR и 5 лет гарантия.

gecube Dec 31 2018 at 18:58

Почему? Серверные HGST вполне норм, по сути там только название и осталось

потому что последние несколько лет я не слежу за рынком НЖМД и не могу делать голословные, не подкрепленные опытом и фактами заявления.

isden Dec 31 2018 at 19:34

А, ясно. Я было подумал, что у вас некоторый негативный оттенок той фразы :)

MTyrz Dec 31 2018 at 20:27

К сожалению, не могу согласиться полностью

Так тем и интересно, поскольку личная статистика у каждого своя.
Квантумы на моей практике дохли, начиная с восьмисотмеговых моделей. Кажется, была популярная модель в 850 мегабайт, хотя за давностью лет я уже не уверен. Тогда до покупки макстором было еще, как до луны галсами.

что ещё у квантума было хорошо — так это их энтерпрайз линейка Atlas.

С Атласами не общался, только слышал. Но держал в руках два Бигфута — статистически незначимо, но к этим двум претензий не было.

Я еще и Conner Peripherals помню :) Кстати, тоже претензий особо не было, но их, конечно, через меня мало прошло.

Pochemuk Dec 31 2018 at 17:08

Про седьмую модель Барракуды не слышал. А вот у одиннадцатой и в самом деле была «болезнь ЦеЦе» из-за кривой фирмвари. А еще у них был слишком тонкий шпиндель, из-за чего при малейших толчках головки «играли» и падали на блины.

Что интересно, одиннадцатых у нас было полно, но «зацецекали» только один-два. Остальные тихо помирали с ростом количества бэдов. Наверное, как раз из-за механики.

Так что, не все из них выходили из строя одинаково быстро. Не удивлюсь, если еще парочка где-то до сих пор крутится.

По поводу «дурдома»: Нужны были на замену сказёвые диски с разъемом Ultra-320 на 15K rpm. Уж не помню, чьи стояли на сервере изначально (может быть даже Caviar или Seagate), а привезли нам HP. Так вот, мы под лупой смотрели на контроллер — разница была только в напечатанных надписях и одной микрушке.

Так что, все они друг у друга всё передирают или перекупают.

«Всю контрабанду делают в Одессе, на Малой Арнаутской улице» ©

Но разница все же была… родные проработали к тому времени лет 7, а привезенные HP вышли из строя через полгода…

gecube Dec 31 2018 at 17:51

С HP, Dell, Lenovo и IBM история простая. Они в свои сервера и рабочие станции поставляли брендированные накопители. Т.е. это все те же Seagate, HGST, WD, только с переклеенной этикеткой и под парт-намбером бренда. Внутри — это те же накопители, но с нюансом — изменённой моделью и своей прошивкой. И тут в деталях кроется дьявол, т.к. именно прошивка может блочить установку «неродного» (т.е. оригинального) накопителя в брендовую технику. Или приводить к странностям, что бекплейн видит не родные диски и начинает орать благим матом на состояние диска.

разъемом Ultra-320

Небольшая фактическая неточность. Это не тип разъема, а тип протокола. Примерно как UltraATA100, SATA-150, SATA-300 и пр. Разъемы же были стандартные: 68 пин типа D-SUB и 80-пиновый типа MicroCentronics. Скорее всего речь идёт про второй, т.к. именно он был стандартом для корзин с «горячей» заменой

Pochemuk Dec 31 2018 at 18:40

Так тут наоборот было… Сервер был самомсборным, ни разу не брендовым. Но все было сделано на совесть. Хоть на Caviar (неплохие модели, кстати у них были).

А вот на замену привезли как раз под наклейкой HP. Хотя, HP, как всем известно, сама HDD не производит. И они прослужили очень недолго

Ну, тут возможны варианты. Либо эти HP долго лежали на складе где-то невостребованные лет 10 и их решили в розницу спихнуть. Либо сам сервер комплексно стал загибаться — эти сказёвые скоростные диски сами по себе неслабо грелись, а тут на них почти до 70°C температура стала подниматься, несмотря на кулеры в корзинах.

BoyanBr Dec 31 2018 at 04:23

Ну, я тоже вспомнил о дисках, у которых сгорал драйвер управления мотором. Физически горел — у чипа образовалась дырка в корпусе. Кажется, они были Quantum. Наконец-то нашел — Quantum Fireball LCT 10, с контроллером мотора TDA524HT.
Но все-таки все эти случаи 15-летней давности и даже больше, исключая проблему с Seagate Barracuda 11.

gecube Dec 31 2018 at 20:54

Проблемы IBM 75GXP/60GXP (тех самых «дятлов»

Небольшое уточнение.
IBM DeskStar 75GXP — это как раз дятлы, по кодировке DTLA в название модели накопителя.
А 60GXP — это уже следующее семейство накопителей, с новой кодировкой моделей (вида IC35L060AVER07, что проще для понимания пользователем), т.е. не «дятлы», хотя страдали частью их проблем. И кодовое название семейства было Ericsson. Следующее — было Vancouver (***AVVA*** в коде модели) и тоже страдали «родовой» болячкой

daggert Dec 31 2018 at 12:45

Интеловские ссд на 512 купленные отнюдь не по 100$ умерли поочередно в течении года от нагрузки простой в виде двух виртуалок на одном хдд. Умерли в виде внезапного пропадания из системы, сначала раз в неделю, потом чаще, чаще и чаще… Уж если интел мрет, то я хз что покупать.

isden Dec 31 2018 at 18:13

> Уж если интел мрет, то я хз что покупать.

Пацаны говорят, что новые самсунги, вроде pro 950/960, очень хороши.

daggert Jan 6 2019 at 20:03

К сожалению пацаны меняют показания из года в год и то что было очень хорошо тогда — сейчас уже «ну так себе». Да и обосновать замену массива, купленного буквально пару лет назад, все сложней и сложней, несмотря на регулярные временные выходы их строя.

isden Jan 6 2019 at 20:09

Ну в том году (и вроде даже и в позапрошлом), вроде тоже pro серию хвалили…

Skerrigan Jan 14 2019 at 10:38

Чисто на правах «частного случая»:
Использую m2-накопители samsung еще с 8хх-серии.
Самый старый (из моих личных) уже «нарезал» данных на 26Тб при доступной емкости в 233Гб.
На диске ОС, программы, Java/PHP проекты.
Всего по моему кругу общения таких дисков примерно с десяток.
Изумительная производительность, ни у кого никаких проблем пока что не было.
Это лишь частное стечение обстоятельств, на «истину» не претендую.

Уточнение: кажется первый диск был взят в самом начале весны 2016-го, значит скоро три года, как трудится.

DrPass Jan 14 2019 at 12:11

Уточнение: кажется первый диск был взят в самом начале весны 2016-го, значит скоро три года, как трудится.

уже «нарезал» данных на 26Тб

Это запись примерно по тридцать гигабайт каждый день. Что вы там с ним делаете? О_о

Skerrigan Jan 14 2019 at 13:25

//картинка-мужик-стол-бутылка.jpg
Но я же разработчик ПО… QA, Java, десяток-другой браузеров.
Просто так не мучаю диск, правда-правда.

DrPass Jan 6 2019 at 22:23

Пацаны говорят, что новые самсунги, вроде pro 950/960, очень хороши.

Ну как «новые»? Уже больше трех лет прошло с появления 950 pro. Впрочем, ничего особо не поменялось, пусть появились и пошустрее накопители, но весьма ненамного. Так что вполне актуально.

DrPass Dec 30 2018 at 12:46

Когда HDD помирает в юном возрасте, можно представить, что у него не выявили проявившиеся в итоге дефекты производства. С SSD теоретически такого происходить не должно

Почему? Вы же не забывайте, что у HDD есть два типа проблем — отказ механики и отказ электроники. А у SSD — только отказ электроники. Механика в HDD со всех сторон обвешана мониторингом, и именно поэтому вы можете во многих случаях предугадать наступление гаплыка HDD. Но электроника умирает внезапно, такова её природа. Умирает из-за того, что где-то может быть дефект пайки, где-то агрессивный флюс не смыт, где-то слишком высокие температурные колебания привели к образованию микротрещин и т.д. Некоторые проблемы (особенно последняя) иногда частично обратимые, я прекрасно помню процедуру «восстановления» важных данных с флешки через морозилку. Заморозил, считал несколько файлов, нагрелась, отключилась. Снова заморозил, снова несколько файлов, снова отключилась. И так в течении пары часов, пока не считал всё.
Поэтому ничего в отказах SSD особенного нет, просто механическая подсистема HDD обслуживается электронным супервизором, что создаёт иллюзию большей надёжности. Покупайте для промышленных применений более качественные SSD, только и всего.

+18

basilbasilbasil Dec 30 2018 at 17:38

хеттрик: удлиннитель USB — и читать прямо из морозилки

+11

Stas911 Dec 30 2018 at 22:25

Фраза «холодный бэкап» заиграла новыми красками

Skerrigan Jan 14 2019 at 10:45

Не в тему, но вспомнилось, как в одной «инди-игрушке» крайне было полезно делать сегмент базы для бесперебойного питания вида «комната-холодильник с кучей аккумов».

Alexsandr_SE Dec 31 2018 at 01:03

Часть электроники HDD тоже с мониторингом. Помнится самсунг жаловался на несовпадение контрольной суммы в кеше.

DrPass Dec 31 2018 at 01:20

Часть электроники HDD тоже с мониторингом.

Ну так и у SSD тоже. Просто количество проблем с мозгами, которые мозги могут самостоятельно диагностировать, несоизмеримо меньше, чем те, которые просто приводят к их неработоспособности.

KorP Dec 30 2018 at 12:48

Вы ставите десктопное, дешёвое железо в сервер и чему то потом удивляетесь? Ну-ну. или вы думаете, что серверное железо просто так стоит в несколько раз дороже?

Frankenstine Dec 31 2018 at 14:24

Вот вам экземпляр совсем не серверного железа (2,5" ноутбучный винт), используемого в домашнем сервере:

smartctl -d sat -a /dev/sdb

Model Family: Hitachi Travelstar 5K160
Device Model: Hitachi HTS541612J9SA00
Serial Number: SB2E04H7JPS1JS
Firmware Version: SBDOC70P
User Capacity: 120 034 123 776 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 7
ATA Standard is: ATA/ATAPI-7 T13 1532D revision 1
Local Time is: Mon Dec 31 13:19:14 2018 EET
…
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 062 Pre-fail Always — 0
2 Throughput_Performance 0x0005 100 100 040 Pre-fail Offline — 0
3 Spin_Up_Time 0x0007 238 238 033 Pre-fail Always — 1
4 Start_Stop_Count 0x0012 098 098 000 Old_age Always — 4344
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always — 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always — 0
8 Seek_Time_Performance 0x0005 100 100 040 Pre-fail Offline — 0
9 Power_On_Hours 0x0012 001 001 000 Old_age Always — 78445
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always — 0
12 Power_Cycle_Count 0x0032 098 098 000 Old_age Always — 3802
191 G-Sense_Error_Rate 0x000a 100 100 000 Old_age Always — 0
192 Power-Off_Retract_Count 0x0032 099 099 000 Old_age Always — 282
193 Load_Cycle_Count 0x0012 001 001 000 Old_age Always — 1335388
194 Temperature_Celsius 0x0002 152 152 000 Old_age Always — 36 (Lifetime Min/Max 13/58)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always — 1
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always — 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline — 0
199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always — 0
223 Load_Retry_Count 0x000a 100 100 000 Old_age Always — 0

Всего 1 «софтовый» бэд при наработке 78445 часов. Неплохо для совсем не серверного железа, а?

-1

KorP Dec 31 2018 at 15:11

И что вы этим хотели показать? Вы сравниваете домашний сервер, который 95% времени ничего не делает с продуктивным файловым сервером?
Такое я вам то же могу показать с домашней файлопомойки, при чём SSD (самый дешёвый, который тогда удалось найти в магазине)
Model Family: Intel X18-M/X25-M/X25-V G2 SSDs
Device Model: INTEL SSDSA2M040G2GC
Serial Number: CVGB036200AV040NGN
LU WWN Device Id: 5 001517 9593d5447
Firmware Version: 2CV102HD
User Capacity: 40 019 582 464 bytes [40,0 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA/ATAPI-7 T13/1532D revision 1
SATA Version is: SATA 2.6, 3.0 Gb/s
Local Time is: Mon Dec 31 15:10:24 2018 MSK

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0020 100 100 000 Old_age Offline — 0
4 Start_Stop_Count 0x0030 100 100 000 Old_age Offline — 0
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always — 7
9 Power_On_Hours 0x0032 100 100 000 Old_age Always — 64868
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always — 352
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always — 263
225 Host_Writes_32MiB 0x0030 200 200 000 Old_age Offline — 609037
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always — 12138
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always — 0
228 Workload_Minutes 0x0032 100 100 000 Old_age Always — 749225844
232 Available_Reservd_Space 0x0033 099 099 010 Pre-fail Always — 0
233 Media_Wearout_Indicator 0x0032 084 084 000 Old_age Always — 0
184 End-to-End_Error 0x0033 100 100 099 Pre-fail Always — 0

Только это показатель чего? Да ничего, ибо нагрузки совершенно не те

Frankenstine Jan 1 2019 at 00:32

Да нормальные там в общем-то нагрузки, из-за того, что примерно раз в месяц или чаще там ресинхронизация происходит рейд-массива. 3800 циклов включения-выключения и более миллиона трёхсот тысяч парковок головок говорят, что даже несерверное железо может вполне быть надёжным. Стоимость серверного железа — дольшая гарантия, больший процент выхода из строя на гарантии, и маркетинг.

MAXXL Dec 30 2018 at 13:08

Стоял в одном компе SSD AData. Нормально себя вел, все тесты проходил. Летом начались проблемы с базой 1с, которая на нем находилась. Выглядело так — SMART дает сообщение что повышена температура, потом 1с падает с ошибкой. Тестируешь диск — все ок. Исправляешь ошибку в базе, все работает до нового цикла. Решил проэмулировать работу с базой — получилось что если пишешь одновременно в несколько потоков — я запускал архивирование 10 WinRAR с тестированием — то получаешь такую же ошибку. Поменяли диск на Samsung EVO, работают без проблем.

balsoft Dec 30 2018 at 13:14

У меня SSD теоретически более качественный, но всё равно пойду-ка я бэкапить.

batja84 Dec 30 2018 at 13:38

Надо брать Самсунги и не выёживаться.. А скупой платит дважды, хотя, скорее даже, многократно.
В личном пользовании были OCZ Agility, Toshiba (не помню какой), Samsung SM951 (OEM аналог 950 PRO), Crucial M550 (два последних до сих пор стоят в ноутбуке, которым пользуюсь по 12 часов в день). Так вот, каждый из них работал по 3 года у меня и ни с одним ничего не произошло. Если не покупать самый дешёвый ширпотреб, есть существенный шанс, что он проработает больше срока гарантии и не принесёт с собой никаких проблем.
Смешно слушать истории «я купил дешёвое говно, а оно сломалось через 2 месяца». Ну так что купил, то и получил.

iproger Dec 31 2018 at 02:23

Да, ссд от самсунга — это высший класс без преувеличения. Уже 3 диска и нет вопросов.

amarao Dec 30 2018 at 14:46

Вода и ни о чём. У HDD тоже были баги в прошивках, которые кирпичили диски. Понятно, что кривая фирмварь может просто упасть, но чаще всего приличные диски (если это не отказ по питанию или сгоревшая микруха) отлично репортят износ.

Hint: из-за идиотизма распределения кодов в smart'е, attribute 194 — это температура у HDD и износ у SSD.

SergeyMax Dec 30 2018 at 20:53

По-моему вы что-то путаете, путаете и ещё раз путаете.

amarao Dec 30 2018 at 21:44

-2

SergeyMax Dec 30 2018 at 21:53

У какого производителя 231 параметр обозначает температуру?

amarao Dec 30 2018 at 22:26

На всех старых дисках и в выводе smartctl trusty (и, по-моему, xenial).

SergeyMax Dec 30 2018 at 23:20

Передо мной лежит старый диск, и температура у него в 194 параметре (без разницы, smartctl это выводит, либо что угодно другое).

amarao Dec 30 2018 at 23:36

А что у него в 231, и как выглядит его smartctl -a?

SergeyMax Dec 30 2018 at 23:45

Параметра 231 у него нет (последний — 199)

amarao Dec 30 2018 at 23:47

Я не могу с ходу найти диск, у которого оно есть, но я точно знаю, что старые версии smartctl показывали 231 как температуру, чем вызывали всеобщее удивление.

Frankenstine Jan 1 2019 at 00:27

Википедия подсказывает:

231 0xE7 Life Left (SSDs) or Temperature

Previously (pre-2010) occasionally used for Drive Temperature (more typically reported at 0xC2).

Так что для температуры таки 194 (0xC2), начиная с 2010 года.

gecube Dec 30 2018 at 14:56

Мы столкнулись с неожиданым отказом NVMe дисков SSDPEDKE040T701. Умерли оба, единомоментно, причем без каких-либо странностей или изменения атрибутов.
Я предполагаю, что возможны проблемы с фирмварем.

Pochemuk Dec 30 2018 at 17:05

Читал рекомендацию для RAID-1 использовать SSD разных производителей или хотя бы из разных партий с разными прошивками. Тогда шанс одновременного выхода обоих дисков из строя существенно снижается.

gecube Dec 30 2018 at 17:14

Это справедливо для любых железок (HDD, SSD).
Дополнительно — использование принципиально разных накопителей в RAID такая себе идея, т.к. в RAID1 мы должны дождаться подтверждения записи от обоих накопителей, иначе — отказ.
И еще. Проблема не в RAID1 как таковом. Уверен, что аналогичные соображения допустимы и для RAID0, RAID5 и прочих уровней.

Pochemuk Dec 30 2018 at 18:11

Про одновременный отказ двух носителейв RAID-0 говорить некорректно, т.к. после отказа одного всему рэйду наступает кирдык.

Для RAID-5 это допустимо, разумеется, тоже. Но найти для него, допустим, 6-7-8 дисков разных производителей или из разных партий уже проблематичнее.

amarao Dec 30 2018 at 21:45

На самом деле в raid1 можно прекрасно жить в режиме с одним диском. degrade и degrade. Если один диск вылетает, в битмапе у оставшегося диска (битмапе рейда на оставшемся диске) просто помечается, что надо синкать, когда устройство появится.

gecube Dec 30 2018 at 23:47

Да это все понятно, но пока массив degrade любой отказ оставшегося накопителя приводит к потере данных.

d-stream Dec 31 2018 at 00:16

и вот в этот момент, точнее в процессе синка вероятность смерти пока еще живого диска резко подскакивает…

guglez Jan 1 2019 at 04:38

Не смерти, а ошибки чтения с него. И это не аффектит рейды собранные из ZFS так, как это происходит с обычными рейдами. ЗФС зарепортит что такой-то файл поврежден, работаем дальше.

d-stream Jan 1 2019 at 13:12

Я имею в виду, что когда живой диск начнет активно отдавать данные для наполнения (синхронизации) свежеподкинутого диска — ему может резко поплохеть со всеми вытекающими…

edo1h Oct 23 2022 at 02:25

Дополнительно — использование принципиально разных накопителей в RAID такая себе идея, т.к. в RAID1 мы должны дождаться подтверждения записи от обоих накопителей, иначе — отказ.

не вижу как это может помешать использовать различные накопители

UFO just landed and posted this here

gecube Dec 30 2018 at 23:47

Спасибо за совет, но, к сожалению, уже не смогу, т.к. поменяли накопители по гарантии.
В следующий раз обязательно попробуем.

UFO just landed and posted this here

snuk182 Dec 30 2018 at 15:09

Чет напомнило историю пятнадцатилетней давности про DVD-резаки LiteOn, которые все накупили из-за низкой стоимости и невероятной способности читать диски произвольной степени потертости. А потом оказалось, что читаемость достигается выкрученной под максимум мощностью лазера, и все эти резаки радостно сыпятся один за другим через полгода-год интенсивного использования.

Popadanec Dec 30 2018 at 16:10

А у других лазер выгорал за год. Пока жил в общаге, приносили с десяток разных фирм, на чтение заводских болванок часть еще работала, у остальных даже лазер не светился.

snuk182 Dec 30 2018 at 16:31

У меня был Teac (до сих пор не уверен, как правильно это произносится). Читал только заводские и очень бережно хранимые болванки, записанное им читалось абсолютно везде. Был жив пять лет, продан вместе с системником в 2007 году. Не удивлюсь, если жив до сих пор.

Popadanec Dec 30 2018 at 17:04

А у меня «пионэр»(последний который покупал) которым практически не пользовался подклинивает механика открытия. Разобрал, оказалось заводская недоработка причем возможно даже массовая. Брал в надежде на качество, с тех пор, доверия к именитым брендам мало, и другие подобные случаи это лишь подтверждали.

DmitryOgn Dec 30 2018 at 23:16

>> с тех пор, доверия к именитым брендам мало

— Ноутбук Sony (премиум сегмент) у меня прожил меньше всех остальных, меньше года. Проблемы с видеокартой и USB, оказавшимися проблемой всей серии. Навороченный «магниевый» корпус у Самсунга — единственный треснувший корпус (отколотые края, крепления дисплея у всех ломаются).

BasicWolf Dec 31 2018 at 01:01

FZ с нвидией 8600?

DmitryOgn Dec 31 2018 at 20:38

Возможно, не помню. 13 дюймов, год ~2008, c nvidia.

splxgf Jan 1 2019 at 02:40

Я вот к примеру не запомнил бренд, но когда разбирал один SCSI сидиром, то был очень удивлен щеточкой для очистки головки. Да и сама конструкция была весьма добротная по сравнению с ширпотребом на IDE. Так что бренд не показатель, но бывают модели сделанные на хорошем уровне.

Popadanec Jan 1 2019 at 16:15

Ну пионер был саташным, но это ему не помогло. Я его покупал то лишь затем, чтобы не остаться без драйверов для сетевой карты, в случае внезапной переустановки окон(или если забыл закинуть на флешку).
P.S. Собственно за год он использовался от силы пару раз, при чистой установке окон.

UFO just landed and posted this here

Detuner Jan 6 2019 at 10:42

Нет, не так.

TEAC Corporation (ティアック株式会社 Tiakku Kabushiki-gaisha) (/ˈtiːæk/) is an electronics company based in Japan.

Alexsandr_SE Dec 31 2018 at 01:15

Из строя лайтоны выходи на уровне остальных. Но записывали и читали очень достойно. Лучше заменить через год, чем плохо писать и нельзя прочитать, но два года службы.
К примеру покупка нека (3500 кажется, не помню) привела к необходимости купить читающий привод.

snuk182 Jan 2 2019 at 18:39

Не могу подтвердить. Жил в то время в общаге, был буквально окружен компами сожителей, потому моя статистика кажется репрезентативной. LiteON слетели у большинства купивших в пределах полутора лет. Точно не одна бракованная партия, так как было много иногородних, которые привозили купленные по месту жительства компы.

DoMoVoY Dec 30 2018 at 16:32

HDD тоже бывает умирают внезапно. Была головка на блине и вот она превратилась в пыль, а на диске образовался запил… Благо сложной процедурой переустановки блинов на донора удалось восстановить данные.

Oldron Dec 30 2018 at 18:07

Intel 540 пропал из системы, после очередной перезагрузки. В сервисе сказали всё норм. Помогло обновление BIOS на матери. Так что проблема может быть не только в диске. Есть подозрение, что ошибка возникла при заполнении больше половины диска.

Tangeman Dec 30 2018 at 18:12

К сожалению, в статье нет совершенно никакой информации о том в каком режиме работал почивший, его срок службы и сколько уже было данных записано относительно TBW в спецификации, даже конкретная модель не указана. Вполне может быть что он уже был на границе (или даже за ней) и использовался очень интенсивно (ZFS хороший генератор нагрузки сам по себе, за счёт контрольных сумм и «деревянной» структуры записи).

Если верить некоторым тестам на живучесть, многие SSD (даже самсунги) спокойно переживают записи за пределами спецификаций, молчат в SMART до последнего, но при этом превышают TBW в несколько раз, а умирают молча и внезапно.

С другой стороны, массовых жалоб о внезапной смерти SSD при обычных декстопных нагрузках вроде как в сети не наблюдается, так что для обычных пользователей ситуация не настолько ужасна, как мне кажется.

Сервера, конечно, это другое дело, но если мониторить TBW (после него заканчивается гарантия) и предупредительно их менять при достижении 95% — то можно избежать проблем в дальнейшем. Мало кто так делает, на самом деле — все ждут пока «сам умрёт», что, безусловно, не может сказаться на надёжности положительно.

Pochemuk Dec 30 2018 at 18:40

но если мониторить TBW

Легко сказать «мониторить»… вывод S.M.A.R.T-параметров отдельных дисков из RAID в гуёвый интерфейс встречал только у RocketRAID-контроллера. И то приходится их мониторить в ручном режиме — автоматический аларм по падению значений у него не предусмотрен. У других RAID-контроллеров можно найти CLI-утилиты для этих целей. Но пользоваться ими реально неудобно.

ky0 Dec 30 2018 at 19:35

Мы точно всё ещё про серверы говорим? Если да — разумеется, все рейдовые утилиты и смарт давно прикручены к мониторингу. Ну или увольте админа :)

Pochemuk Dec 31 2018 at 02:59

Не все так просто, как на самом деле.

В том же HighPoint RocketRAID нет нативных средств для работы со S.M.A.R.T. Посмотреть значения параметров в гуёвом интерфейсе можно, но даже скопировать их оттуда нельзя, не говоря об автоматической обработке.

Отсутствует возможность их получения и сторонней утилитой:

https://www.smartmontools.org/wiki/Supported_RAID-Controllers

Вот и приходится периодически смотреть вручную. Но и это реально помогает обнаружить проблемы, которые еще не алармятся.

ky0 Dec 31 2018 at 11:17

Я извиняюсь, но первый раз слышу про этого производителя. Всё как-то доводилось работать с LSI, Adaptec и Intel…

Pochemuk Dec 31 2018 at 14:29

Ну мы тоже сейчас предпочитаем форки LSI. Хотя бы из-за удобства пользования RAID-менеджером.

А HighPoint тоже весьма известный производитель хранилищ данных и контроллеров. И на более новых моделях у них поудобнее все продумано. Но мы этот сервер приобрели еще лет 12 назад. Недавно последний HDD из начальной поставки заменили — как раз по S.M.A.R.T. определили, что сыпаться начинает.

JerleShannara Dec 31 2018 at 01:32

LSI(или как они сейчас зовутся) — умеет, Adaptec — тоже умеет, если у вас вне линукса посмотреть и настроить алармы на обвал смарта индивиудального диска нельзя, может пора сменить ОС, используемую на хранилке?

periskop Dec 30 2018 at 21:02

Intel 540s. Помер не совсем внезапно, постепенно росли значения аттрибутов 5 и 9. Вот смарт за час до смерти:

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  5 Reallocated_Sector_Ct   -O--CK   100   100   000    -    387
  9 Power_On_Hours_and_Msec -O--CK   100   100   000    -    241h+00m+00.000s
 12 Power_Cycle_Count       -O--CK   100   100   000    -    145
170 Available_Reservd_Space PO--CK   095   095   010    -    0
171 Program_Fail_Count      -O--CK   100   100   010    -    0
172 Erase_Fail_Count        -O--CK   100   100   010    -    0
174 Unexpect_Power_Loss_Ct  -O--CK   100   100   000    -    9
183 SATA_Downshift_Count    -O--CK   100   100   000    -    0
184 End-to-End_Error        PO--CK   100   100   090    -    0
187 Uncorrectable_Error_Cnt -O--CK   100   100   000    -    199
190 Airflow_Temperature_Cel -O--CK   033   048   000    -    33 (Min/Max 25/48)
192 Power-Off_Retract_Count -O--CK   100   100   000    -    9
199 UDMA_CRC_Error_Count    -O--CK   100   100   000    -    0
225 Host_Writes_32MiB       -O--CK   100   100   000    -    89514
226 Workld_Media_Wear_Indic -O--CK   100   100   000    -    0
227 Workld_Host_Reads_Perc  -O--CK   100   100   000    -    0
228 Workload_Minutes        -O--CK   100   100   000    -    0
232 Available_Reservd_Space PO--CK   095   095   010    -    0
233 Media_Wearout_Indicator -O--CK   099   099   000    -    0
241 Total_LBAs_Written      -O--CK   100   100   000    -    89514
242 Total_LBAs_Read         -O--CK   100   100   000    -    39026
249 NAND_Writes_1GiB        -O--CK   100   100   000    -    814
252 Unknown_Attribute       -O--CK   100   100   000    -    3

Обратите внимание на TBW и на соотношение 241 и 249. Хост подал на запись 2797 GiB, на диск записано 814 GiB.

Mad__Max Dec 30 2018 at 21:52

Это как? В ячейки должно писаться минимум столько же как пришло с хоста. Обычно больше. Исключение, когда может быть немного меньше это контроллеры со сжатием данных на лету, но тут не такой случай.

Предположу что на диске обнуляли (специально либо был сбой) показатели SMART. При этом часть показателей обнулилась, а часть продолжала отсчитываться с самого начала эксплуатации диска.

На это сильно намекает общее время наработки — всего 214 часов, т.е. 10 дней при круглосуточной работе или месяца 1.5 если часов по 5 в день. За такой срок так ушатать диск практически не реально, если конечно это не постоянный стресс-тест был.

periskop Dec 31 2018 at 00:43

Ответил ниже.

Tangeman Dec 30 2018 at 22:32

Для этой серии, насколько я знаю, Intel не указывает TBW (и много других важных параметров), но для меня сигналом к замене послужил бы первый перераспределенный сектор или первое использование резервной области.

Разница в значениях host writes и nand writes (если они правдивы) скорее всего связана с кэшем (если он там есть, ибо спецификация молчит и об этом тоже), другого логичного объяснения я не вижу.

И конечно же, нельзя исключить что именно конкретный экземпляр оказался дефектным и поэтому прожил так недолго (если это единичный случай), ибо записанные 840GiB даже при размере SSD в 60GB было бы слишком мало, даже для TLC. С другой стороны, раз уж у него гарантия 5 лет, то им явно проще их менять чем делать надёжными.

По своему опыту выбора SSD для серверов скажу, что просто даже не смотрю в сторону тех где в спецификации так мало данных (пусть даже это известный бренд), особенно если не упоминаются TBW и наличие кэша (как DRAM так и SLC). Если выбора нет, то относительно безопасно оценивать количество циклов перезаписи для TLC в районе 250-300, но это имеет смысл только если SMART позволяет мониторить NAND writes.

gecube Dec 30 2018 at 23:48

На рабочем ноутбуке уже есть два переназначенных сектора на Intel 320 Flash (появились на 2-м году эксплуатации). И ничего — все живет. Но это не сервер, в котором особые требования к сохранности данных.

Tangeman Dec 31 2018 at 00:14

Никто ж не спорит, оно может ещё долго прожить, но для случаев когда доступность и сохранность особенно важны (т.е. позволить себе неожиданный даунтайм для смены диска и восстановления тяжко, и это не RAID) — я бы сразу начал искать замену.

Иногда случается когда между первым появлением переназначенных секторов и их лавинообразным ростом или даже смертью диска проходит совсем немного времени — поэтому лучше упредить такую ситуацию, если есть возможность. SSD нынче дешевы, не то что 10 лет назад.

Даже если у вас регулярные бэкапы или там нет ничего «такого», представьте ситуацию — после очередной перезагрузки/включения (или в процессе работы) диск вдруг умирает и вам внезапно приходится тратить несколько часов времени (пусть даже «всего» час-два) на поиск замены, восстановление всего что нужно и т.п. — приятного мало, однако. Если же вы на выезде в этот момент — ситуация ещё неприятней, поэтому я лично предпочитаю действовать с упреждением (а на выезд обычно беру с собой запасной ноутбук поменьше, но с копией всего что на первом).

Lennonenko Jan 3 2019 at 00:21

лавинообразное нарастание количества бэдов — это только про харды
говорит о какой-нибудь механической проблеме, нарушении герметичности, например

DrPass Jan 3 2019 at 03:35

В хардах же нет герметичности, кроме небольшого количества заранее запрограммированных на смерть через несколько лет моделей дисков, которые накачаны гелием. Слово «гермоблок» в отношении харда — это нечто вроде эвфемизма.

Lennonenko Jan 3 2019 at 11:37

пылезащита и фильтры по-любому есть
вот когда они не справляются или по каким-то другим причинам пыль внутри появляется, начинают бэды появляться

DrPass Jan 3 2019 at 14:49

Фильтры есть, пылеуловитель тоже. Но они-то как раз обычно справляются. Главная причина бэдов — крошки с поверхности самого диска. Стукнули его во время работы, голова по поверхности чиркнула — и микрочастицы полетели дальше делать черное дело.

Lennonenko Jan 3 2019 at 14:54

да, всё так
мой тезис заключался в том, что ввиду отсутствия механики в SSD там по-другому процессы развиваются и появление и успешная реаллокация пары бэдов не говорят о том, что всё пропало

periskop Dec 31 2018 at 00:43

Mad__Max, SMART не обнулялся, но, судя по истории, атрибут 9 рос не каждый час, а когда диск был под нагрузкой (в ноутбуке). Предположу, что связно это с DevSleep. Реальное время работы — с 3 сентября по 10 марта, то есть где-то полгода.

Tangeman, TBW как раз указывает в 241. А в 249 указывает, сколько реально записано было на чипы. Кстати, в 535 серии была проблема из-за DevSleep, когда рос 249 при отсутствии роста 241. А если имелась в виду спецификация, то тоже указывает в описании гарантии. 40 гигов в день в течение 5 лет, что дает 73000 гигов.

Атрибут 5 вырос 21.12 в первый раз. 187 — 26.01. Вот 26.01 уже надо было задуматься о замене. В поддержке сказали, что лечится это обновлением прошивки (кстати, при этом обнуляется 5 атрибут), но этот диск перестал определяться совсем, а другой после обновления тоже стал показывать растущие показатели 5 и 187.

Так что я бы сказал, что дефектная вся 540 серия.

Не очень понял, как наличие кэша может уменьшить 249 атрибут. Может быть, имелось в виду сжатие?

Tangeman Dec 31 2018 at 02:20

Я могу, разумеется, ошибаться, но мне кажется логичным что TBW относится к количеству «честных» TB записанных на SSD (NAND), а не то количество которое получено от хоста — хотя бы потому что могут вмешаться компрессия и кэш.

Кэш же (на самом накопителе) может уменьшить реальное количество записей на NAND в случае, если в течение короткого времени перезаписываются одни и те же участки диска (LBA) — если эти перезаписи делаются до того как он сброшен на NAND (а это может быть и несколько секунд), то в итоге на NAND попадают только последние записанные данные. Т.е., к примеру, если кэш сбрасывается раз в 5 секунд (условно), а мы эти 5 секунд будем непрерывно писать только в сектора 0-1023, то в итоге Host writes будет намного больше чем NAND writes. Кэш также может использовать другую стратегию, типа процента «грязных блоков», в этом случае время сброса в NAND (после записи от хоста) может и минут достигать (будь я разработчиком SSD, так бы и сделал, если бы мог гарантировать сброс кэша или его сохранность при выключении питания).

При размере кэша в 512M-1G это вообще может быть очень существенная разница, в зависимости от того что и как пишет на SSD — к примеру, если это что-то типа часто обновляющейся RRD базы размером который помещается в кэш, и софт который в неё пишет не создает новые файлы а переиспользует их (типа кольцевой буфер на диске). Поскольку обычно кэшу всё равно, пишутся данные рандомно или последовательно (важно лишь наличие сектора в нём), то экономия может быть очень существенной.

И насчёт «40 гигов в день в течение 5 лет» — в вашем случае вы умудрились записать больше 800 за 241 час, что в два раза больше чем 40/день. Опять-таки, я могу ошибаться, но 40гиг/день (а не общее TBW) может быть неспроста — вполне возможно что более высокая нагрузка его и убила. Это конечно не механика, но я могу себе представить что у него кэш который расчитан на то что эти самые 40 гиг он ещё может успевать раскидать всё как положено в течение суток (если не спит и не отключен), а если больше то начнёт «задыхаться», повышая степень износа (либо NAND, либо компонент).

periskop Dec 31 2018 at 02:58

Про кэш понятно, спасибо. Мне кажется, это не мой случай, у меня обычный ноутбук.

TBW как раз логично считать от хоста, потому что на это пользователь влияет. Какая ему разница, как пишутся данные? Может быть, производитель реализовал контроллер так, что в ячейки пишется в 2 раза больше информации, чем хост дает, но все ячейки идет с 3-кратным запасом.

Про 241 час уже отвечал:
SMART не обнулялся, но, судя по истории, атрибут 9 рос не каждый час, а когда диск был под нагрузкой (в ноутбуке). Предположу, что связно это с DevSleep. Реальное время работы — с 3 сентября по 10 марта, то есть где-то полгода.

Вот, например, 2 смарта с разницей в месяц, ноут я не выключал почти:

01.10.2017  0:00:00,05
smartctl 6.5 2016-05-07 r4318 [x86_64-w64-mingw32-win8.1] (sf-6.5-1)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  5 Reallocated_Sector_Ct   -O--CK   100   100   000    -    0
  9 Power_On_Hours_and_Msec -O--CK   100   100   000    -    32
 12 Power_Cycle_Count       -O--CK   100   100   000    -    11
170 Available_Reservd_Space PO--CK   100   100   010    -    0
171 Program_Fail_Count      -O--CK   100   100   010    -    0
172 Erase_Fail_Count        -O--CK   100   100   010    -    0
174 Unexpect_Power_Loss_Ct  -O--CK   100   100   000    -    1
183 SATA_Downshift_Count    -O--CK   100   100   000    -    0
184 End-to-End_Error        PO--CK   100   100   090    -    0
187 Uncorrectable_Error_Cnt -O--CK   100   100   000    -    0
190 Airflow_Temperature_Cel -O--CK   035   048   000    -    35 (Min/Max 28/48)
192 Power-Off_Retract_Count -O--CK   100   100   000    -    1
199 UDMA_CRC_Error_Count    -O--CK   100   100   000    -    0
225 Host_Writes_32MiB       -O--CK   100   100   000    -    19066
226 Workld_Media_Wear_Indic -O--CK   100   100   000    -    0
227 Workld_Host_Reads_Perc  -O--CK   100   100   000    -    0
228 Workload_Minutes        -O--CK   100   100   000    -    0
232 Available_Reservd_Space PO--CK   100   100   010    -    0
233 Media_Wearout_Indicator -O--CK   100   100   000    -    0
241 Total_LBAs_Written      -O--CK   100   100   000    -    19066
242 Total_LBAs_Read         -O--CK   100   100   000    -    4496
249 NAND_Writes_1GiB        -O--CK   100   100   000    -    317
252 Unknown_Attribute       -O--CK   100   100   000    -    1

01.11.2017  0:00:00,09
smartctl 6.5 2016-05-07 r4318 [x86_64-w64-mingw32-win8.1] (sf-6.5-1)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  5 Reallocated_Sector_Ct   -O--CK   100   100   000    -    0
  9 Power_On_Hours_and_Msec -O--CK   100   100   000    -    66
 12 Power_Cycle_Count       -O--CK   100   100   000    -    45
170 Available_Reservd_Space PO--CK   100   100   010    -    0
171 Program_Fail_Count      -O--CK   100   100   010    -    0
172 Erase_Fail_Count        -O--CK   100   100   010    -    0
174 Unexpect_Power_Loss_Ct  -O--CK   100   100   000    -    1
183 SATA_Downshift_Count    -O--CK   100   100   000    -    0
184 End-to-End_Error        PO--CK   100   100   090    -    0
187 Uncorrectable_Error_Cnt -O--CK   100   100   000    -    0
190 Airflow_Temperature_Cel -O--CK   034   048   000    -    34 (Min/Max 27/48)
192 Power-Off_Retract_Count -O--CK   100   100   000    -    1
199 UDMA_CRC_Error_Count    -O--CK   100   100   000    -    0
225 Host_Writes_32MiB       -O--CK   100   100   000    -    30290
226 Workld_Media_Wear_Indic -O--CK   100   100   000    -    0
227 Workld_Host_Reads_Perc  -O--CK   100   100   000    -    0
228 Workload_Minutes        -O--CK   100   100   000    -    0
232 Available_Reservd_Space PO--CK   100   100   010    -    0
233 Media_Wearout_Indicator -O--CK   100   100   000    -    0
241 Total_LBAs_Written      -O--CK   100   100   000    -    30290
242 Total_LBAs_Read         -O--CK   100   100   000    -    8288
249 NAND_Writes_1GiB        -O--CK   100   100   000    -    391
252 Unknown_Attribute       -O--CK   100   100   000    -    1

Lennonenko Jan 3 2019 at 00:18

для меня сигналом к замене послужил бы первый перераспределенный сектор или первое использование резервной области

даже на харде на первые пару бэдов можно забить, просто усилив бдительность
на ссдшке надо не на realloc смотреть, а на оставшийся объём резерва

Alexsandr_SE Dec 31 2018 at 01:20

Опять же тесты без выключения питания. А как поведут себя при выключении на пару месяцев или больше? Таких тестов нет, а по слухам дохнут при выключении питания.

burzooom Dec 31 2018 at 08:49

есть. сейчас есть все тесты. ищите на 3dnews

gnomeby Dec 30 2018 at 18:24

Ребята упоролись и стали покупать SSD и непрерывно на них писать и контролировать целостность данных, смотреть за SMART.
3dnews.ru/938764/page-3.html

В результате они выяснили:
* Какие накопители самые надёжные
* Как они умирают: какие-то просто перестают определяться, какие-то определяются, но отдают данные с ошибками, какие-то отлично продолжают жить в режиме Read-Only
* Насколько плавно и предсказуемо они деградируют (в большинстве случаев очень плохо)
* Какие прошивки с багами

В общем Must-Read перед покупкой нового.

SergeyMax Dec 30 2018 at 18:56

Проблема в том, что при десктопной нагрузке таких объёмов записи нет, и отказ часто не связан с исчерпанием ресурса.

Mad__Max Dec 30 2018 at 22:14

А такие объемы как в тесте диске в реальной работе у обычных пользователей и не выдерживают никогда — сыпаться начинают намного раньше, на в разы меньшей наработке. Т.к. такой тест проверяет сохранность данных максимум в течении 1 часа или меньше (сколько уходит на цикл перезаписи — сильно зависит от скорости конкретного диска)

А флэш изнашивается не в виде — работаем, работаем, опс умерли и больше не работаем. А в виде постепенной непрерывной деградации, ускоряющей утекание внесенного в ячейку заряда (конкретные цифры с потолка, но общая зависимость такая):
1 — новая ячека — записанные данные нормально сохранятся в течении нескольких лет после записи
2 — после 500 циклов — данные хранятся год
3 — после 1500 циклов — данные хранятся неск. месяцев
4 — после 3000 циклов — данные хранятся неделю
5 — после 5000 циклов — данные хранятся 1 день
6 — после 10 000 циклов — данные хранятся 1 час
7 — после 20 000 циклов — данные еще записываются, но уже не хранятся (ошибки чтения даже сразу после записи)
8 — после 30 000 циклов — данные невозможно даже записать, полный отказ

Плюс небольшая деградации от времени, когда диск в эксплуатации годы, а не недели — пару месяцев под стресс-тестом.

Вот такой тест определяет ресурс до деградации диска до уровня где-то между п. 6 и 7.
А большинству пользователей интересно что-то ближе к п.3, в крайнем случае п.4 если контроллер хороший и вовремя «протухающие» ячейки обнаруживает и перезаписывает без вмешательства пользователя, а важные данные регулярно бекапятся либо их вообще нет на этом диске (например диск отданный под разные кэши и своп). Впрочем долго (в плане календарного срока службы, а не ГБ данных нагрузки) такой диск уже не проживет — контроллеру нужно будет все чаще «обновлять»(переписывать) данные из ячейки в ячейку, в борьбе за их сохранность, начинает резко расти WA и еще оставшийся ресурс начинает расходоваться намного быстрее.

Польза теста сравнительная. Если диск X до деградации до стадии 6 прожил в 3 раза дольше чем диск Y, то с очень большой вероятностью и до стадии 3 он будет деградировать где-то в 3 раза медленнее чем Y до стадии 3.

А отказы «не связанные с ичерпанием ресурса», выглядящие как отказ контроллера часто все-равно с именно с износом и связаны — сдыхают ячейки в служебной области, где хранится прошивка или таблицы адресации и диск превращается в «кирпич». Если подключиться к отладочным выводам контроллера такого диска можно увидеть, что он жив, но не может что-нибудь прочитать из флэша и приступить к работе. Но с точки зрения пользователя он уже совсем мертв — пропал из системы (не определяется) или выдает какой-нибудь бред.

sergey_z777 Dec 30 2018 at 23:18

О, вот спасибо. Ваш комментарий полезнее статьи)

SibDrow Dec 30 2018 at 18:57

Как это знакомо, буквально вчера умер SSD в ноуте этой же фирмы, пытался что-то прочитать с помощью r-studio, ни каких шансов, одни CRC ошибка по всем секторам. Впрочем HDD также мрут с внезапностью и в самый неподходящий момент. :(

TigerClaw Dec 30 2018 at 19:24

Много у меня умерло за все время HDD. Но ни один раз внезапно, если за ними внимательно следить. Фуджитсу, Цеце, дятлы и т.д. Умирали не сразу все вместе. Но народ делился на две категории. Те кто предпринимали меры по замене проблемных винтов и те кто надеялись на авось. А если не брать бракованные серии, то перед смертью винт начинает себя вести «странно» и еще есть возможность спасти информацию если нет бекапа. Именно поэтому при первых проблемах я вывожу винт из системы. К примеру один WD перед смертью начинал «фризить» и то потом он хоть с проблемами, но читался. Древний квалком на 20 гиг, через 3 месяца после покупки, как то пошел в лютые тормоза, но где то еще сутки читался пока совсем не сдох. Всякое посыпался, беды это тоже предсказуемо. Так что тут скорее всего нужно предпринимать правильные действия в случае первых проблем.

Shurikh Dec 30 2018 at 21:44

пол года назад сдох годовалый WD Blue. Без объявления войны, ошибок в S.M.A.R.T., падений, избыточных вибраций, зависаний при записи или чтении. Просто с него по сети игрался фильм, фильм повис, при обращении к диску ловился таймаут.

В последующих тестах появилась примерно такая картина

Kwisatz Dec 30 2018 at 19:11

Согласен с автором в том ключе, что хотелось бы чуточку больше информации. Хотя бы для понимания. С одной стороны только недавно видел редчайшую весч: некий Adata перешел в режим RO (думал совсем умер но смонтировал под линухом в ro без проблем).
С другой же наблюдал какие то глюки. Менял видеокарту: загружаю машину, бац, нет бут диска. Покрываюсь холодным потом (особо важной инфы там нет, забекаплено все, но ставить по новой винду я вот прям очень не люблю). Начинаю выяснять: в биосе определяется, вот он (Plextor PX-256) но контролер диска намекает «no physical disk». Отключаю два других диск — все работает, включаю — не работает, потом бац, работает. Шлейф визуально нормальный, замки защелкнуты, трогал его наверное раза два в его жизни, выкидываю к чертям и о чудо, все работает нормально.

Внимание вопрос: что это еще за приколы такие и как вообще связан sata шлейф с возможностью ссд контролера видеть свой массив.

Mad__Max Dec 30 2018 at 22:22

Возможно что и никак не связаны. Например просто перетыкая новый шлейф «пошевилили» (немного изогнули) платку диска и если проблема была в плохих контактах или микротрещинках на ней (из-за чего контроллер терял связь с массивом флэша) — вот диск и «ожил».

До следующий механической нагрузки или скажем резкого перепада температур с сжатием-расширением.

Kwisatz Dec 31 2018 at 18:45

Я пошевелил и старый раз 20, и через раз наблюдал подобный баг, а новый как не шевелил, как не перетыкал — все нормально. Однако про микротрещины озадачили, как бы теперь проверить

LbISS Dec 30 2018 at 19:48

Я в итоге пришел к схеме:
1 SSD для системы
2 HDD с данными (разными).

Всё это еженедельно бекапится акронисом — SSD и первый хард — на второй, а второй хард — на первый.
SSD если умирает, выкидываешь, покупаешь новый, разворачиваешь акронис — вуаля, у тебя за полчаса рабочая система с новым диском. Данные при этом не затронуты, софт каждую неделю не ставишь — так что не теряется вообще ничего.
Ну а если умирает один из жестких (что происходит гораздо реже) — в принципе то же самое. Но это за ближайшие 10 лет было только пока один раз, т.к. HDD не системные — в работе они гораздо меньше, износа мало. При этом система работает на быстром SSD, все плюсы скорости загрузки и работы остаются.
Остаётся только при каждом обновлении наращивать объем дисков про запас… Начинал я когда-то с SSD на 64гб, сейчас уже 512 стоит. Жесткие были по 512, сейчас по 4ТБ.

iproger Dec 31 2018 at 02:28

В идеале еще и hdd заменить на ssd, благо сейчас samsung 860 evo 1tb можно купить за немногим больше $100.

burzooom Dec 31 2018 at 08:53

вы путешественник из будущего?

iproger Dec 31 2018 at 09:34

В черную пятницу купил за $127 на амазоне + возврат от amex.

burzooom Dec 31 2018 at 14:35

Значит, нам нужно ждать еще год что бы воспользоватся низкой ценой? и стать клиентом американского банка, что бы получить от этой платежной системы кешбек?

iproger Dec 31 2018 at 20:02

Через год цены еще больше упадут и возможно ssd на 1tb станут буквально за $100.

burzooom Jan 1 2019 at 13:30

благо сейчас samsung 860 evo 1tb можно купить

а не

Через год цены еще больше упадут и возможно

Heliken Dec 31 2018 at 15:38

«В чёрную пятницу», «возврат». Написать абы написать? Открываю амазон — цена 250$, открываю другие магазины — цена ещё выше. То, что можно что-то купить на скидке не значит, что эта скидка будет бесконечной.

iproger Dec 31 2018 at 19:59

Прямо сейчас цена $147 Samsung 860 EVO 1TB 2.5 Inch SATA III Internal SSD.

arantar Dec 31 2018 at 12:28

Какой версией Акрониса пользуетесь?

LbISS Dec 31 2018 at 13:40

Acronis True Image 2017 сейчас, прилагался бесплатный ключик к SSD. До этого был 2014-ый вроде...

Gutt Dec 30 2018 at 20:44

Автор смешал в своём тексте две совершенно разные причины отказов дисков:

механические повреждения и износ HDD;
отказ электроники или ошибки прошивки в SDD.

HDD точно так же мрут из-за ошибок и повреждений прошивки или из-за отказа электроники. как и SSD, просто на фоне основной причины выхода HDD из строя (смерть из-за механических причин) это незаметно. Да, для HDD в части случаев будет видна деградация в атрибутах SMART, что и создаёт видимость контроля над состоянием диска. Достаточно иллюзорную: постоянно встречаю внезапные отказы HDD без предварительного перехода атрибутов в pre-fail. Тот факт, что электроника/прошивка мрёт в HDD ничуть не реже, чем в SSD, автор просто игнорирует.

dimkrayan Dec 30 2018 at 21:52

мало того, автор писал про таинственность и непонятность смерти диска.
Но если бы он отнес его к ремонтнику — может, он нашел бы вышедший из строя электронный компонент — и смерть стала бы не такой таинственной.

0o0 Jan 1 2019 at 04:03

Какой компонент?
Прошивка ошибок наглоталась и с паником сдохла.
Вот и весь компонент.
Перепрошить — и снова в бой.

В новом, 2019 году!!! =)

alexmeloman Dec 30 2018 at 20:46

О чем пост? что после потери информации ярый противник бэкапа становится его ярым сторонником? Что для серверных вещей используются другие диски, а не почти что самые дешевые из десктопа? И что должны использоваться рейд массивы? А иначе можно сколько угодно на зеркало пенять…

it2manager Dec 30 2018 at 22:56

А зачем на серверах использовать десктопные ssd?

Pochemuk Dec 31 2018 at 15:31

А по той причине, что для некоторых целей серверные SSD/HDD и не нужны — только лишняя трата денег.

Например, есть сервер 1С/SQL. По рекомендации той же 1С базы данных нужно держать на одном RAID, журналы транзакций — на другом, временные таблицы — на отдельном диске или RAID, так же отдельные диски под временные файлы системы, Pagefile, кэш 1С и т.д. Но большинство этих «и т.д.» не являются критическими. В крайнем случае лечатся заменой диска и перегрузкой сервера. Держать под них отдельные серверные диски, тем более RAIDы — только корзины забивать и деньги тратить. А заполнены эти диски — на несколько гигов, максимум. И нагрузки на них нет совершенно.

Поэтому из 14 дисков на этом сервере у нас 9 серверных, объединенных в RAID-1 с HotSpare, и 5 десктопных (2 в RAID-1 без HotSpare и 3 отдельных).

Один Vertex OCZ 4, как я уже писал, иногда отваливался. То раз в пару месяцев, то 2 раза в месяц. Т.к. на нем были кэши 1С, то это в самом деле было неприятно — требовало физически отсоединить его, втыкнуть обратно, пошаманить в RAID-менеджере, восстановить ФС, если есть ошибки, может быть почистить кэш. Мелочь на 10-15 минут, но нервировала. Но после замены на Kingston проблем уже полгода нет.

Вообще, о Vertex OCZ 4 я самого низкого мнения…

it2manager Jan 1 2019 at 21:38

Без обид, если вы 'колхозите', то тогда жаловаться на то, что что-то пошло не так, как в статье, это смешно. Есть северная инфраструктура, есть десктоп. Если в компании, в которой нет бабла, начинается колхоз, то появляются вот такие статьи :)

it2manager Jan 1 2019 at 21:44

Бизнес — это зарабатывание денег, а не замена дисков, перезагрузка серверов и иные несуразные действия. Я прекрасно понимаю, что бизнесы бывают разные, но для меня, работать в бизнесе, где надо в инфраструктуре финансово балансировать на экономии северного диска это не допустимо.

gecube Jan 1 2019 at 23:12

глупость говорите.
Поддержание инфраструктуры с абсолютно надежными дисками — это утопия и сверхдорого.
Соответственно, бизнесу решать выгодно ли держать специально обученного человека, который будет только и заниматься заменой диской. Тем более, если это обеспечивает SLA/SLO.
Надеюсь, что персонально Вам (и мне) такой рутинной работой, как замена дисков, заниматься не придется (разве что только за соответствующее денежное вознаграждение).

it2manager Jan 2 2019 at 00:25

Абсолютно надежного в этом мире нет ничего :) и бизнес никогда не решает, что там должно быть в инфраструктуре, он лишь выдвигает требования и выбирает. Тем не менее, использование оборудования класса homemade для рабочей среды недопустимо. Это мне напоминает, когда админы, которые типа используют виртуализацию, рассказывают как у них под esxi крутится 7 серверов и на вопрос, что будет при выходе из строя оборудования, хлопают глазами.

DrPass Jan 2 2019 at 01:37

но для меня, работать в бизнесе, где надо в инфраструктуре финансово балансировать на экономии северного диска это не допустимо.

Ну то такое. На всех не желающих работать в таких бизнесах, к сожалению, в мире недостаточно бизнесов, которые не экономят на железяках.

UFO just landed and posted this here

Pochemuk Dec 31 2018 at 14:57

Одно другому не мешает.

Бэкапы нужны по любому. Причем, в нескольких местах.

У нас на SQL-сервере для всех баз имеются резервные копии. Для одних по простой модели, для других — по полной. На том же сервере на отдельном RAID-1 из 2-х HDD + HotSpare HDD (не SDD). Это на случай, если кто-то из бухгалтеров накосячит так, что проще будет всю БД восстановить на полчаса/час назад, чем его проводку откатывать.
Но периодически эти резервные копии сливаются по ВОЛС на отдельно стоящее хранилище на другой территории (метров за 300 от основной). Вернее, не на него сливается, а он сам стягивает их по FTP. Тому как закрыт файерволлом так, что достучаться к нему с этой стороны совсем невозможно.
Срок хранения этих удаленных копий — от 2-х до 4-х недель.
Следующий момент — будем думать еще о периодическом сливе дополнительных копий куда-нибудь в облако.

RAID — это не вопрос сохранности данных. Это вопрос отказоустойчивости. Для снижения вероятности ситуации, когда сервер придется полностью отключать на время восстановления информации из копий.

Ну и контроль S.M.A.R.T. отдельных физических дисков помогает повысить эту отказоустойчивость. Принять меры по замене дисков, когда только возникают первые признаки их деградации, а не ждать аларма при деградации всего массива.

it2manager Jan 7 2019 at 01:45

Каких SSD? Сколько прослужили? :) Работаю в конторе где SSD используется как кэши в СХД и как место для размещения tempdb нагруженного сервера. SSD — THNSF8960P
CSE. За два года, из 10 SSD, из строя не вышел ни один. Нагрузка на них приличная.

UFO just landed and posted this here

GreyTiger Dec 30 2018 at 23:18

В эпоху софта с кучей багов пугает ещё и то, что очередное обновление прошивки SSD может вывести его из строя и убить данные.

Hateform Dec 30 2018 at 23:18

это старый миф про то, что диск становится кирпичем после расходования ресурса ячеек, нет, вы просто ничего не сможете больше записать на него, но можно считать данные
на самом деле самая большая проблема ssd это отказывающие контроллеры
ну и забудьте про то, что нужно смотреть на тип памяти, смотрите всегда dwpd, правда его мало где можно найти, но сейчас хоть начали указывать tbw, а зная его уже можно высчитать dwpd=tbw/объем диска в терабайтах*на колличество дней в году 365 и *на гарантийный срок производитнля

Sabubu Dec 31 2018 at 00:07

А почему контроллеры-то отказывают? Там же ничего вроде такого нет, просто процессор с программой.

kick_starter Dec 30 2018 at 23:18

Только количественное резервирование спасёт отца русской демократии

W3n8f34 Dec 30 2018 at 23:18

Новый файловый сервер на Линукс… для серверов используют серверные диски, а не самые дешёвые в магазине по цене/объем

AnutaU Dec 30 2018 at 23:24

Flash память ужасно ненадёжна. Её ненадёжность компенсируется сложной прошивкой. Причём чем тоньше техпроцесс или чем больше бит пихают в одну ячейку (MLC, TLC, QLC...), тем менее надёжен NAND и тем сложнее требуется прошивка. А их пишут обычные люди, как могут так и пишут — где-то хорошо, где-то так себе.

В общем, когда немножко представляешь изнутри эту кухню, тот факт, что SSD внезапно смертен, не удивляет совершенно.

RuroniSPB Dec 31 2018 at 00:06

Отсутствие у SSD механических движущихся частей не делает их абсолютно надежными, а HDD также могут мгновенно умирать при нормальном S.M.A.R.T. Тем более что многие отказы вызваны неисправностью электроники (платы контроллера), не механики. Вспомните банальное «электроника — это наука о контактах». Встречалось отсутствие пропая планарного вывода, да и с BGA корпусами, как знаете, бывают похожие проблемы. Так что не удивительно, что кажущиеся «монолитными» SSD внезапно отказывают задолго до выработки ресурса.
Что касается отказа Crucial MX300 — это накопитель для персонального компьютера, для серверного использования не годится. SATA интерфейс на SAS контроллере уже намекает на возможные проблемы.

SergeyMax Dec 31 2018 at 00:37

SATA интерфейс на SAS контроллере уже намекает на возможные проблемы

О каком SAS-контроллере идёт речь, и на какие именно проблемы намекает SATA-интерфейс?

RuroniSPB Dec 31 2018 at 20:21

Автор пишет «а вот уже нет никакого Crucial MX300 на SAS-порту». «Бытовой» SATA SSD подключен на SAS контроллер, поддерживающий помимо SAS накопителей, также SATA накопители, поскольку набор команд SATA является подмножеством набора команд SAS. Только это не означает, что SATA устройства полностью заменяют SAS.

SergeyMax Dec 31 2018 at 23:25

SATA и не должен полностью заменять SAS, SAS/SATA-контроллер сам определяет тип подключенного устройства, и соответствующим образом с ним работает.

barbos6 Dec 31 2018 at 14:01

Что касается отказа Crucial MX300 — это накопитель для персонального компьютера, для серверного использования не годится.

Hetzner смотрит на вас ~~, как на~~ с изумлением.
Что и куда ставить, зависит от бизнес-модели, а не от назначения компутера.

RuroniSPB Dec 31 2018 at 20:28

Если бы «бизнес-модель» автора не предполагала использование не пригодных для его задач устройств — не было бы этой статьи. А что лепят в датацентрах из экономии — на их совести. Я видел огромные стопки «умерших» SSD для персоналок в датацентре, видимо им выгоднее постоянно менять накопители, а не закупать то, что требуется для задачи.

justhabrauser Dec 31 2018 at 00:26

Stas911 Dec 31 2018 at 00:33

Ну просто надо системы строить с учетом такой особенности ССД. У Амазон же DynamoDB на них работает и не жужжит (а это десятки, если не сотни тысяч узлов)

gecube Dec 31 2018 at 01:37

Амазону, наверное, и диски hdd пачками и тачками каждый менять не страшно ) стоимость специального инженера, который будет этим заниматься, на фоне доходов от сервиса будет ничтожна

gecube Dec 31 2018 at 01:36

Я хочу обратить внимание читателей, что автор оригинала — тот странный человек, который и написал статью habr.com/post/434624 (ес-но, перевод, за что спасибо m1rko )
В общем, есть вопросы к этой персоне

SergeyMax Dec 31 2018 at 16:57

А какие вопросы у вас есть к этой «персоне»? Задавайте пожалуйста, не стесняйтесь! За спрос денег не берут.

UFO just landed and posted this here

DrPass Dec 31 2018 at 13:46

Самая большая проблема SSD — это запроприетаренная прошивка.

А вас этот факт не раздражает в любом другом девайсе, будь-то видеокарта, жесткий диск или кофеварка?

gecube Dec 31 2018 at 16:20

Раздражает, но в случае кофеварки и видеокарты это не так фатально.
Я не слышал отказы видеокарт из-за того, что им прошивку криво обновили. Ах, да, так потому что видеобиос — это не фирмварь видяхи, а коды для основного процессора ПК.
Всякую дичь типа оверклокинга не рассматриваем. Именно штатную работу и обновления.
К тому же, даже отказ видеокарты не настолько фатален, как потеря сотен гигов уникальной информации (да-да-да, жду комментария про бекапы и облако)

UFO just landed and posted this here

gecube Jan 1 2019 at 11:21

Жесткий диск имеет совершенно иное устройство, и задачи прошивки там в принципе минимальны, ошибиться почти негде, кривая прошивка будет означать фейл всей серии, а не рандомных устройств.

Минимальны? Я бы не сказал. Там практически свой «компьютер в компьютере». Считай — операционная система реального времени. У которой куча задач. И атрибуты SMART правильно считать и записывать, и протокол обмена с хостом (SATA/SCSI/ATA) поддерживать и пр. пр.

DrPass Jan 4 2019 at 02:00

Потому что в этом случае не теряются данные, и девайс не превращается в кирпич из-за какого-нить division by zero.

Так существование SSD, которые окирпичиваются из-за ошибок в прошивке, тоже наукой не доказано, разве что вы решили прошивку обновить, и что-то пошло не так (с). Но как по мне, если пользователь полез обновлять прошивку диска, на котором есть нужные ему данные, и при этом не сделал их бэкап, и все накрылось — это не вина производителя, а как минимум, справедливое возмездие Аллаха за дикую беспечность.
Если же ваш SSD сдох в процессе эксплуатации, смело ищите аппаратную проблему. Чип какой полетел, пайка треснула и т.д. Причем для ваших данных тоже это не есть фатально, форматы записи на чипы у массовых производителей не являются тайной за семью печатями, и если микросхемы целые, в сервисном центре за денюжку данные вам оттуда вытянут.

Jump Dec 31 2018 at 07:30

Все совсем не так.
Такого понятия как «здоровье» диска нет по сути.
HDD может так же внезапно отключиться как и SSD, но поскольку в HDD проблемы чаще всего механические, то перед полным отказом он зачастую начинает работать нестабильно.
В случае SSD механики нет, поэтому отказ чаще всего мгновенный.

Нет способов точно определить состояние сектора — он внезапно может отказать читаться.
Как правило в таких случаях спасает контрольная сумма — данные просто восстанавливаются.
Но не всегда.
Если данные не удалось восстановить — ошибка чтения данных.
А если эти данные были служебными — например таблица соответствия, или прошивка — SSD становится кирпичом. Ни каких резервных ячеек в SSD нет — используются все.

От того что вы зеркалите данные риск их потерять никак не меняется. Задача зеркала обеспечить бесперебойную работу — чтобы работа не остановилась в случае отказа диска.
А потерять данные зеркало никак не мешает, и в плане защиты данных оно полностью бесполезно.
Для этих целей бэкап применяют.

Methos Dec 31 2018 at 11:44

потому что покупать нужно не говно всякое типа киуикал, а интел

у меня ssd intel от 2011 года 240 гигов, пашет в ноуте круглосуточно, проблем нету сейчас

-1

lyadnov Dec 31 2018 at 18:52

Для статистики: из 4х SSD-шников, разномастных. 2 умерло в течении года, резко и без всяких причин.

Pochemuk Dec 31 2018 at 20:56

Кстати, грех не воспользоваться тем, что здесь столько знатоков RAID собралось. Задам а я несколько вопросов, которые как-то стремно проверять на практике. Все относится к контроллерам с поддержкой MegaRAID:

1. Вставляем б/у девайс, который ранее был на нем в составе RAID-1. В настройке Foreign удаляем с него конфигурацию RAID. После этого ОСь (на другом компе и через SATA) увидит на нем разметку MBR и ФС? Если нет, то как это можно сделать, чтобы не терять информацию?

2. Отдельный диск из RAID-1 вынимаем, несем на другой комп и подключаем к SATA. Увидит ли на нем ОСь MBR-разметку и ФС? Можно ли будет снять образ диска со всеми файлами, например Акронисом? Вроде бы мне удавалось прочитать с него информацию (а может быть даже образ снять), но это было так давно, что я уже в этом не уверен.

3. А вот следующее не получалось сделать:
Как известно, LSI-контроллеры не поддерживают non-RAID диски. Т.е. если надо подключить к нему одиночный диск, то рекомендуют создать фиктивный RAID-0 и поместить в него этот единственный физический диск.
Но вот снять образ с такого физического диска, подключив его к SATA на другом компе мне не удалось. Acronis просто не распознал разметку, написал, что ФС диска не распознана, и сделал посекторню копию. Но, кажется, эта копия LSI-контроллером за корректную не воспринялась. В результате пришлось создавать новый VD с потерей всех данных.
Кто-нибудь пытался сделать образ одиночного диска из RAID-0 через SATA? Как успехи?

Miron11 Dec 31 2018 at 23:34

Все зависит от куда Вы

Отдельный диск из RAID-1 вынимаем

Если Вы пользовались поддержкой массива в ОС, например в Windows, то наверное на диске создан системный блок данных, который сохраняет информацию с конфигурацией диска. И его поведение при переносе в другую машину зависит от того, как все это оформлено на уровне ОС.

Если же Вы пользуетесь внешним контроллером, то информация о конфигурации диска хранится в выделенном аппарате. В зависимости от типа массива, ваши шансы подключить этот диск в другой машине зависит опять же, от того, как этот внешний контроллер совместим с тем, от куда диск «пришел».

В принципе, так называемый JBOD считается наиболее подходящим для будущих перемещений диска от устройства к устройству, с сохранением информации. А вот поведение отдельно взятого диска надо проверять, в данных конкретных условиях, поскольку никаких гарантий, кроме заранее оговоренных в документации, никто дать не может.

Опять же, в теории, любой диск можно подключить через внешнее аппаратное устройство, просто как массив данных. Есть такие USB разъёмы. Мне через такой разъём удалось подключить практически все диски ( HDD ) из всех конфигураций. Кроме тех, где мотор был сломан. И если он не подключался через стандартный протокол, то можно было снять данные с помощью утилит, которые считывают данные с диска, не обращаясь к службам разметки диска ОС, а потом распознают на нем различные паттерны записи, и выдают информацию в виде либо полноценного файла, либо как «блок данных не распознан» и там пакет 16-тиричных символов ( 4 таких не распознанных файла на 1/2 терабайт диск ).

Nordicx86 Dec 31 2018 at 23:30

все довольно прозаично при 300 IOpS Ошибок реализации протокола обмена столько же сколько и при 80к IOpS только вот встречают они в 266 раз чаще…

Fort_Ross Jan 1 2019 at 02:41

В домашнем парке сейчас 2 рабочих станции и ноут, на каждом стоит SSD под систему и софт, от 2 до 6 лет возрастом, нареканий не было никаких. Однако на каждом пк дополнительно живет зеркало из HDD, на ноутбуке одиночный — куда в обязательном порядке автоматически бакапится всё, что имеет ценность, что-то ежедневно, что-то ежечасно, десктоп, документы и тд — так вообще на hdd на постоянной основе лежат. Посему в этом аспекте ничего не нервирует.

SamsonovAnton Jan 1 2019 at 20:58

Всем, кто верит в сказки про деда Мороза, про SMART и MTTF, про то что накопители с контроллерами серверного класса чем-то лучше потребительских (имеется в виду холивар «ATA/SATA vs SCSI/SAS»), про то что вероятность отказа высокая только в начале эксплуатации и после окончания гарантийного срока, что дискам живётся лучше при комнатной температуре, рекомендую прочесть:

Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?
за авторством Bianca Schroeder и Garth A. Gibson

Failure Trends in a Large Disk Drive Population
за авторством Eduardo Pinheiro, Wolf-Dietrich Weber и Luiz Andre Barroso

А также статьи из библиографического списка, в частности про Internet Archive.

Да, это 2002–2007 год, эпоха HDD, но суть статей как раз в том, что накопители просто дохнут — и всё. Можно пытаться строить статистические модели, если у вас во владении есть тысячи накопителей из одной партии, но для конкретного экземпляра это всегда выглядело и будет выглядеть как внезапный выход из строя. Можете сколько угодно отрицать это, нервничать и впадать в депрессию, но рано или поздно вам придётся принять за аксиому, что накопители умирают, когда ничто не предвещало. Надо заранее быть к этому готовыми.

BarsMonster Jan 2 2019 at 04:12

Диски еще хороши тем, что если сдохнут — за небольшую плату почти всегда можно данные достать (мне удавалось всегда, один раз даже после хранения 8 лет).

А вот с SSD и ценники выше, и шансы меньше.

Радует лишь то, что сейчас можно платить чуть больше за явно (MLC vs TLC) более надежную память (вроде Samsung-говских SSD Pro-серий, microsdxc карточек серии endurance), V-NAND в целом у хороших производителей радует. Потребительские SSD эконом-серий в сервера ставить — это вообще за гранью добра и зла, если только архитектура не готова к выходу из строя отдельных дисков без прерывания сервиса.

Дохнуть будет все и всегда, даже когда в широкие массы придет фазовая память и проч. Территориально-удаленные бэкапы нужны всегда. Ядерная война не за горами, потом придется рвать на себе волосы что бэкапы были на балконе дома снесенного ударной волной…

DrPass Jan 2 2019 at 05:16

за небольшую плату

Ну как небольшую… купить ещё один такой же винт и настроить бекапы всяко дешевле, чем запросят за восстановление.

Popadanec Jan 2 2019 at 16:00

Вроде я где то видел, как чипы памяти то же переносят на рабочее устройство или сцец плату и читают. Либо меняют контроллер.

JerleShannara Jan 6 2019 at 17:48

Да, с флешем так и делают, в основном чип переносится либо на спецплату, где на пружинном разъеме подключается к чему-то типа PC3000 Flash. Но тут ещё беда в том, что флеш память очень не любит высокие температуры (растут токи утечки и уже полумертвую флешку можно такой перепайкой стереть окончательно). И это стоит порой дороже даже пересадки блока головок на обычном HDD(Харды с гелием не рассматриваем, там своих тараканов полно)

gecube Jan 9 2019 at 09:30

уже полумертвую флешку можно такой перепайкой стереть окончательно

Сплавы Розе и Вуда радикально снижают температуру пайки, что позволяет бережно отпаивать.

Ну, и вообще есть разные типы разъемов, даже для BGA ru.aliexpress.com/item/UFS-2-0-1-0-153-BGA-Socket-ufs153-socket-for-testing-function-UFS-2-1/32831746189.html

lehatut1 Jan 2 2019 at 14:14

Значит, надо использовать связку из двух дублирующих друг друга SSD.
Если вероятность поломки одного 1 из 1000, то вероятность поломки двух сразу 1 из 1 млн — такой вероятность пренебрегают, когда летают на самолетах.

Pochemuk Jan 3 2019 at 21:38

По поводу самолетов — не корректный пример.

Если гибель одного пассажира — трагедия, то гибель целого коллектива — невосполнимая утрата. А на моей памяти только у нас были «Пахтакор», «Локомотив», хор Александрова.

Так и с информацией… бывает такая, которую можно и потерять, но при этом работоспособность будет восстановлена с нуля. В таком случае простого RAID-1 из двух дисков даже без HotSpare достаточно. А бывает и так (чаще всего), когда потеря информации будет критической. В таком случае без регулярных бэкапов не обойтись.

У меня самого было два случая, когда сбой одного диска в RAID-1 приводил к нарушениям ФС. А один раз сказёвый диск отказал в процессе восстановления RAID. Если бы не бэкапы — было бы все крайне плохо.

UFO just landed and posted this here

JerleShannara Jan 11 2019 at 02:58

А как в вашем случае определить, что это именно контроллер №1, а не контроллер №2? Надо тогда ставить три и делать мажоритарное резервирование. Вот только рынок сбыта будет такойже, как у бортовых компьютеров Airbus, только монстры индустрии вида топовых банков мира такое брать будут.

gecube Jan 11 2019 at 09:20

Согласен. Полностью. Все решения типа мастер-слейв или мастер-мастер на двух нодах — это пизец, т.к. они регулярно устраивают сплит-брейн. Поэтому нужен кворум и как минимум резервирование х3. Либо миритесь с тем, что обе половинки могут думать, что они единственные (для некоторых задач этого достаточно).

UFO just landed and posted this here

Lennonenko Jan 2 2019 at 23:18

миллион примеров
дохнет всё и у всех
и я не вижу причин для беспокойства — любой узел может внезапно отказать без объявления войны, для этого есть куча схем резервирования
какая принципиальная разница между сдохшими HDD и SSD?
более того, у SSD фактически две детали — контроллер и массив
если он внезапно отвалился — к бабке не ходи, контроллер накрылся
и как эта информация повлияет на душевное спокойствие автора?

UFO just landed and posted this here

zeeVbelkin Jan 3 2019 at 18:26

Имею крайне негативный опыт с Crucial, сдох SSD на ноутбуке, и после гарантийного ремонта сдох снова. Поставил Corsair, он живёт уже года четыре без проблемм.

FishDude Sep 23 2021 at 14:47

Наблюдаю всё больше отказов SSD-дисков в SATA-формате. Диагноз одинаков работает-работает, бум! - диск пропал из системы. Кнопка "сброс" не помогает; лишь полное отключение питания сбрасывает диск, он становится виден вновь и работает вплоть до очередного отказа через несколько дней. Масса разных материнок, масса разных дисков (из последних наблюдаемых с проблемой - Verbatim, AData, GoodRAM).

zergone Apr 14 2023 at 10:48

Подумал о повышенной активности солнышка последнее время. Иногда оттуда к Земле прилетало очень хорошо. По-моему первый квартал 23-го почти сравнялся со всем 22-м годом.

Show the best of all time