Pull to refresh

Comments 41

Это мой первый опыт публикации на Хабре довольно серьёзной статьи (рассчитана на enterprise сектор и относительно новую тематику). Можно считать её перекликающейся с моей заметкой про защиту данных (http://www.habrahabr.ru/column/2543/).
Статья хорошая.
Большое спасибо. Не скрою, что приятно.
Огромный тебе респектищще за статью! Актуально, интересно и доступно. Именно такой я бы хотел видеть хабру в будущем!
Спасибо. У меня есть сомнения в том, что Хабр в ближайшем будущем станет профессиональным ресурсом. По нескольким причинам.

Во-первых, готовить такие материалы весьма сложно. Я готовил эту статью в рамках своей профдеятельности (т.е. мне оплачивали моё время — два рабочих дня), при этом мне помогали два редактора (вычитка, стилистика). Изначально статья была немного веселее и агрессивнее, после правок стала более гладкой и красивой (ну и более слащавой).

Во-вторых, я соглашусь (о, какая неожиданность) с шипом http://urbansheep.livejournal.com/157718… От себя добавлю лишь, что часто даже грамотный редактор не спасёт, если у автора нет компетенции по рассматриваемому им вопросу. Читать мнение обывателя о сложной теме не очень интересно.

В-третьих, даже рассматривая пример удачных, хороших постов можно увидеть, что ориентации автором направлена на повыщение кармы и рейтинга (иногда даже по комментам прослеживается). Т.е. механизм превалирует над ценностью.

Прошу простить, если кого-то задел.
Гонка за кармой, конечно, повышает попсовость, но я, например, выхода из этого положения не вижу. По себе знаю, что, как только рейтинг большой, то перестаёшь за ним гоняться.
Ага, я вот теперь не знаю, что с этим первым местом делают :)
Бесконечные жизни, возможность изменить карму любого персонажа, админский вход на хабр, ну и мультик какой-нить покажут наверное :)
Очень здорово написано, спасибо вам огромное!
Жизнено необходимая концепция, за Бугром наверняка уже разработано программное обеспечение, это ближе к разработкам Oracle.
Как ни странно, Oracle весьма пассивен в этом вопросе (ILM).
Свято место пусто не бывает, значит эту нишу займёт кто-нибудь другой.
Что касается текущей ситуации, то в этом направлении активно работают HP и особенно EMC.
в 11g oracle делает шаги к ilm.
>Мы можем сделать важный вывод: разные классы информации имеют разную ценность для бизнеса, и эта ценность меняется с течением времени.

Из приведенного графика и легенды к нему совершенно непонятно почему вдруг классификация информации была проведена именно так. Я не говорю про методику исследования, которая осталась за кадром - лично я не понимаю как вдруг так получились такие странные графики - мне интересно почему вдруг email стал каким-то особым классом информации? Email, маркетинговые, девелоперские данные - это, если развивать мысль статьи есть классы ДАННЫХ. Те же email могут устаревать через несколько минут или часов, а могут иметь ценность несколько лет или даже десятков лет. В зависимости от того, очевидно, какая информация в email заключена. Таким образом, понятно что основной сложностью является формирование стратегии, или нет - даже просто определение принципов сортировки информации. Тут были упомянуты красивые слова - политики, SLO... Но дальше то что? Где хоть один конкретный пример того, как мы будем фильтровать информацию и решать - что хранить, а что - нет?

При таком подходе есть еще проблема взаимозависимости данных, их взаимосвязанности. Нельзя так просто убить пачку писем - нужно понять что за данные они за собой потянут дальше. Поэтому проблема сложнее и шире - как найти способы рассортировать информацию по актуальности в определенный момент времени да плюс к этому обеспечить более менее приемлемые сроки перевода информации из запасников в оперативное поле принятия решений.

Кстати, посыл насчет необходимости ограничивать объемы хранения информации мне кажется немного надуманным. Средства хранения постоянно развиваются, и мне кажется еще долго возможности хранилищ будут опережать объем информации. Поэтому, нужно думать о том, как уменьшить затраты на обработку информации, которая не нужна. И тут, как ни странно, вывод получается неожиданный - от объема информации (или, если хотите, данных) скорость обработки мало зависит при ПРАВИЛЬНО ПРОДУМАННОЙ АРХИТЕКТУРЕ РЕШЕНИЙ. Таким образом, затраты на процессинг будут пропорциональны не объемам данных, а их СЛОЖНОСТИ.
"Вперёд и вверх!" - что-то уж очень сильно смахивает на "Wow!", или "Think different!", или ещё какая-нибудь бессмысленная фраза с восклицательным знаком на конце.
Вот если бы автор писал конкретно, это было бы куда интересней.
Да, соглашусь :) В следующей статье будет конкретней, но не настолько, чтобы не оставить поля для размышлений.
Email, маркетинговые, девелоперские данные - это, если развивать мысль статьи есть классы ДАННЫХ
Email можно выделить в отдельную группу в силу своей специфики…

Те же email могут устаревать через несколько минут или часов, а могут иметь ценность несколько лет или даже десятков лет
…а часто используемые письма, как правило, сохраняются в соответствующем месте в удобочитабельном формате и становятся документацией (перестают быть письмами, from/to пропадает).

А в остальном правильно написано, только опять же «красивыми словами».
UFO just landed and posted this here
Согласен полностью. А про скорость обработки можно сказать, что это не главное при работе с архивом. Главное - удобный инструмент задачи поиска.

Архив это всего лишь часть решения. Кроме архива в системе хранения много чего есть.

Проблема объема информации это не "немного надуманная проблема" - это просто не проблема на сегодняшний день... да и в обозримом будущем то-же.

Для домашнего юзера, SOHO и малого бизнеса действительно не проблема. Но я о них и не говорю.
Вот уж для энетерпрайз-то не проблема. Если всё грамотно продуманно, то стоечка с хранилищем данных обеспечит скорость доступа к архивам ещё быстрее чем у домашнего юзверя. Ибо домашний юзверь дома Итаниумов держать не будет ;)
Высокопроизводительное хранилище стоит примерно в 10 раз дороже "обычного" (SATA w/o SAN). Вот и посчитайте, сколько денег улетит в трубу при бездумном размещении в high-end storage каких-то смешных 100 ТБ данных.
Смешные 100тб. Это откуда столько? У нас аксапта за год 2 максимум выжирает.
Рад за вас :) Хотя 2ТБ в год — уже повод задуматься. Дальше будет хуже.
Про 100ТБ. Я конечно намеренно преувеличил. Но есть задачи, где объём растёт экспоненциально. Рентгенография, аэрофотосъёмка, логистика, почта наконец.
Из приведенного графика и легенды к нему совершенно непонятно почему вдруг классификация информации была проведена именно так. Я не говорю про методику исследования, которая осталась за кадром - лично я не понимаю как вдруг так получились такие странные графики - мне интересно почему вдруг email стал каким-то особым классом информации?

Это пример. Для каждой компании будут свои классы и свои графики.

При таком подходе есть еще проблема взаимозависимости данных, их взаимосвязанности. Нельзя так просто убить пачку писем - нужно понять что за данные они за собой потянут дальше.

Не надо ничего убивать. SLO определяют необходимые уровни сервиса. Если некоторый класс в некоторый промежуток времени имеет малую ценность, то он хранится на малопроизводительном и невысоконадёжном хранилище. А его резервирование производится реже или не производится вовсе. Вот и всё.

Поэтому проблема сложнее и шире - как найти способы рассортировать информацию по актуальности в определенный момент времени да плюс к этому обеспечить более менее приемлемые сроки перевода информации из запасников в оперативное поле принятия решений.

Первым занимаются специальные компании в рамках классификации ваших корпоративных данных. Второе осуществляется с помощью специальных средств, автоматизирующих миграцию данных по системе хранения.

Кстати, посыл насчет необходимости ограничивать объемы хранения информации мне кажется немного надуманным. Средства хранения постоянно развиваются, и мне кажется еще долго возможности хранилищ будут опережать объем информации.

Статистика (IDC, Gartner) говорит обратное. Несмотря на удешевление стоимости хранения за гигабайт, совокупная стоимость хранения данных постоянно растёт (и иногда весьма энергично).

Поэтому, нужно думать о том, как уменьшить затраты на обработку информации, которая не нужна.

...Что отлично вписывается в концепцию управления жизненным циклом информации.
Прочитал ваш комментарий. Извините, но лично мне все написанное показалось просто красивым набором каких-то заумных концепций. Я не вижу практического решения поставленных задач. Кроме того, я не понимаю откуда берутся такие концепции и выводы. Если графики, которые были приведены в статье являются частным примером, то почему вдруг на их основе делаются какие-то выводы. А ссылки на IDC и Гартнер вообще не вызывают у меня ничего кроме раздражения - эти агентства известны своими пустовысосанными из пальца прогнозами и ни к чему не обязывающей аналитикой.

В общем, проще надо быть. И тогда люди к технологии потянутся. Пока же это все мутная вода, в которой кто-то ловит рыбу.
Пусть будет так, как вы считаете.
Обиделись, судя по всему? Зря. Пишете статью на серьезную тему - готовьтесь к критике. Это нормально.
Могу дать совет. Прежде чем дискутировать, хорошо бы что-то почитать по теме. В идеале — разобраться в теме и обрести компетенцию.

Но в любом случае, пусть будет так, как вы считаете.
Вы видимо считаете себя компетентным в теме? Действительно компетентный человек аргументирует свое мнение и ведет дискуссию корректно. И тем более не считает собеседников менее компетентными чем он сам.

Вы же ставите плюсы друзьям и получаете плюсы в ответ за ничего не значащие сообщения, а мне тупо понаставили минусов везде где можно. Вывод напрашивается простой: к вашим постам нельзя относиться серьезно, как это я сделал в самом начале. Очевидно для вас это такой способ набрать каких-то липовых очков, чтобы в глазах окружающих выглядеть умнее. Или потешить свои комплексы.

За сим откланяюсь.
Пусть будет так, как вы считаете.
Да, стоит добавить, что в одном и том же массиве данных в разных ситуациях информацию (смысл) могут нести совершенно разные куски. И если как эти блоки дробить еще более менее может быть понятно, то как эту куски потом друг от друга отдельно хранить и чего то с ними дальше делать - непонятно совершенно. С этой задачей мозг человека то справляется с трудом, храня всю (!) получаемую за жизнь информацию по максимуму. Так что всякие экспертные системы и прочие автоматизированные ИИ системы ближайшие лет 200 рядом не будут валяться.
Я, честно говоря, не понял про какие куски идёт речь и при чём здесь ИИ.
А чего тут непонятного - просто развитие мысли из вашего же поста. Есть данные, а есть информация. Информация - есть подмножество в данных, поскольку не все данные несут смысл. Я написал, что для разных задач в одном и том же массиве информации информацией будут разные блоки. Простой пример: есть email с полями From, To, Body. Для получателя письма актуальными будут поля From и Body, поскольку поле To ему не нужно, он и так знает, что письма адресованы ему. Поэтому эти данные в хранилище ему не нужны, их можно убить или перенести куда-то вглубь. А для службы безопасности компании, например, важны поля From, To в первую очередь. А поле Body во вторую.

Пример немного притянут, просто с ходу более простого не нашел. Но из него должно быть понятно, что я имел в виду. Таким образом все "данные" по вашей терминологии конечно же содержат "информацию" и "хлам". Вот только непонятно как их делить, хранить и обрабатывать.

Про ИИ - опять же чего тут непонятного? Построение экспертных систем пересекается с разработками в области ИИ. А процесс классификации информации - это типичная область приложения для экспертных систем.
Пусть будет так, как вы считаете.
Не стоит говорить о том, о чём не имеешь представления.
1) Современные системы (правда не совсем ИИ) на данный момент замечяательно справляются с кластеризацией таких массивов информации, которые человеческий мозг может и запомнил бы, но время на запоминание составило бы всю продолжительность жизни.
2) С другой стороны существует довольно много ИИ, которые проходят многие из постоянно придумываемых тестов на разумность. (Хотя бы тот же podbot, который при должном обучении может общаться с человеком часа полтора и не быть раскрытым)
Концепция вполне логичная, в процессе обработки, храния и удаления информации необходимо задать необходимые критерии и исходя из них разработать необходимое ПО легко масштабируемое и гибкое в плане внесения изменений в алгоритмы.

Увеличивающиеся мощности дата-центров, приводят к увеличению их захламленности в силу ментальности людей, т.е. исходя из принципа:"А вдруг пригодится", хотя на самом деле эта информация уже давно не актуальна и от неё необходимо очистить серверы хранения информации.

На своём @gmail.com я храню мизер информации, менее 1Мбайта и взял за правило сразу же удалаять информацию, которая актуальна несколько минут.
Угу. Всего-то навсего нужно "задать критерии" и "разработать необходимое легко масштабируемое ПО".
ПО есть, критерии задают специально обученные задавальщики. В чём проблема-то?
А... Сорри. Не понял сразу, что Вы теоретик.
Это всего-лишь некоторые мои мысли, на самом деле задача достаточно сложная в плане реализации.
Sign up to leave a comment.

Articles