Pull to refresh

Comments 130

Даже если на два порядка, то пока мало. Да и как там дела со скоростью?
Вопрос скорости сейчас стоит не так остро при таких объемах информации, начнут как обычно с «архивов», потом и технологии повышения скорости чтения / записи подтянутся.
Многократно распараллелить запись/чтение думаю не проблема.
Зависит от стоимости читающего/пишущего узла.
Это имеет смысл для архивов скорее. Так то у нас нет долговечных носителей.
Имело бы смысл, если бы запись была дешевле чтения.
Зато компьютерные вирусы смогут распространятся воздушно-капельным путем :)
Раньше были вирусы-полиглоты, заражающие несколько платформ: exe-файлы и документы Word, например.
Технически с ДНК возможны два варианта:

1. Сравнительно быстрая скорость чтения (сотни бит в секунду), но отсутствие произвольного доступа. И это еще только развивающиеся технологии.

2. Скорость чтения очень медленная (биты в минуту), зато константная скорость доступа, практически независимо от объема + возможность огромного количесва параллельных считываний. Это то, что уже есть.
А вы не перепутали местами, то что уже есть и то, что только развивается?

Сколько читал про подобные вещи, знаю, что самое простое это перебор ДНК-цепочки от начало до конца, т.е. последовательный доступ по аналогии с магнитной лентой.

По второму пункту:
>> константная скорость доступа

Хотите сказать, что считать информацию с начала ДНК-цепочки или из середины потребуется одно и то же время? Прям как SSD (Флэш-память). Но это вроде посложнее будет, чем первый вариант, и, скорее, это «развивающиеся технологии».
Я не читал, я с этим работал.

Перебор цепочки — да, так всегда происходит атомарное чтение. Оно не может быть длиннее нескольких сот букв (вроде как экспериментально умеют до нескольких тысяч).

Только вот на одном банке ДНК одновременных атомарных чтений может быть сотня тысяч и больше. И к каждому атомарному чтению доступ произвольный.
Фактически доступ осуществляется так: снимают копию с произвольного участка за константное время. И потом делают чтение с этой копии уже последовательно, исходя из длины фрагмента (не более сот букв, как было сказано).
Если одинаковых ДНК куча и они еще и клонируются как-то, то если читать хоть и последовательно, но в разных ДНК смещения указателя чтения в один и тот же момент будут наверняка разные, а потому для рандомного доступа надо просто выбрать ДНК с нужным смещеним и читать оттуда.
Примерная аналогия с кластерами на винчестере. Кластер читается целиком.
Только тут чтение внутри кластера очень медленное + кластеры могут читаться параллельно.
Фишка еще в том, что такой огромный объем ДНК никогда не существует в виде одной молекулы, чтобы ее можно было прочитать целиком. Это банк, который состоит из большого числа «огрызков» разного размера, каждый из этих огрызков обычно делают длиной от сотен до тысяч пар оснований. Причем эти огразки существуют в избытке + перекрываются, чтобы можно было реконструировать информацию.
Можно попробовать, только все равно будет разброс. Это отдельные молекулы все-таки и все взаимодействия с ними вероятностны, а не детерминированы.
это не бардак. система спроектрирована под другие задачи вот и все. сейчас просто вы увидели крутую технологию и хотите ее адаптировать под свои нужды, сталкиваясь с разными проблелами.
А как хранят днк с записаной информацией?
Обычный препарат ДНК представляет собой бесцветный раствор. Там вода + немного солей + сама ДНК. Если положить пробирку с раствором в холодильник на -80, то он способен пролежать там сотни лет без особых изменений. Без доступа воздуха, в чистом препарате и на холоде ДНК деградирует очень медленно.
А если добавить ещё и код Рида-Соломона или другую систему коррекции ошибок?
Всё ближе и ближе человек к исходному коду человека. Скоро будут менять днк и появятся баги.
С нетерпением жду новую прошивку :) Багов и сейчас хватает :)
Ага. Появится какой-нибудь Девелопер (кто-нибудь тут Чубарьяна читал?), для сознательного управления гормонами, мышцами и прочим… Потом и сетевухи в мозг, брейн-программинг, вирусы… Эх, перефразируя любимую фразу старпёров про школоту, «взрослоте не дожить» :)
Брейн-программинг давно существует, с самых древних времён и шаманов. Используется понятный для мозга язык программирования — человеческий. Мыслевирусы тоже существуют. Да и что сложного, в сознательном управлении мышцами? Дело только в тренировке, но и прямой интерфейс не разовьёт сразу каналы связи с мышцей, которые слабы.
Вот, вы уже заразились.
Тчорт, похоже, ваш пост заражён. Kaspersky Brain Security 2048 обновить надо…
Вот, уже эпидемия начинается.
Это называется мыслепреступления, а не «мыслевирусы».
Хочу себе рут поставить.
Смотрите там, только, осторожнее с rm -rf. Потеряете одну точку или добавите лишний слэш — и родители задолбаются перезаливать дистрибутив и настраивать периферию :)
Я буду делать ежедневные бэкапы в облако.
Tairesh будет смотреть на нас с облаков *комкая в руках шляпу*
неосторожная прошивка может превратить в кирпич
Даёшь эльфийскую прошивку!
Тогда лучше прошивку паладина поставить — его проще качать, да и в оригинале этой очень смешной шутки был как раз таки паладин.
Речь идет о жизни, а не игре :) Паладин — просто род занятий, а не вид/раса, поэтому будет так же стареть как человек. И 80й уровень не поможет.
Список багов уже давно имеется, уже хотят патчить, а не новые создавать, что скорее всего неизбежно.
Это как-то и несколько настораживает… в том смысле, зачем для этого использовать именно ДНК? По-моему правильнее было бы реализовать аналогичную, но химически несовместимую с ДНК структуру, основанную на других соединениях (т.е. вообще не на аминокислотах) с аналогичными свойствами (а возможно даже лучшими: более компактными). Тогда точно оно ни при каких обстоятельствах случайно не попадет в биологический «механизм репликации». Мало ли — вирусное тело, пролетая над нашим «ДНК-диском» случайно подцепит к себе цепочку, в которой был записан какой-то случайный набор данных, который оказался… дальше додумайте сами :) Ситуация маловероятная, но с повсеместным распространением таких «накопителей» наверное будет иметь шансы на реализацию.

Может быть с точки зрения биологии этот сценарий и очень маловероятен, но меня в общем настораживает отсутствие data execution prevention — ведь сегменты данных в реальной DEP тоже не должны получать никогда управление, а получают… вот и защиту сделали. :)

С другой стороны — пока что развитие технологии в эту сторону параллельно убивает 2 зайцев: помимо основного назначения также развиваются технологии быстрого и точного «чтения» биологической ДНК, что, очевидно, небесполезно.
В сегодняшнем виде это нереально.
У цифрового формата и у биологического просто разный протокол. Там для выполнения нужны определенные стартовые комбинации. А что касается случайности, так вся система на них построена — мутации и не такое устраивают.
Меня больше смущает очевидная примитивность решения с похериванием одной комбинации. На сегодня существует множество методов решения проблемы последовательности одинаковых бит. В основном кодовые.
Обычно обходятся намного меньшей избыточностью для таких целей. Другое дело если эти данные будут расшифровывать не сложные вычислительные машины, а различные ферменты, как в биологии… тогда да, такой формат имеет смысл.
Так сколько вы говорите вам памяти нужно? Пару килограмм давайте…
Сколько вешать в граммах?
640 килограмм хватит всем!
Это вы сейчас так говорите… ;)
через каждые два года масса будет удвойняться)
2,2 петабайта на 1 грамм биологического материала
Основная ошибка — в переходе от информационной емкости одной молекулы ДНК к емкости на грамм/килограмм. Вот есть у нас, скажем, 1 г бактерий. Чтобы записать на их ДНК 2 ПБ уникальных данных, нужно, чтобы ДНК разных особей различались. И как потом вылавливать среди триллионов клеток одну нужную? Не говоря уже о том, что они живые, постоянно делятся, мутируют и умирают. Заморозить если только…
С этим особых проблем нет, если почитать прочие статьи, раскрывающие суть. Другое дело, какие объемы занимает «механизм» чтения / записи и как он масштабируется в соответствие с массой материала.
Можете в двух словах рассказать? Я так понимаю, есть несколько изолированных культур клеток, в каждой — грубо говоря, по 1МБ. Или ДНК хранится не в составе живых клеток, а в чистом виде?
Я думаю клетки и бактерии там вообще не учавствуют. ДНК не обязательно должна находится внутри кого-то. Она может быть закреплена на какой-либо подолжке. Это может быть реализовано как массив (поле) цепочек ДНК на одной подложке. Или длинная цепочка тупо наматывается на какую-нибудь нанобабину (как узелковое письмо :)) Вариантов много
Наверное, так. Тогда понадобится какой-то манипулятор, способный отщеплять по одной цепочке. Насколько мне известно, современные методы ПЦР работают далеко не с единичной молекулой ДНК.
ПЦР как раз может на старте работать с одной молекулой. А вот для секвенирования для большинства работающих технологий действительно, нужно множество молекул.
В то же время последнее время модны технологии мономолекулярного секвенирования и они активно развиваются.
Представляется наномагнитофон наноднкфон с кассетами. Снова будет подключать магнитофон к компу и с него грузить инфу. Хотя и сейчас плёночной записи хватает.
ДНК хранится в чистом виде. Очень стабильная субстанция в обычных условиях.
Ну так не на бактериях же писать будут:)
Решение проблемы длинных одинаковых последовательностей это старая задача в связи. Там если будит идти один бит, то оборудование на разных концах может рассинхронизироваться. Т.е. отправили три бита неразрывно, а приняли как два, например. И решения этой проблемы уже много раз найдены и без избыточных бит. Другое дело что избыточность вводят для контроля и исправления ошибок, но это уже другая история.
Есть подозрение, что тут речь в том числе и о химической нестабильности.
Сначала делаем gzip, потом пишем — никаких одинаковых последовательностей нет. Вроде как все просто, не?
Попробуйте создать длинный (несколько мегабайт) файл из повторяющихся последовательностей текста, например «ХабрахабрХабрахабрХабрахабр...» и зажмите его с помощью архиватора. Когда я пробовал это с rar, то в результирующем архиве содержались длинные последовательности нулей. Компрессия сама по себе не гарантирует отсутствие длинных последовательностей символов.
Нули — это заголовок самого архива, сама сжатая последовательность имеет очень высокую энтропию.
Ну вот вы попробуйте все-таки. Результат вас удивит. Я сам только что попробовал. С форматом rar этот фокус уже не проходит, хотя и там в архивном файле встречаются довольно регулярные последовательности. Но с форматом zip прошло на ура.
Да, да, с цепочками которые не «липнут» сами на себя гораздо проще работать. Исключив одну букву, мы сильно эту липкость меньшаем.
Совершенно верно. Давно уже есть технологии, которые обеспечивают отсутствие длинных последовательностей одинаковых кодов в передаваемом сигнале. Например, можно наложить сигнал на псевдослучайную последовательность с помощью сложения по модулю 2 (или по модулю 4 в случае ДНК) и дополнительно (на случай, если входной сигнал на достаточно длинном участке будет повторять эту псевдослучайную последовательность) контролировать наличие длинных последовательностей одинаковых кодов в выходном сигнале. Если они встречаются — вставлять «разбавляющие» коды, эта технология называется stuffing.
UFO just landed and posted this here
Не, это просто технология хранения data в ДНК c автоматическим бэкапом
Предлагаю вариацию на тему Манчестерского кода. Записываемые данные в четвертичной системе «шифруются» наложением достаточно длинного высокохаотичного ключа. В этом случае у нас будут перемежаться разные нуклеотиды, если только ключ не шифровать сам собой.
«Шифрование» тут — обычное сложение по модулю 4, криптографической функции вобщем-то не выполняет (т.к. ключ извесен), а лишь обеспечивает сохранение последовательностей одинаковых бит в последовательности неодинаковых нуклеотидов.

Решение номер два: сжатие и распаковка данных «на лету» — как раз устраняют (помимо всего прочего) последовательности одинаковых битов, производя высокохаотичный поток данных.
В данном случае ученые предложили кривое решение проблемы, имеющей очевидные и простые решения. Возможно, потому что они не компьютерные инженеры, а биологи, поэтому с решением подобных проблем в технике не знакомы.
наложение может и избавит от последовательностей одинаковых бит в исходной цепочке, но будет порождать их в других местах, разве нет?
Будет порождать только в случае записи последовательности бит, близкой к битовой последовательности ключа, притом с той же «фазой». Именно поэтому последовательность ключа выбирается довольно длинной и псевдослучайной (в идеале случайной), чтобы вероятность передачи именно такой последовательности была мала.

Кроме того, можно применить и другой метод разрежения последовательностей, которому уже лет 20. Он, вроде как и похож на описанный в статье, но намного умнее.
Метод состоит в добавлении разряжающего бита ТОЛЬКО в случае выявления последовательности одинаковых бит и удалении его при чтении. Т.е. таким образом мы будем тратить не каждый 4й бит, а «только каждый 4й бит, если нам не повезло с исходным набором данных».

Немного истории.
В какой-то древней сетевой технологии (возможно Token Ring, но это не точно), последовательность из n единиц (кажется, n=31, но это тоже не точно) являлась преамбулой сетевого кадра. Т.е. встретив такое, сетевой адаптер выбрасывал из памяти весь предыдущий мусор (кроме успешно полученных кадров) и начинал наполнять кадр. А чтобы случайно встетившиеся в передаваемом кадре 31 подряд идущих единиц не сорвали передачу, везде, кроме преамбулы после 30й единицы обязательно вставлялся 0. А при чтении после 30й единицы обязательно следующий бит не сохранялся.

Решений, как уже было сказано ранее, масса.
что решений масса мне понятно, и что предложенное в топике решение уж очень топорное — тоже. просто вероятность того, что в случайной строке окажутся n одинаковых элементов подряд равна вероятности того, что в наложении двух случайных последовательностей окажутся n одинаковых элементов подряд. я уточнял только этот момент
UFO just landed and posted this here
А потом инопланетные археологи найдя вымершее человеческое поселение через пару тысяч лет, найдут частички днк и будут долго думать, что там делает скан журнала Плейбой с полной дискографией Роллинг Стоунс.
Идея для киберпанковского романа: в ДНК определенных людей записан уникальный ключ, который передается по наследству.

Представьте — только потомственный админ (с соответствующей ДНК) сможет зайти на сервер под административным логином.

P.S.: ну или стартап сделать можно :)
Достаточно потомственному админу один раз плюнуть в курилке, и код скомпрометирован:)
1. К тому времени курение уже точно запретят — все к этому идет
2. В любом случае — надо же применять простейшие меры безопасности — ну там, в скафандре ходить и всякое такое…
А дочерних носителей ключа тоже в скафандре создавать?:)
Ну дык — это ж у нас получается что? Аристократия! А значит:
— до свадьбы — ни-ни
— а после свадьбы — жену/мужа вводят в семью посредством модификации ДНК (например, как уже в новостях писали — при помощи вируса можно ДНК поменять). И тогда уже вопрос о безопасности обмена ДНК с партнером — отпадает :)

P.S.: ладно, со скафандром некрасиво получается, пусть будут наноботы, которые ДНК повреждать будут в отрыве от носителя
Лучше уничтожать. Плюнул — взрыв, чихнул — взрыв… Газы — ну, вы поняли…
В какой-то книжке это было.
UFO just landed and posted this here
Главное случайно не съесть лишнего. А то будешь в коме перерабатывать «2.2ПБ» книжек :)
Да уж, сразу вспомнил Час волка- Валтер Ион Виллиамс
Если убрать одну букву, то еще и хаотичность одноцепочечных структур уменьшается. Изящное решение.
Вассерман уже давно скачал весь интернет себе. А что не поместилось, по кармашкам распихал.
Точность считывания в 100% уменьшает скорость эволюции, поэтому природа «выбрала» более плотную упаковку, но не со 100% точностью считывания, что повышает шансы появления удачных мутаций.
А зачем тогда мы хотим 100% гарантии, зачем придумываем всякие контроль четности и коррекцию ошибок? Может пущай себе мутируют данные… Глядишь процент дохода в банке будет не 8%, а 12%…
Вот когда ваш пароль мутирует в какой-нибудь мат, тогда и поговорим.
Точность копирования ДНК у бактерий 1/10^6, у людей 1/10^9. Есть уйма механизмов, которые повышают точность от базовой точности молекулярной машины в 1/10^3. Технические же средства позволяют повысить точность еще на порядки.
ДНК позволяет хранить информацию тысячелетиями, первые коммерческие носители будут продаваться с гарантией до 50-ти лет

Только маркетологи как всегда забыли упомянуть, что к архинадёжной и супердолговечной ДНК будут прилагаться тухлый контроллер чтения-записи, криво распаянная интерфейсная обвязка и плохонький, на соплях, разъём (всё традиционно-китайское). В итоге оно с вероятностью не менее 20% будет дохнуть в первый же месяц работы, и хорошо ещё, если просто издохнет, а то ведь может захватить с собой само ДНК-хранилище.
Не секрет же, что в HDD обычно выходят из строя отнюдь не блины, да и SSD мрут вовсе не из-за деградации ячеек памяти.
Так а что случится, если вот эта ДНК со сканом плейбоя вырвется на свободу и начнет жить своей жизнью — обрастать белками, протеинами итд? А потом еще и делиться начнет.
Не начнет. Начать хотя бы с того, что не всякому триплету нуклеотидов соответствует тРНК, способная доставить соответствующую аминокислоту к формируемой полипептидной цепи.

Иными словами, ничего жизнеспособного на такой молекуле ДНК не вырастет.

П.С. протеины = белки, только «протеины» с иностранным корнем (если только не углубляться в биохимию, где различают протеиНы и протеиДы)
Ну хорошо, именно на этой пусть не вырастет. Но когда технология пойдет в массы, вероятность такого события сильно возрястет. Нет? Ну как миллиарды обезьян и Шекспир.
Нет, не возрастет. Процесс биосинтеза белка останавливается, как только рибосоме попадается триплет, которому нет в организме соответствующей аминокислоты и соответствующей тРНК. Причем вариантов триплетов намного больше, чем аминокислот и вероятность сорвать синтез очень велика. Кроме того, биосинтез идет не прямо по ДНК, а через иРНК, на которые в процессе транскрипции переписывается фрагмент ДНК. Чтобы этот процесс произошел, на ДНК помимо информационных триплет должны быть еще и куча служебных, иначе даже иРНК правильно не снимется. Кроме того, чтобы процесс транскрипции, а тем более трансляции прошел, необходимы очень специальные условия и наличие в среде реакции (в живых организмах это цитоплазма клетки) СОТЕН веществ в нужных концентрациях. Такое искусственно даже при очень-очень большом желании трудно создать, а уж говорить о вероятности того, что это получится случайно…
Краткий перечень требуемых веществ:
1) Фермент РНК-полимераза для транскрипции (переписывания из ДНК на иРНК)
2) Наличие рибосом (комплексов из 4 белковых молекул, которые «прочитывая» иРНК формируют полипептидную цепь.
3) Наличие в растворе аминокислот (20 видов)
4) Наличие в растворе тРНК (еще 20 видов)
5) Плюс нужный pH среды, наличие ионов, белков и прочего, чего я точно не знаю, но помню, что без них тоже не получится.

Если вам интересна эта тема, то в школьном курсе биологии (классе в 10-11) рассматривается вопрос биосинтеза белка. Хоть он там рассматривается и очень упрощенно (как отмечают биологи и врачи), его будет достаточно, чтобы отсеять некоторые опасения.
>триплет, которому нет в организме соответствующей аминокислоты и соответствующей тРНК

Таких триплетов всего 3. Называются стоп-кодоны.

>Причем вариантов триплетов намного больше, чем аминокислот и вероятность сорвать синтез очень велика.

Каждой аминокислоте соответствует от одного до шести разных триплетов. Гуглите «вырожденность генетического кода».
Жаль. В школьном курсе биологии этого нет :(
Конкретно это есть именно в школьном :) По крайней мере, 15 лет назад было.
Блин, что ж у меня так плохо биологию рассказывали :(
Рибосомы — это не комплексы из 4 белковых молекул, а комплекс из двух сложных молекул РНК (рибозимы) и множества белковых молекул меньшего размера, прицепленных к этим РНК.
Пишут, что 4. Но действительно, не белка, а рРНК. Ваша правда.
Да, но вы сейчас описываете синтез белка в высших организмах. Начиналось-то все гораздо проще — короткие последовательности, водная среда… да и все вобщем-то.
Водная среда и была исходным материалом. Органика — это по сути три столпа: углерод, кислород и водород. Всего этого там было предостаточно, ну и плюс высокая температура конечно же, чтобы все булькало, соединялось и распадалось.
Не-а. Первые органические вещества, согласно современным теориям, образовались ранее, чем живые организмы, соответственно и не живыми организмами. А образовались они просто за счет химических реакций, происходивших в тех условиях: температуры, давления, электрические разряды и т.д.
Простите, если говорю глупость, не специалист, но вот такой вопрос: вот возьмём мы, запишем свою информацию в молекулу ДНК, получим, в результате, совершенно необычную для природы комбинацию нуклеотидов, а нет ли вероятности, что эта молекула будет случайно подхвачена какой-нибудь бактерией/вирусом, использована по прямому назначению и из неё вырастет совершенно необычная клетка?
Если мы свинтим в случайном порядке кучу разных деталей от самолетов/вертолетов, то какова вероятность, что собранный нами аппарат полетит? Даже если такая ДНК попадет в клетку и начнет участвовать в транскрипции и синтезе белков, вряд ли получится что-то жизнеспособное.
Вероятность примерно такова же, как вероятность того, что при генерации QR-кода получится неприличное слово или изображение.
Сразу вспомнился фантастический фильм Джони Мнемоник
Разве там на ДНК что-то записывали? Там же вроде бы в нервной системе хранили.
Ага, что-то вроде того. Но навеяло же. С большим интересом смотрю в будущее.
Посмотрите фильм Гаттака
Разве это проблема? Для радиосигналов тоже нежелательно чтобы повторялись одинаковые биты, и придумана куча методов кодирования.
Да, регулярно сталкиваюсь с такой штукой как скремблирование\дескремблирование (scrambling\descrambling) — битовая маска, которая накладывается XOR'ом на сигнал, чтобы у него не было больших последовательностей одинаковых бит. Начало такое, если не ошибаюсь: 0xFF, 0x48, 0x0E, 0xC0, и как-то дальше. Если интересно, могу поискать ссылку на источник.
Ух, какие молодцы. Разработки в этой области если и не приведут к созданию накопителей, которые заменят традиционные, но сильно повлияют на генную инженерию и генную терапию, которая принесет лекарство от рака, коровьего бешенства, СПИДа… И тысячи других болезней, о которых знают только генетики.
Граждане, видимо, не в курсе про NRZ-кодирование
Преждевременная оптимизация — зло :)
Вот переведут код linux в ДНК и добрый пингвинчик оживет, а переведут windows и мир познает рождение монстра.
Отличная, кстати, идея… может, комикс нарисовать?
Sign up to leave a comment.

Articles