16 March

Анализ Генетического кода II

Information SecurityCryptographyMathematicsBiotechnologies

Иллюстрация melmagazine.com (Source)

В настоящее время для информационного обмена широко используются сети общего доступа с каналами, не защищенными от нарушителя. Как организуется защита можно прочитать здесь.

В сообщении отправителем защищается целостность, конфиденциальность, доступность сообщения для чего используются результаты теорий кодология, криптология, стеганология.

В предлагаемой работе продолжим рассмотрение только одного частного вопроса — анализа кодов сообщений.

К исследованию и использованию генетического кода (ГК) в связи с развитием нанотехнологий наблюдается всплеск интереса. Но ограничения модели ГК устраивают далеко не всех исследователей, а те кого устраивают проявляют все таки неудовлетворенность по определенным частностям.

Дело в том, что существующая модель ГК не позволяет объяснять множество явлений и экспериментально установленных фактов. Впрочем, это не удивительно, а скорее всего, закономерно. Область относительно, новая и достаточно сложная, а время с момента ее открытия прошло сравнительно мало, число людей, посвятивших ей свое время тоже весьма ограничено. Усилия отдельных исследователей направлены на совершенствование модели ГК. Для этой цели привлекаются свойства протеиногенных аминокислот (см. таблицу 1). Современная рациональная классификация аминокислот основана на полярности радикалов (R-групп), т. е. способности их к взаимодействию с водой при физиологических значениях рН (близких к рН = 7,0).

Таблица 1 — Свойства протеиногенных аминокислот


Скорректированное описание генетического кода


Знакомство с описаниями ГК в самых разных источниках оставляет ощущение сумбура в текстах, определениях и рассуждениях. Если в живом организме наукой установлена и функционирует система передачи информации, а именно так трактует молекулярная биология заслуги исследователей-первопроходцев, то хорошо было бы для ясности картины установить аналогию этой системы подобным системам в технике.

Читатели и авторы-последователи, по-видимому, не дают себе труда задуматься над содержанием материала, опубликованного другими авторами. В этом сказывается проявление инерции человеческого мышления и влияние давления имен авторитетов на сознание.

Нет ясного и прозрачного описания ни отдельных понятий, ни самого кода. Приведем краткие схематические описания подобной системы в технике и в живом организме.

Определение. Системой кодирования называется подсистема системы информационного обмена сообщениями абонентов (отправителя и получателя), включающая кодер с функцией преобразования информационных слов (фрагментов сообщения) в кодовые слова и декодер с функцией преобразования кодовых слов в исходное сообщение.
Определение. Кодом называется подсистема системы кодирования, включающая пару взаимно обратимых преобразований: прямого и обратного. Прямое преобразование сопоставляет информационным словам (фрагментам сообщения) кодовые слова с избыточностью, организованной специальным образом разработчиком кода, используемой для обнаружения декодером ошибок в кодовых словах и их исправления. Обратное преобразование сопоставляет правильным кодовым словам информационные слова, т. е. восстанавливает исходный текст сообщения. Важным свойством кода является возможность кодировать неограниченное количество информационных слов в конечное (ограниченное) множество кодовых слов.

Ниже в тексте приводятся несколько упрощенные схемы передачи информации в технике с использованием системы кодирования и в живых организмах, использующих систему кодирования, созданную самой природой. При этом названы все обязательные элементы систем и процесса их функционирования.

В общей схеме информационного обмена абонентов в системе связи, использующей блоковые коды, можно выделить следующие понятия и соответствующие им элементы системы связи:

  • Источник сообщений (информации) – тексты, архивные документы, изображения аудио, видео и пр.
  • Отправитель сообщения, представленного в некотором алфавите;
  • Сообщение – множество оцифрованных информационных слов;
  • Кодер – устройство или компьютерная программа, реализующие преобразование сообщения отправителя в кодовые слова;
  • Кодовые слова, представляющие сообщение в другом алфавите принимающей стороны;
  • Канал транспортировки сообщения, один из источников искажений кодовых слов;
  • Декодер, устройство или компьютерная программа, обнаруживающие в кодовых словах ошибки, устраняющие их и реализующие преобразование кодовых слов в сообщение;
  • Получатель сообщения, способный к восприятию его информационного смысла;
  • Пользователь информации (семантики) сообщений.

Часть элементов системы могут быть объединены в одном с теми же или измененными функциями. Алфавит может быть единым (двоичным) на передающей и приемной сторонах, источник и отправитель сообщения также, как получатель и пользователь, могут быть одним лицом, функции декодера могут ограничиваться обнаружением ошибок без их исправления, но с удалением искаженных кодовых слов и др.

Что следует из существующего описания генетического кода и функционирования живого организма?

Рассматривается клетка, в ядре которой набор хромосом, представленных ДНК-молекулами, записанными в форме последовательности генов, разделяемых «запятыми». Каждый ген образован 3-х буквенными кодонами (триплетами) в 4-х буквенном алфавите.

Между кодонами (триплетами) в пределах гена разделителей (запятых) нет, триплеты (кодоны, слова) пишутся сплошным не разветвляемым потоком. Хромосомы в целом и отдельные гены имеют информационную нагрузку, называемую наследственной информацией, которая передается клеткам нового поколения в результате процесса деления родительских клеток.

Семантическая, информационная начинка генов, наследуемая от родителей,- это физические признаки организма (индивида) определенного вида записаны не в явном виде. Передача признаков (например, цвет волос) многоступенчатая: триплет-аминокислота-фермент-белок-орган или ткань организма. Эти признаки записаны не явно, а косвенно, через синтезируемые белки. Белки, аминокислоты, триплеты, участвующие в синтезе, для блондинов и брюнетов разные. Белки для блондинов (родители блондины) будут использованы в разных тканях и органах, обеспечивая потомкам появление наследуемых признаков и цвет волос.

Допускается, что те наборы ферментов, которые синтезируются в клетке и обеспечивают дальнейшее формирование всего разнообразия белков, необходимых для роста и развития организма, гарантируют возникновение того генотипа, который определен наследственностью. Полный список кодонов (триплетов) ограничен числом 43 = 64, но состав и порядок следования таких кодонов, формирующих ген, оказывается очень большим. Каждая аминокислота (фермент, белок) требует для ее синтеза отдельный набор кодонов или ген.

Все белки конкретного организма уникальны. Чужеродный белок, попавший в организм или искаженный белок своего организма, принятый за чужой, организмом отторгается. Этим занимается иммунная система. Именно эта система проверяет правильность кодирования белка с использованием генома. Другими словами, роль кодовых слов играют синтезируемые в организме белки, а в роли декодера выступает иммунная система.

Получателем сообщения, обработанного декодером, следует считать органы и ткани живого организма, использующие для роста и жизнедеятельности специфические белки. Пользователь сообщения – сам организм.

Можно предположить, что исходная хромосома и гены изначально возникли от требуемого признака, формируемого перечнем белков, и через белки от аминокислот, образовавших нужный перечень белков, и, наконец, от кодонов, синтезирующих эти аминокислоты. Так могла быть изначально записана информация о признаке организма в гены и хромосомы, которая хранится в них, передается при делении клеток новым поколениям клеток и организмов. Желательный для организма признак закреплялся и сохранялся многие, многие поколения. Хотя сказанное здесь противоречит центральной догме молекулярной биологии, но перечисленную цепочку мысленно можно прослеживать в обоих направлениях.

Итак, к чему мы приходим при сопоставлении двух (живой и технической) систем передачи информации:

  • Источник сообщений (информации) – клетка и в ней ДНК источник и носитель.
  • Отправитель сообщения, представленного в некотором алфавите – клетка, ее ядро;
  • Сообщение – множество триплетов (кодонов) ДНК, копии которых перемещаются в клетке;
  • Кодер, механизм репликации и синтеза иРНК, тРНК, рРНК, движение «рамки считывания» и синтез аминокислот;
  • Кодовые слова, аминокислоты — белки;
  • Канал системы связи, транспортные системы — пассивный и активный мембранный транспорт, система кровообращения, лимфатическая система;
  • Декодер – иммунная система организма, которая распознает ошибочные кодовые слова и удаляет их путем разрушения;
  • Получатель сообщения, способный к восприятию его информационного смысла, – органы и ткани организма;
  • Пользователь информации (семантики) сообщений – сам организм, обладающий признаком.

Иммунная система (в популярном изложении)


Определение. Организм представляет собой сложную целостную систему, «внутренние силы которой каждый момент, покуда она существует как таковая, уравновешиваются с внешними силами окружающей среды» Павлов И. П.

«Общая система явлений, благодаря которым организм может выдержать нападение болезнетворных микробов» Мечников И.И.
Определение. Иммунитет – способность организма идентифицировать, нейтрализовать и удалять чуждые структуры с целью сохранения собственной целостности. Эту способность организма обеспечивает иммунная система, образованная клетками лимфы и макрофагов.

Различают клеточный иммунитет, а вместе с белковыми продуктами собственной активности (гуморальный иммунитет). Система действует как единое целое. Она включает примерно 1012 лимфоцитов и 1020 молекул иммоглобулинов, с задачей идентификации антигенов.

Антигенами (Аг) называют молекулы и клетки от животных того же вида (аллогенные), другого вида (экзогенные), а также искусственные или синтетические. Аллогенные антигены, произведенные самим организмом, но затем модифицированные, называют аутологическими.

После идентификации антигена иммунная система нейтрализует его и удаляет с помощью специальных Т-клеток или с помощью антител (Ат), которые производятся В-клетками. Такие же функции выполняют гуморальные факторы, называемые комплементом и пропердиновой системой. Фагоцитоз и внутриклеточное разрушение Аг выполняют макрофаги.

Все названные компоненты иммунной системы образуют иммунологическую сеть организма.
Такая сеть иногда обладает гиперчувствительностью, а иногда иммуннотолерантностью или иммуннодефицитностью, что является нарушением нормы.

В первом случае имеет место избыточная иммунная реакция, а во втором проявляется отсутствием селективной иммунной реакции. Наиболее тяжелый случай, когда аллогенные антигены превращаются в аутологические и иммунная система организма начинает работать против себя. На этом сопоставление систем завершим.

Другой подход к разработке ГК состоит в представлении его элементов алгебраическими (поле Галуа) и пространственными структурами (см. работы). По имеющимся описаниям ГК список его слов содержит 64 триплета, каждый из них можно сопоставить вершине единичного куба.

На рисунке 2 представлен такой единичный шестимерный куб с 26 = 64 вершинами по Яблонскому.

Генетический код (продолжение)

В нашем трехмерном (n = 3) мире в живой и неживой природе существуют удивительные явления, называемые самоорганизацией и самосборкой элементов, например, в неживой природе зарождение и рост кристаллов. В этом явлении проявляется действие кристаллографических законов природы. Человек со временем открыл эти законы, объяснил их и поставил себе на службу. В 1848 г Огюст Браве геометрически вывел 14 видов пространственных (трансляционных) решеток, образованных одинаковыми по форме ячейками.

В 1890 г Е. С. Федоров установил существование 17 плоских и 230 пространственных алгебраических кристаллографических групп. Этим открытием ученого определяются, в частности, возможности и ограничения природы строить кристаллы. Свойство быть кристаллом для веществ достаточно редкое. Большинство веществ даже в растворах предпочитают оставаться (аморфными) в неупорядоченной форме эмульсиями, суспензиями или коллоидами и не кристаллизуются.

С позиций математики кристаллографические решетки реализуют простые и сложные виды симметрий. Картины Эшера иллюстрируют многие из них. Кристаллы в пространствах двух и трех измерений не имеют 5-лучевой симметрии вращения – это кристаллографическое ограничение нашего мира с 3-х мерной геометрией. В 4-х-мерном мире это ограничение снимается. Среди существующего многообразия возможностей математика выделила и более узкий класс симметрий – правильные многоугольники на плоскости и правильные многогранники в n-мерном пространстве Розенфельд Б. Карасев В..

Таблица 2 – Правильные многогранники и их характеристики (случай n = 3)

р* — количество вершин в грани; q* – количество граней, примыкающих к вершине.

Таблица 3 – Правильные многогранники и их характеристики (случай n = 4)


В каждой вершине многогранника сходятся q одинаковых р – угольников.
Значения (р, q, r) для правильного 4-многогранника определяются целочисленными решениями неравенства sin(π/p) · sin(π/r) > cos(π/q). Таких целочисленных решений существует только 6, все они вписаны в таблицу 3.

Математика, как обычно, предоставляет намного больше возможностей, чем их может реализовать природа или человек. Хотя возможно, что наше знание природы весьма ограничено. Известен случай наследственного рефлексивного поведения пчел, когда они выстраивают гексогональные хранилища для своих запасов меда.

Из анализа ГК и учета дополнительных свойств элементов кода из пространственной модели размещения его элементов следует, что такие элементы располагаются с учетом различных пространственных симметрий молекул аминокислот.

Как связан 20-вершинный додекаэдр (математически) с генетикой живых организмов до конца не ясно. Но 5-угольные грани додекаэдра и результат кристаллографических ограничений природы проявляется в отсутствии поворотной симметрии пятерок аминокислот в вершинах граней.

Среди 5-ти возможных правильных 3-многогранников для моделирования природой был выбран не самый простой, но отвечающий количественному требованию синтезируемых клеточных ферментов (20). Столько вершин имеет додекаэдр. Существующие 20 аминокислот (клеточных ферментов) могут быть сопоставлены вершинам додекаэдра, в определенном порядке. Действительно, оказалось возможным разместить 20 аминокислот в пространстве (n = 3) так, чтобы их координаты соответствовали вершинам додекаэдра, а определенные свойства многогранника отражали бы симметрические зависимости аминокислот.



На рисунке обозначены I – плоскость инверсной антисимметрии; II – плоскость, разделяющая «антиподы». Пересечение плоскостей – одна из осей вращения додекаэдра.

Буквами А и В с индексами (верхними и нижними) и знаками (±) обозначены аминокислоты, обладающие определенными свойствами (табл.1). Так в левой части рисунка 1 все элементы выше горизонтальной плоскости, проходящей через центр многогранника, помечены знаком ⊕, а ниже горизонтали – знаком ⊖, характеризующие полярность аминокислот.

В 1968 г. Румер Ю. Б. предложил и привел матричное и графовое описание конформаций (табл. 4).

Таблица 4- Конформации (64) 4-х звенного графа и их описания (по Румеру)


Расположение элементов и графов в таблице таково, что соседние элементы в блоке отличаются друг от друга только на одно значение (1 бит информации). Таким образом это напоминает код Грея.

Модель топологического кодирования цепных полимеров. Автор выделяет три составные части модели: топологический код; алгоритм кодирования цепи; система физических операторов, воссоздающих закодированную структуру. В модели используются преобразования Румера [7].

Например, триплеты ААС, ААU — Asn; AAG, AAA — Lys слева преобразуются в правые путем замены оснований С — А; G — U.

Таблица 5 — Трансформация матрицы конформаций в триплетный ГК (по Карасев В. Лучинин В.)

В матрице [3×3] графа ребро связности соединяет вершины с номерами i и i-4 и ему соответствует значение 1.

По имеющимся описаниям ГК список его кодонов содержит 64 триплета, каждый из них можно сопоставить вершине единичного куба. На рисунке 2 представлен единичный шестимерный куб с 26= 64 вершинами.

С другой стороны, 64-м триплетам может быть поставлено в соответствие расширенное поле Галуа GF (26), образованное 64 элементами и единичный гиперкуб (n=6) с таким же числом вершин.



Рисунок 2 — Единичный куб ([11] по Яблонскому С.В.) с размеченными вершинами ([4,7] по Карасеву, Румеру) элементами ГК

Поскольку число вершин и триплетов совпадает, то между ними можно установить взаимно однозначное отношение — биекцию, которая представима перестановкой элементов. Аминокислоты ГК по одной приписываются каждой вершине единичного куба.


Рисунок 3 — Части гиперкуба

Топологический код. Исходным объектом выбран 4-звенный фрагмент цепного полимера (4а), который преобразован в цепной граф (4б). Ребра графа (kc) — связи полимера инцидентны вершинам (i, i-1, i-2, ...,i-4) концевым точкам звеньев.

Вершины графа х1, х2, ..., х6 — переменные, принимающие значения 0 или 1.


Рисунок 4 — Четырехзвенный фрагмент цепного полимера (а), его граф (б) и матрица графа (в)

Таблицы поля Галуа. Это таблица сложения и таблица умножения поля, сюда включают также таблицу элементов поля Галуа, в которой приведены различные представления элементов и некоторые характеристики элементов;

Левая колонка таблицы элементов – степени примитивного элемента (000010) поля. Эти степени пробегают все элементы поля. Следующие колонки: представление элементов поля многочленом, двоичным вектором, десятичным числом, порядок элемента поля, мультипликативный обратный вектор, степень обратного многочлена, обратный в десятичном представлении, вес кодового слова.

Стеганография и информационная защита [1, 2, 12, 13, 14]


Известно, что ДНК сформирована последовательностью генов, среди которых имеются называемые экзонами и интронами. Экзоны кодируют белок, инициируют его синтез, а интроны ничего не кодируют. Их даже назвали «молчащими» генами. Специальными ферментами интроны удаляются из ДНК перед тем, как начнется синтез белка.

Например, у человека в геноме почти девяносто процентов интроны. Для стеганографических приложений именно интроны представляют интерес. Кроме того, свойство вырожденности ГК позволяет не только генерировать искусственные ДНК-контейнеры, но и модифицировать природные.

ДНК-контейнеры после встраивания в них сообщений должны попадать к получателю сообщения. Это можно осуществлять многими способами. Например, внедрить в геном организма, которому принадлежит модель используемой молекулы ДНК. Обычные вирусы демонстрируют нам успешный механизм распространения ДНК.
Определение. Стеганография — наука о способах встраивания/извлечения, передачи (хранения) скрытой информации, при которых скрытый канал организуется на базе и в пределах открытого канала с использованием особенностей восприятия информации, причем для этой цели могут использоваться такие приемы как:

  • полное сокрытие факта существования скрытого канала связи,
  • создание трудностей для обнаружения, извлечения или модификации передаваемых скрытых сообщений внутри открытых сообщений-контейнеров,
  • маскировки скрытой информации в протоколе.

Общая концепция стеганографии — создание скрытого канала передачи информации между отправителем (А) и получателем (Б). При этом в одно сообщение, называемое контейнером или покрывающим сообщением, из огромного потока сообщений в сетях, которое послано абонентом А ≠ А абоненту Б ≠ Б скрытно (в тайне от А и Б) закладывается (встраивается абонентом А) другое сообщение меньшего объема (про патент можно почитать тут).

Рассматриваются разные условия и возможности для обозначенных неравенств. Либо первая пара, либо вторая пара могут быть одним лицом, либо для обеих пар абонентов выполняется равенство, хотя последнее нежелательно.

Еще в 50-х годах прошлого века Ричардом Фейнманом было выполнено теоретическое обоснование возможности использования молекул ДНК для организации вычислений.
Определение. Стеганографическим алгоритмом называют пару взаимно обратимых преобразований: прямое F: M×B×K→ B и обратное F-1:B × K → M, сопоставляющие соответственно тройке (M — сообщение, пB — пустой контейнер, K — ключ) контейнер-результат и паре (зB — заполненный контейнер, K — ключ) — исходное сообщение M, причем F (m,b,k) = bm,k;
F-1(bm,k,k) = m, где m ∊ M; b,bm,k ∊ B; k∊ K.

Стеганографической системой (СГС) называют систему S = (M, B, K, F, F-1), образованную множествами сообщений, контейнеров, ключей и связывающих их преобразований.

Внедрением (сокрытием)/извлечением сообщения посредством СГС называют результат действия прямого/обратного стеганографического преобразования с соответствующими значениями аргументов.
Определение. Секвенированием называют определение последовательности нуклеотидов во фрагменте ДНК.

Наличие и развитие вычислительной техники, микробиологических технологий обеспечили возможность говорить и практически использовать структурные элементы живых клеток (ДНК, РНК и др.) в качестве стеганографических контейнеров [3,4]. Свойства этих элементов хранить огромные объемы информации и иметь микроскопические размеры привлекают внимание специалистов, несмотря на то, что работа с ними требует высокой профессиональной подготовки и привлечение специализированного дорогостоящего оборудования

Список использованной литературы:
1. Аграновский А.В. и др. Основы компьютерной стеганографии. — М.: Радио и связь, 2003. 152 с.
2. Грибунин В. Г. и др. Цифровая стеганография. – М.: СОЛОН-Пресс, 2002. – 272 с.
3. Евдокимов А. А., Левин А. А. Графические модели и комбинаторика генетических и математических символьных последовательностей // Вычислительные технологии. 2002. Т. 7. С. 274 — 278.
4. Карасев В.А. Об антисимметриях канонического набора аминокислот/ Депонировано ВИНИТИ 23.03.2004, №470-В2004.
5. Розенфельд Б. А. Многомерные пространства. – М.: Наука, 1966. – 648 с.
6. Петров Р. Беседы о новой иммунологии. – М.: Молодая гвардия,1976. – 224с.
7. Румер Ю. Б. Систематизация кодонов в ГК //ДАН СССР. 1968. Т. 183. С.225-226
8. Франк – Каменецкий. Самая главная молекула. – М.: Наука,
9. Уотермен М. С. Математические методы для анализа последовательностей ДНК: Сборник статей. – М.: Мир, 1999. – 352 с.
10. Шигорин Д. Н. Водородная связь в системах с пи-электронами. В кн. Водородная связь / под ред. Н. Д. Соколова и В. М. Чулановского. М.: Наука, 1964. С. 195 – 219.
11. Яблонский С. ведение в дискретную математику.– М.: Наука, 1979.–272 с.
12. Bancroft F. C. Clelland C. DNA-based steganography. United States Patent №6.312.911. November 06,2001.US Patent & Trademark Office.
13. Bancroft F. C. Clelland C. DNA-based steganography. WO0068431. November 16,2000. World Intelltctual Property Organization.
14. Pfitzmann B. Information Hiding Terminologiy, Information Hiding //First International Workshoh. Vol. 1174 of Lecture Notes in Computer Science, Isaac Newton Institute, Cambrige, England, May 1996.- Berlin: Springer-Verlag/pp 347-350.
Tags:ДНКРНКкодон
Hubs: Information Security Cryptography Mathematics Biotechnologies
+5
2.1k 29
Comments 17
Infrastructure Security Engineer
from 3,000 €ExnessМоскваRemote job
Application Security Engineer
from 3,300 €ExnessRemote job
Java API Developer
from 3,300 to 5,000 $AWWCOR Inc.Remote job
Top of the last 24 hours