Comments 29
Чтобы определить шпиёна, поочередно накладываем «объявившуюся копию» на копию каждого получателя документа. У кого процент совпадения пикселей больше, тот и шпиён.
Хорошо, "шпиёна" нашли. Но информация уже ушла!!!
1.«Шпиен» обезврежен, следующая порция не утечет.
2.«Шпиену» целенаправленно стали подсовывать фейки
Но ведь документ можно прогнать через OCR, получив тем самым чистый текст.
И не предоставив пруфов, что это оригинальный документ. В конце концов, его можно перепечатать заново, но автор об этом упомянул в статье, как и том, что такие перепечатки, не обладающие пруфами оригинальности являются, по сути, не более чем слухами
Очень спорный момент. Оригинал пруфа нужен только в суде, а распространяться может и OCR копия с прифотошопленной печатью и подписью, сам факт наличия такого документа опровергнуть не получится, т.к. он существует.
Почему не получится?
OCR + печать с подписью — это фактически просто какой-то текст + взятые с какого-то документа печать с подписью. С точки зрения возможности что-то доказать — не более чем передать содержимое документа на словах, приведя доказательства существования автора подписи и организации, которой принадлежит печать.
Более того, во многих случаях удается доказать "фотошоп", что автоматически делает распространяемый экземпляр фейком со всеми последствиями для распространителей.
Опять же, наличие документа как такового и некоторой строки в этом документе — очень разные события (например, должностная инструкция — вполне легальный документ, но в нее можно нечто вписать или не вписать).
Чтобы слив имел ценность, он должен содержать данные для проверки подлинности сливаемой информации – печати, подписи и т.д.
Скажите, а Вы на левый документ печати-подписи в фотошопе никогда не накладывали? Правда-правда?
Любой документ можно скопировать путем его банальной перепечатки
И никакое маркирование не поможет
Кликбейт, хабр не торт
Индия интересная, однако не хватает технической информации и проверки на прочность. К примеру, для шифрования есть стандарты, которые перед принятием проходят всесторонний математический анализ на стойкость.
Если разбить фото документа на мелкие прямоугольники, а затем внести небольшие случайные геометрические искажения и применить цифровые фильтры. Будет ли в этом случае ваша система определять источник утечки?
Если разбить фото документа на мелкие прямоугольники, а затем внести небольшие случайные геометрические искажения и применить цифровые фильтры. Будет ли в этом случае ваша система определять источник утечки?
Злоумышленник может применять такие техники, если знает о маркировке. Поскольку она незаметна, многие компании не оповещают своих сотрудников о ней.
В общем случае, внесение изменений, аналогичных маркировке, может уменьшить точность идентификации. Но злоумышленнику придётся стрелять из пушки по воробьям, поскольку техники маркировки могут отличаться — где-то были прорежены символы, где-то смещены строки или абзацы. Кроме того, есть методики, скажем, полузаметной маркировки. Например, преднамеренное внесение в копии документов ошибок, которые выглядят как опечатки.
Достаточно написать программу/приложение, которое будет вносить необходимые искажения, препятствующие идентификации маркировки. Если будет суровая необходимость, то можно реализовать и поиск такой маркировки и полное ее удаление, да даже с помощью тех же нейронок.
Как можно отличить преднамеренную опечатку от случайной? Разве что выправить орфографию, пунктуацию и грамматику по всему документу. Если такой сервис будет разработан, с удовольствием буду им пользоваться и рекомендовать знакомым, чтобы не вычитывать чужие писания.
Определить наличие маркировки по одной копии нельзя, поэтому как и на чём учить нейронку — вопрос открытый. Разве что реализовать аналогичную систему. Целесообразность такой "защиты" с учётом необходимой трудоёмкости сомнительна.
Мешает стоимость утечки для злоумышленника. Если не рассматривать услуги "пробива" ПДн и номеров за 500 руб., то большинство серьёзных утечек должны стоить вменяемых денег, чтобы сотрудники на них пошли. Без наличия доказательств (печати, подписи и пр.) утечки стоят на порядок дешевле. С тем же успехом можно перепечатать текст конфиденциального документа по памяти или глядя на него.
Может, но зачем? Большинство школьников с липовыми записками от родителей вычисляют. То же будет с горе-подписантов в корпоративном мире. Итоговая картинка будет очередным фейком, от которого пострадает разве что репутация получателя, решившего им воспользоваться. Если же он решит его проверить и убедится, что ему продали фейк, он первым сдаст "слившего".
если же ценен текст документа, то его могут просто использовать никому не показывая
а обычно именно это должна предотвращать защита от копирования
тут скорее маркировка для определения источника утечки
Зависит от техник. Обычно шумы не сильно влияют на точность идентификации. Пример из жизни — пользователь сфотографировал свой экран, на котором открыта копия конфиденциального документа, и отправил её журналисту в WhatsApp. При этом многомегабайтный снимок был сжат до сотни килобайт. В дополнение при съёме экрана ПК на нём могут быть видны блики и рябь от мерцания экрана, которую мы не видим глазом. С такими искажениями маркировка справляется на "ура".
Защита документов от копирования