Pull to refresh

Comments 247

логи интернета? а как насчет хранения полного трафика интернета?
я выкачиваю несколько Tb в месяц — извольте хранить.
Фигня. Дедупликация.
Дуры нужны здоровые, но они есть, и стоимость подъёмная. Увеличивайте мой расчёт в три раза — будет копия рунета на 2 года со всем контентом.
Вы так говорите, будто дедупликация на таких огромных объёмах сильно неоднородного, а в самых жирных местах ещё и шифрованного, трафика — это какая-то плёвая задачка, которую вывезет любой попавшийся под руку сервер, и софт под это всё есть уже готовый.
Я говорю ровно то, что говорю — задачка решаема.

А вы так говорите, будто наоборот.
Подскажите ка мне уважаемый оборудование которое в режиме реального времени будет разбирать 10 Гигабит/сек. трафика на картинки, сообщения и видео, а всё остальное отбрасывать. Ну бог с ним кэшируем, опять задачка, стоимость такого кеш массива… Ваша статья на уровне у меня дома сервер и я всё логирую без проблем, а глупые провайдеры не могут. Вот только все ваши доводы разбиваются об показатели PPS на аплинке оператора. Не существует оборудования соразмерного по затратам на приобретение и обслуживание, с текущими скоростями аплинков, которое может в режиме реального времени хранить а уж тем более фильтровать что хранить. Да есть гибридные системы размером с полноценную стойку, с расчетом на 1 Гигабит/с, но их нужно закупить, запитать и охладить. Тоесть если сейчас утрированно ЦУС это одна стойка на 1 Гигабит/с. то будет 5 стоек. вот откуда и повышение стоимости в 4-5 раз и это только для крупняка, мелкие операторы, повесят амбарные замки и свалят с рынка. Велком то 2000-ые.
чито? при чем тут рунет?
во первых, сделать зеркало интернета на миллиарды страниц — это задача крайне сложная, и тут не только hdd понадобятся, но и крутое железо с кучей памяти. добавлять новое, проверять на уникальность — геморой страшный.
во вторых, сайты будут не копиями — залогинился где-нибудь, всё, новый контент — нужно хранить всю копию. ротация банеров? — хранить все. js подгружаемая каруселька — хранить. diff делать не получится.
я как раз профессионально занимаюсь web crawling'ом и скажу, что нужно будет дохренища ресурсов для любой дедупликации в таких маштабах. проще хранить всё.
UFO just landed and posted this here
<sarcasm>отличный повод запретить шифрование же!&lt/sarcasm>
дык в 149-фз в статью 10.1 уже добавили пункт 4.1:
4.1. Организатор распространения информации в сети «Интернет» обязан при использовании для приема, передачи, доставки и (или) обработки электронных сообщений пользователей сети «Интернет» дополнительного кодирования электронных сообщений и (или) при предоставлении пользователям сети «Интернет» возможности дополнительного кодирования электронных сообщений представлять в федеральный орган исполнительной власти в области обеспечения безопасности информацию, необходимую для декодирования принимаемых, передаваемых, доставляемых и (или) обрабатываемых электронных сообщений.

Так что нет смысла запрещать шифрование, раз уж «органы» могут запросить мастер-ключи.
Если не передёргивать, а просто ещё раз прочитать текст моей заметки, то — дедупликация аттачей в почте там, где она вскрыта. То есть, на русских публичных мейл-операторах.

Уверен — аудитория вконтакте примерно равна аудитории почтовых сервисов рунета. А это 50+ млн. человек. Значит, остальных ловить сложнее — их ящики вне страны, но уже три года как и их ящики страна просит размещать на своей территории. Понятно, зачем.
Дедупликация аттачей? Вы серъёзно?! Как вы это себе представляете? На самом деле вложения являются составной частью тела письма. Для интереса можете в своём почтовом клиенте посмотреть исходное представление письма с вложением, чтобы убедиться в этом.
Аттачи-то ладно, можно спарсить.
Но бесконечные Re:RE:RE — каждый ответ — новый документ (HTML или RTF), который форматируется почтовым клиентом по своему усмотрению. Например, переписка между the bat и outlook может не иметь существенных общих частей, т.к. документ со всеми цитатами заново формируется из модели текста в редакторе почтового клиента.
Тут согласен.

Но опять же, плюс-минус весь мейл.ру внутри себя дедуплицируется, ямейл — так же и т.д., а это дисконт на объём раз в 50.

Остаётся интерконнекшен. Но и тут можно спокойно ставить отсечку — письма до 50 мб реально пересылаются, остальные — в виде линков на файлы в облаке.
В случае с мейл.ру и ямейл есть несколько маленьких «но»:
— хранить данные переписки — это их основная функция
— всё происходит целиком на их оборудовании
— данные не зашифрованы
— не меняются со временем

Если бы закон относился ТОЛЬКО к сервисам, тогда ещё можно понять, все эти функции у них и так есть. Но у провайдеров ни одной из этих функций изначально нет, да и объёмы больше на порядки. Следовательно, нет ни инфраструктуры, ни готового софта, ни опыта ни специалистов. И в короткое время в нужном объёме их взять тупо неоткуда.
нет ни инфраструктуры, ни готового софта, ни опыта ни специалистов. И в короткое время в нужном объёме их взять тупо неоткуда

Как и неоткуда взять триллион.

Вот и посмотрим, что будет. У поправок этого июля другая задача: создать прецедент юридической легитимности требования, чтобы сервис был. А вот как им распорядится Правительство — туманно.
Почему такой маленький объем? Думаю, Ваши расчеты нужно смело умножать на 5 (а аккуратно и на 10):
Вы просто посчитайте, сколько ГБ фото вы делаете в год (они наверняка в облаке). А прогресс дошагал и до 4к видео даже не на флагманах. И ведь тоже в облаке, да? Даже если СЕГОДНЯ нет, то условно ЗАВТРА уже все будут использовать облачные хранилища и делать контента на 10 ГБ в год.
И вы их сначала зальете шифрованными (опять же, сегодня еще не все, а завтра уже все будут с шифрованием), а потом скачаете (тоже шифрованными).
По сравнению с этим трафиком, хранение разговоров и переписки — капля в море. А это все нужно еще с бэкапами, по всем правилам.
А ведь именно среди фото и видео в случае чего будут искать детское порно и съемку секретных объектов (ну ведь борьба с педофелией и экстремизмом...). А еще, вы наверное решите поделиться частью этих фото с публикой vk/fb/tw/etc — там же https.
Итого имеем уникалный шифрованный контент, дедупликацию даже при всем желании за уши не притянуть, как я понимаю…
Вы просто посчитайте, сколько ГБ фото вы делаете в год (они наверняка в облаке). А прогресс дошагал и до 4к видео даже не на флагманах. И ведь тоже в облаке, да? Даже если СЕГОДНЯ нет, то условно ЗАВТРА уже все будут использовать облачные хранилища и делать контента на 10 ГБ в год.


Ок, мне не хочется искать этот известный мем в виде скриншота расчётов про пенсионные отчисления, где 140 млн. успешно структурированы до 1 млн. активных граждан, а остальные — иждивенцы разных мастей.

Просто напомню о нём для иллюстрации идеи: те, кто регулярно делает много фото, пользуется облаками за деньги (а не 25 гб в год даром), умеет это всё настраивать под себя, ценит 4k видео и заработал на телевизор ценой в 150+ килорублей, чтобы его с удовольствием посмотреть — их если 2-3% от численности населения наберётся, то хорошо.

Это пренебрежимо малое количество трафика. Но заметное с остальной «тишиной в эфире» от лишь потребляющих контент представителей большинства.
У меня обычный Samsung Galaxy S6. Средний размер фотографии 5 Mb. На заводских настройках, которые я менять и не думал. Из коробки включена автоматическая синхронизация фотографий и видео с облаком. Я фотаю немного, в основном по делу — пара-тройка фоток в неделю, а вот моя 19-летняя подружка постит в инстаграм по 10-20 фоток в день. И она в этом не уникальна. Кстати, хранить придётся как обработанную фотку, отправленную в инстаграм, так и необработанный исходник, загруженный в photos.google.com. Высока вероятность, что часть фоток она ещё кинет в WhatsApp маме, так как у мамы инстаграма нет. У WhatsApp'а шифрование, так что дедупликацию сразу же исключаем. Подытоживая, можно смело заявить, что одна девочка с современным мобильником может генерировать 200-300 мегабайт трафика в день.
копию Рунета запечатают в пакет Яровой и утопят в кооперативе Озеро
Копию рунета распечатают на туалетной бумаге и отправят почтой РФ Яровой на хранение.
Насколько я понимаю из текста закона, необходимо будет хранить весь траффик (не уверен что вы имели в виду под логами интернета). За неполных два дня роутер показывает 7 Гбайт трафика. Это просто серфинг в интернете, просмотр видео и т.д., то есть обычные будни.
Я вот понимаю, что не трафик, а логи.

Разубедите — пересчитаю, ерунда :)
Говориться непосредственно об информации, а не о факте доступа к информации.

Операторы связи обязаны хранить на территории Российской Федерации (...) текстовые сообщения пользователей услугами связи, голосовую информацию, изображения, звуки, видео-, иные сообщения пользователей услугами связи — до шести месяцев с момента окончания их приема, передачи, доставки и (или) обработки. Порядок, сроки и объем хранения указанной в настоящем подпункте информации устанавливаются Правительством Российской Федерации.
Ок.

Я вот это «изображения, звуки, видео-, иные сообщения пользователей услугами связи» читаю не как «скачал», а как «такой контент пользователь куда-то выдал».
А провайдерам можно опираться на ваши способы прочтения?
Выдайте же нам свой способ прочтение вышеприведённой цитаты о том, что «операторы обязаны хранить… сообщения пользователей».
А зачем спрашивать меня, раз я не авторитет и даже наоборот?

Вот, например, на слоне то же самое написали:

Интернет-провайдеры тоже будут обязаны хранить до полугода все сообщения, изображения, документы, аудио- и видеозаписи, которыми делятся друг с другом их абоненты.
А слон это кто? То, что там написано обязательно к исполнению на территории РФ? В суде имеет значение?
Или все-таки будут смотреть как написано в законе?
На торрентах все абоненты делятся друг с другом аудио и видеозаписями.
Ага. Только трекер знает: кто, с кем, и его адрес известен.
Вот когда полная анархия без трекера — тогда да, трафик подпадает под закон.
Учитывая блокировки торрентов, большинство россиян для торрентов пользуются разными прокси. И их адреса не так уж и известны. А закон обязывает хранить трафик.
Плюс локальные пиринговые сети, которые всегда есть.
А вот если, к этому проекту добавить ограничение на интернет, в частности:
• Запретить шифрование вообще (ну или разрешать только по спецразрешению получаемую у ФСБ, короче запретить);
• Запретить проксирование, тунели и прочее;
• Определить операторов сервисов, скажем заставить Дурова запустить сервис текстовых сообщений и заставить всех пользоваться только им, по почте запустить единый сервис и доверить его Почте России и опять же заставить пользоваться только им; и так далее в том же русле;
• и дальше все в таком же русле
и все получиться.
Думаю, сейчас только юридически легализовали эту тему.
Техническая реализация — дело будущего и «по усмотрению Правительства».

Основная проблема в том, что требуют хранить определенные виды трафика, но вот для провайдера выделить их из общей массы трафика (по большей части шифрованного) невозможно, поэтому нам придется хранить весь трафик.
На примере ютуба: если ключи будут переданы правительству и ютуб обяжется хранить и предоставлять информацию в владельцах загруженного контента, то провайдерам эти ключи никто передавать не будет, поэтому мы имея доступ к шифрованному трафику не сможем различить видео ли опубликовал пользователь или комментарий написал.


И еще на примере 152 закона, прошло несколько лет с момента его принятия, и до сих пор нет договоренности о сотрудничестве РКН с крупными порталами (ютуб, вк, ок, гитхаю, с3), поэтому до сих пор операторы вынуждены блокировать ссылки на своей стороне (а в случае шифрованного трафика, блокируем по IP).


ЗЫ Готовьтесь к возврату в начало 2000, когда трафик стоил по 5 рублей за мегабайт, к этому все идет.

И еще на примере 152 закона, прошло несколько лет с момента его принятия, и до сих пор нет договоренности о сотрудничестве РКН с крупными порталами

И не будет. Они ж американские, а мы с ними не дружили никогда, и особенно, теперь.
Готовьтесь к возврату в начало 2000, когда трафик стоил по 5 рублей за мегабайт, к этому все идет.

Я бы не омрачался раньше времени. Мне тут в офисе Билайна недавно продавец шепнул, что«Мегафон 5G разворачивать начал..», ну какие там 5р/Мб на таких скоростях? Нонсенс.
В месяц, на домашнем интернете я потребляю примерно 40-45Гб трафика в месяц. О каком гигабайте речь? :) Это только входящий, а считать надо еще и исходящий. Плюс добавляем разговоры… 10Мб за час… это если только в mp3, операторы еще и жать сами это должны? С учетом того что цена за Гб хранения меньше цены за обработку, то считаем что жать никто ничего не будет, будет стандартный используемый кодек. Тут я не скажу точно, но думаю что 30Мб в час более реальный размер. Итого добавляем 90Мб в месяц на телефон. Теперь чатики (Вайберы, Воцапы и пр. что может юзаться не на домашнем интернете, а на мобильном). Тут, думаю, 200-250Мб набежит, с учетом картинок, метаданных и пр., можно даже округлить до 500Мб в месяц за весь мобильный интернет.
Итого, ооочень грубо, для такого не самого активного, пользователя получаем порядка 40-46Гб. Можем даже скостить чуть-чуть и округлить до 40.

40Гб на 85% (от всех жителей) пользователей интернета, сиходя из 140млн жителей получаем 4 760Гб в месяц. Умножим на 6 и получим 28 560 Гб за полгода.

Это очень грубо. Плюс это сырые данные. А для их обработки надо их систематизировать. Ну и не забыть резервную копию :) В общем ждем быструю отечественную СУБД для обработки такого объема данных. Заодно систему их систематизации и анализа. На одной только обработке этих данных можно сделать бизнес повкуснее Палантира.
вот моя статистика за месяц
Входящий трафик 353 ГБ
Исходящий трафик 1090 ГБ

«40-45Гб трафика в месяц» — это ж только 1 фильм. Два, если BDRemux.
И чего?

Суйте свой трафик в VPN. Оператор знает, где выход этой «кротовьей норы». Он отдаёт маршрут кому следует. И если на той стороне трекер — понятен и контент.

Я за «умный анализ» поведения в этом законе. Иначе это жесть получается тупая :)
Всю информацию про этот закон по идее можно заменить четырьмя последними словами вашего сообщения.
Шифровать свой трафик сейчас — все равно, что признать, что депутаты этой страны — сборище дилетантов.
Я бы приравнял это к экстремизму, противодействию органам власти или даже
Статья 294. Воспрепятствование осуществлению правосудия и производству предварительного расследования.
Лично мне думается, что именно принятие таких законов и есть настоящий экстремизм и прямое противоречие духу и букве Конституции. А то, что Вы так назвали депутатов — ну как их еще назвать, если они не только как законотворцы принимают нелегитимные законодательные акты, прикрываясь борьбой с терроризмом, так еще и не хотят элементарно проконсультироваться со специалистами на предмет физической, или технологической возможности исполнения их хотелок? В результате законы получаются неграмотные и неэффективные. Никакому терроризму эти законы никакой проблемы не составят, а нормальные люди должны раком встать (простите мой французский), чтобы их исполнить. Правда, при этом (в случае реального исполнения таких законов) появляется возможность легко контролировать каждый шаг обычных граждан, но кого волнует какая-то там тайна переписки, Конституция и прочие глупости?..
Оператор совсем не обязательно знает, где выход. Например, у меня VPN с двумя IP-адресами.
А при ценах на VPS можно вообще хоть пять адресов завести из которых три выходных будут в разных странах.
И если на той стороне трекер — понятен и контент

Обмен с трекером — это поиск пиров, сущие килобайты. Основной объём — обмен с пирами и тут ненадедуплицируешь, потому что
1) зашифровано
2) нужно составлять не только базу торрент-файлов, а базу сегментов каждого торрента
Ну вы ж хотите прицепиться к несуществующему утверждению, что я собрался дуплицировать шифрованные сессии, а не только аттачи в почте, ключи которой доступны.

Что мне отвечать в таком случае? Это не моя аберрация сознания, извините.
Самое интересное что если действительно всё это построят и запустят, то группа энтузиастов, вероятно, быстро запланированные ресурсы положит, например поставив на ночь плейлист с 4к контентом и исполнение закона станет технически невозможным.
Думаете операторы не учтут это? Логично же сделать ограничение сверху или неявным или как сейчас в мобильном интернете, типа 5 Гб в месяц, свыше по рублю за мегабайт.
Если энтузиастов будет лишь горстка, то проще выделить на них десяток сотрудников и следить вручную, без длительного хранения.
Со 140 млн. вы явно переборщили. У нас нет стольких пользователей. Думаю, что в 2016 года эта цифра будет около 90 млн. Плюс — ваши объемы трафика явно не на среднего пользователя.
Но это не отменяет того, что нормы прописанные в законе — абсурд абсурднейший.

Единственное, на что следует обратить внимание:
Порядок, сроки и объем хранения указанной в настоящем подпункте информации устанавливаются Правительством Российской Федерации.

А правительство РФ выступало против принятия данного закона.
Со 140 млн. вы явно переборщили. У нас нет стольких пользователей. Думаю, что в 2016 года эта цифра будет около 90 млн.

Так я пишу именно о 90 млн. :) Видите — «по ощущениям» мы одну цифру назвали.
Я написал, что пользователей 85% от общего числа (140млн). 85% это та цифру что приводит официальная статистика о количестве пользователей интернета в России. Видимо, неудачно написал :)
«87,6 Гб на пользователя. Пусть он говорит 25% в год (это много), тогда 2,19 Гб в год» — позвольте, но должно быть 21,9 Гб.
Во, ошибку нашли. Спасибо.

Я торопился, щас исправим расчёт.
Исправил.

Всё равно нет триллиона :)
Картинки не посчитали, видео тоже. Нифига не верный расчет. Да и сами интернет странички нифига не легкие сейчас.

Ну и час голоса в 10 мб это вообще пушка — разобрать можно только если очень захотеть.
Ну и час голоса в 10 мб это вообще пушка — разобрать можно только если очень захотеть.


Нормально всё разобрать можно. Вот когда в 3 мб переживают (т.н. «эффект бульканья») — тогда да.

Картинки не посчитали, видео тоже. Нифига не верный расчет. Да и сами интернет странички нифига не легкие сейчас.


А зачем картинки скачивать? Или видео? Нужны логи действий и линки на источник. Контент не нужен.
UFO just landed and posted this here
Тогда весь вопрос звучит так:

сколько источников трафика по умолчанию включили https в % от всего объёма трафика?

У меня этих данных нет, к сожалению.
Все основные. Именно в такой формулировке. А дальше будет ещё больше. Привет HTTP/2.
HTTPS в целом используют около 10% сайтов:
https://statoperator.com/research/https-usage-statistics-on-top-websites/

Но надо учитывать, что в это относительно небольшое число входят такие монстры как YouTube, Facebook, Instagram, Google и прочие крупнейшие мировые веб-сервисы – «тяжёлого» контента там тонны и тонны…
У ютьюба видео точно по https отдаётся в CDN серверов? А то лишняя нагрузка на них вроде как не нужна…
Все закачки с ютуба, по крайней мере, идут через https (специально проверил). А обычные просмотры уж точно через https.
Это именно тот пользовательский трафик, который идёт к провайдеру – «внутренняя кухня» самих сервисов провайдеру совершенно недоступна, думаю (как и нам, впрочем)).
Да, сейчас посмотрел.
Но у ютьюба есть особенность в том, что видео раздаётся с CDN, которые стоят у крупных провайдеров. Т.е. они могут знать, что именно отдают клиенту. Например у меня видео приходит с сервера 188.234.130.206, судя по базе, это Санкт-Петербург, домен резолвится в net130.234.188-206.ertelecom.ru.
Да отключат youtube. К бабке Мизулиной не ходи.
Но тут раз на раз не приходится – неизвестно, что именно попадёт в конкретно российский сегмент CDN.

Думаю, на российские серверы «скидываются» лишь видео, наиболее популярные именно в России (по правилам логистики). Но даже в этом случае далеко не факт, что сам запрос ведёт напрямую на российский сервер, а не через общую систему (со всеми вытекающими). Как и не факт, что российские «хост-субподрядчики» YouTube владеют информацией об источнике запроса.
Простите, но провайдеру в контексте закона, без разницы откуда идет трафик. Главное что идет. А по этому — извольте хранить.
Это понятно.
Но тут пытались сделать «скидки» и разделение на HTTPS и прочий трафик, а также разделение по CDN…
В законе прописано хранение всего трафика. Да и отделить логи от контента не так то просто — шифруется всё. Я вот например в интернеты хожу через VPN (и торренты тоже) — у меня за месяц может набежать до 4 Тб (больше просто не позволяет хостер впс, нужен другой тариф). И они будут это хранить, потому что разобрать где и что нет никакой возможности.
Вы ходите через инфраструктуру оператора, он логирует все сессии, объёмы и — в случае нешифрованного трафика — видит данные.
В случае шифрованного — нет проблем, учтём в расчёте.

Но сколько этих VPN-пользователей с невскрываемыми данными в общем объёме трафика населения России?

Я думаю, какие-то проценты, а не все.
1. По закону нужен весь трафик
2. Завтра я картинку удалю, что вы будете с сылкой делать?
1. Не согласен. Я читаю как «трафик сообщений между пользователями», а не их down-pipe с котиками и сиське.
2. Я ничего. Нейросеть аналитики антитеррора — тоже. Сходит в источник, определит косвенные признаки окраса тамошних картинок и поставит крыжик «нормально». Или «не нормально, там призывают к чему-то плохому».

Это ж не архив, а пища для автоматической ищейки.
И почему же вы так читаете?

текстовые сообщения пользователей услугами связи, голосовую
информацию, изображения, звуки, видео-, иные сообщения пользователей
услугами связи — до шести месяцев с момента окончания их приема,
передачи, доставки и (или) обработки


Тут не указано, что обязательно «от пользователя к пользователю». Тут сказано «пользователя» да еще и в любом направлении — «передачи, доставки и (или) обработки».
Так что извольте хранить вообще всё. В том числе и котиков гуляющих табунами по https.
А эта страничка, это от пользователя к пользователю, или down-pipe?

Какое ее состояние будет храниться как «источник»?
«1. Операторы связи обязаны хранить на территории Российской Федерации:

2) текстовые сообщения пользователей услугами связи, голосовую информацию, изображения, звуки, видео-, иные сообщения пользователей услугами связи — до шести месяцев с момента окончания их приема, передачи, доставки и (или) обработки. Порядок, сроки и объем хранения указанной в настоящем подпункте информации устанавливаются Правительством Российской Федерации.»;
>>> А зачем картинки скачивать? Или видео? Нужны логи действий и линки на источник. Контент не нужен.

Линки не всегда живут долго.
Например, ютубовское или ФБ-видео оператору точно придётся кэшировать, поскольку это видео всегда можно удалить (с «родными» ВК или ОК ещё как-то могут договориться)).
Да и вообще, удалён может быть любой источник. Даже в поисковиках кэш хранится гораздо менее полугода, насколько помню.

А уж в случае с видеозвонками или пересылкой картинок в мессенджерах – и подавно придётся кэшировать весь поток. Не говоря уж о SnapChat и прочих Periscope…
Контент не нужен

Представьте, скачали вы с сайта «детскийжурналвесёлыекаритнки.ру» (или залили на него) файл «neznaika.gif», на котором Незнайка читает книжку. А через месяц, когда вами заинтересовались внутренние органы, на том же сайте по той же ссылке Незнайка с Синеглазкой вовсю нарушают другой недавно принятый закон.
«Нужны логи действий и линки на источник.»
А если источник по сохранненому линку при каждом запросе выдает разные данные? И картинка по одному и тому же аресу разная и видео…
UFO just landed and posted this here
Ну и час голоса в 10 мб это вообще пушка

Это не пушка, а артиллерийская батарея, в том смысле, что это очень до фига.

Современный кодек iLBC — 13.33 Кбит/с = 6 МБ/ч. Примерно столько же требуется для кодека GSM
Классический (для VoIP) кодек g729 — 8 Кбит/c
Хм, а мне провайдер считает около 200ГБ в месях на меня, от меня не считает…
так всё таки весь трафик или только логи?
разница-то грандиозная
Я считаю, что логи. Ну так понял. Да и для антитеррора больше и не надо: это обычное расследование активности пользователя, нейросеть, выискивающая характерные признаки экстремизма в логах и всё. Контент тут даже не вторичен, третичен. Заметили — сигнал ОПСоСу «пиши всё», а не заметили — смотрятся только логи.

Разница примерно в 100-300 раз с расчётом. И тогда моя гипотеза не соответствует реальности.
Ваша гипотеза, похоже, не соответствует реальности.

Суть этого закона в том, что если надо расследовать какое-то событие УЖЕ ПРОИЗОШЕДШЕЕ, то можно поднять всю коммуникацию конкретного человека за последние полгода, когда он, может быть, еще и не предполагал, что может как-то заинтересовать органы, и в его переписке, посещаемых сайтах и т.п. накопать, что конкретно он читал, с кем и о чем общался и т.п.
В законе указано, что решение об объёмах будет на совести правительства. Так что на текущий момент всё зависит только от того, что взбредёт им в голову. Но, если учесть, что данные и метаданные (то, что Вы называете логами) они разделяют, значит непосредственно трафик их тоже интересует. И хорошо, если это только e-mail и мессенджеры, а не всё подряд. Опять же, этот вариант изложения закона позволяет по первому требованию изменить объём хранимой информации и сроки хранения. Чудовищный по своей сути документ.
Вроде бы да, совершенно безумная… эта заставляет хранить весь трафик инета. Правда сроки хранения и чей трафик будет решать правительство, которое разумеется передаст эти функции специально созданному ведовству.
Хорошо бы написать программу которая будет создавать псевдофайлы по несколько ггб — шум всякий — шифровать его и передавать по пи2пи другим васям пупкиным. Будут хранить 3 года. и пытаться расшифровать. Вопрос — что произойдет если им расшифровать не удастся? У меня есть смутные подозрения на это счет. которые как-бы не радуют.
Окей, я гоню трафик по https, выделите мне пожалуйста голос, потоковое видео и картинки.
Сколько вас таких в 140 млн.? 1%? 5%?

Ок, по умолчанию ютьюб и кто там ещё, о, gmail — на https, но это не 100% источников трафика, а какой-то процент.

Записываем в допущения. Всё равно нет триллиона :)
Опера в турборежиме вся по https. Вчера где-то статистику видел, что 70% трафика сейчас идет по https. Вы того, с допущениями не вольничайте, ладно здесь, а IRL так и прогореть можно. Кстати, вы не потому ли бывший?
чувак, я понимаю ты получил цифирку и сейчас под нее хочешь подогнать теорию. Доля шифрованного трафика растет с каждым годом хочешь ты этого или нет. vk, facebook, google, yandex и овердохера других сайтов работают через https. Даже гиктаймс с КДПВ в гифках на 30 Мб и тот через https.
Ну и на здоровье, пусть растёт.

Вон выше в комменте уважаемого Garruz сказано, что:
HTTPS в целом используют около 10% сайтов:
https://statoperator.com/research/https-usage-statistics-on-top-websites/

Но надо учитывать, что в это относительно небольшое число входят такие монстры как YouTube, Facebook, Instagram, Google и прочие крупнейшие мировые веб-сервисы – «тяжёлого» контента там тонны и тонны…


Ты пойми одно, чувак: никто и никогда не создаст такой мегазаказ рынку вычислений и хранения, кроме государства. А раз это нужно государству (даже путь государство это ВВП), то, вероятно, и технику обяжут ставить локализованную, и операторов таких SuperBigData DC c сделают русских. Это десятки тысяч рабочих мест и сотни сложнейших задач, которые надо будет решить, чтобы это всё анализировать.
Сегодня в твиттере как раз встретил: помните как во втором терминаторе когда Т-1000 отправили в расплавленный и он перед смертью начал принимать облики всех тех в кого превращался за время жизни — вот и наша страна также.
Тысячи бесполезных рабочих мест мы уже проходили. Были по стране разбросаны тысячи КБ. И вроде все люди при деле там были — и на работу ходили каждый день, и отчеты писали… Только вот большая часть этих КБ занималась передовыми разработками типа «создание новой формы сиденья унитаза». Чем тратить деньги на бесполезные вещи, проще их сжечь.
По поводу локализованной техники. Назовите, пожалуйста, хотя бы пару отечественных производителей HDD, ленточек и SSD. Дедупликацию (которая тут так горячо обсуждается) на чем обсчитывать будете? Кластера из Байкалов и Эльбрусов строить?
вот большая часть этих КБ занималась передовыми разработками типа «создание новой формы сиденья унитаза»

Это вы свечку подержали и, наверное, уже лет 60+ вам, раз так уверенно рассказываете?
Я вот знаю пару сотен весьма бодрых стариков из таких вот КБ и они занимались такими вещами, что даже сейчас никому не догнать.
Проблема в том, что даже их заказчикам догнать не удавалось, вот и лежит под сукном.

Назовите, пожалуйста, хотя бы пару отечественных производителей HDD, ленточек и SSD.

Сборщиков — назову. А производить это не надо — Китай зачем отстроили? Пусть работают, им заказы нужны.

Дедупликацию (которая тут так горячо обсуждается) на чем обсчитывать будете? Кластера из Байкалов и Эльбрусов строить?

Возьму математиков (их есть и нормально есть), добавлю студентов, и через 5 лет оно будет считаться, появится заказ на спецпроцессоры, который будет таким большим, что ценник на байкалы и прочие эльбрусы упадёт наконец до $5/шт. и в стране появится собственная микроэлектроника.

Пусть они хоть молекулы выдыхаемого воздуха считают. Главное, чтобы все технологии и науку производили в нашей стране. А материальное производство — ок, в Поднебесной. Для гражданских целей они очень даже подходят.
«Папа, водка подорожала — значит ты будешь меньше пить? Нет, сынок, это значит что ты будешь меньше есть!»

Как именно госзаказ на узкоспециализированный ASIC сделает остальные процессоры дешевле, и как именно производство этого добра в Китае поспособствует развитию микроэлектроники в России?

Собственно, я вообще не понимаю откуда раз за разом появляются идеи о превозмогании и шапкозакидательстве. Мол, со студентами быстро догоним и перегоним компании у которых годовой оборот в пять выше бюджета всей российской науки, а штат инженеров и ученых формировался десятилетиями, путем приглашения лучших специалистов со всего мира.
Как именно госзаказ на узкоспециализированный ASIC сделает остальные процессоры дешевле, и как именно производство этого добра в Китае поспособствует развитию микроэлектроники в России?


Это большой разговор, и он не относится к данному топику. Если хотите, я изложу его отдельной публикацией. Кармы пока хватает :)
Мол, со студентами быстро догоним и перегоним компании у которых годовой оборот в пять выше бюджета всей российской науки, а штат инженеров и ученых формировался десятилетиями, путем приглашения лучших специалистов со всего мира.

Спин-оффы работают во всём мире, почему бы им не заработать у нас?
А бюджет на науку он разный. И на ту, которая нужна стране, бюджет есть.
Могу сказать в эфире только то, что проблема сейчас не с учёными и изобретениями, а с инженерами — прикладными конструкторами. Но эту задачу уже начали решать. И спин-оффы — один из способов.
Они есть, но их надо в 1000 раз больше.
А производить это не надо — Китай зачем отстроили? Пусть работают, им заказы нужны.

«Минпромторгу России совместно с Минкомсвязи России провести анализ и представить предложения в части возможности, сроков и объёмов финансовых затрат в целях организации производства отечественного оборудования и создания отечественного программного обеспечения, необходимого для хранения и обработки голосовой информации, письменного текста, изображений, звуков, видео- или иных электронных сообщений пользователей сети Интернет и информации об этих пользователях, с указанием конкретных производственных площадок в Российской Федерации.»

Возьму математиков (их есть и нормально есть), добавлю студентов, и через 5 лет оно будет считаться, появится заказ на спецпроцессоры, который будет таким большим, что ценник на байкалы и прочие эльбрусы упадёт наконец до $5/шт.

Фиг с ним, что Интел, который этим занимается не первый день, это не могет, а мы сможем. Вы вообще в курсе сколько занимает один цикл разработки мк? Где у нас есть линия для его сборки?

в стране появится собственная микроэлектроника.

К вам Хоттабыч не заходил?

И вообще — можно что-то именно развивать и во что-то вкладываться, а не тратить на бессмысленное кучу денег?
Минпромторгу России совместно с Минкомсвязи России...

Ну вот видите, поручили — значит, скажут что нет. Или скажут, что построят. Им же только кинь кость — по локоть откусят.
Могли бы мы представить ещё год назад, что государству серьёзно понадобится своя микроэлектроника? Я ликую, читая такие поручения Правительства.

Вы вообще в курсе сколько занимает один цикл разработки мк? Где у нас есть линия для его сборки?

В курсе, тут даже писал один добрый человек, что повторить размеры Intel это примерно 20 лет и $30 млрд. это стоит, но и тогда опоздаем. Это если делать по нынешней технологии. А у неё уже закат.

Вот о памяти, например, 3D-XPoint, слышали? Интел выпустит скоро. В 1000 раз быстрее NAND, энергонезависимая, все дела. Там ещё голографическая почти допилена, а это уже прям как у Кира Булычёва — кристалл со всеми знаниями человечества. Так вот, это — будущее. А процессоры на кристаллах — прошлое. И в том же МПТ стопками лежат изобретения производить их другими способами. Просто разрешения не было, ибо Большой Брат велел следовать культу карго. А теперь разрешение есть. И это офигенно.

И вообще — можно что-то именно развивать и во что-то вкладываться, а не тратить на бессмысленное кучу денег?

Ну я же не Никифоров и не Мантуров, их спросите. В этой истории очень много политики, вот мой ответ. Чисто взять и сделать — наверное, нельзя. Но ситуация с каждым днём становится лучше. Читайте новости тут.
> Проблема в том, что даже их заказчикам догнать не удавалось, вот и лежит под сукном.

Неуловимый Джо.
Я однажды аннотацию к одному изобретению читал и то что-то погрустнел. Там просто русские буквы, смысла которых я не понимаю — сплошная математика и спец. термины. А представьте среднестатистического силовика, он и предлоги не все знает. А ему решать положено.
> представьте среднестатистического силовика, он и предлоги не все знает. А ему решать положено.

С какой стати он должен решать?
С какой стати он должен решать?

С той, что у нас такая особенная демократия в стране, ксож.
UFO just landed and posted this here
За 2 дня 16 часов и 30 мин:
Bytes In Bytes Out

71979669991 22191042279

Если правильно подсчитал, то получилось что-то около 88Гб. И что я делал за эти 2 дня? Да в общем ничего, посмотрел несколько видео, зарегистрировался на курсы ccna там тоже было видео, обновилась mmo'шка одна сегодня (0,5gb правда был апдейт), почитал хабр, гиктаймс и еще один сайт. Да вот вобщем и все. При этом учтите, что вчера с ~17:00 и до 10:00 сегодня у меня небыло интернета.
88ГБ практически за два дня. Черт, аж грустно стало… раньше за 88GB убить можно было…

И это только я, а что с энтерпрайз-сегментом?
И это только я, а что с энтерпрайз-сегментом?

Думаю, что 97% ваших 88 Гб это про «посмотрел несколько видео».
В энтерпрайзе видео не смотрят. Сёрф и почта. Это в 1000 раз меньшие объёмы.
Сижу под энтерпрайзом, нас 490 человек, все смотрим видео… где-то видимо это не так.
Регулярно смотрю какие-либо курсы и полезные видео. Обзорные видео чаще гораздо лучше, чем текст.

Даже если вся эта затея потребует 1 млрд руб., она позволит увеличить уровень антитеррористической безопасности чуть меньше, чем никак. Поэтому любую стоимость технической реализации закона можно считать потерями для общества.
>требуется хранить звонки, смски, чаты и логи интернета и почты. Полгода.

Требуется хранить весь зашифрованный трафик, поскольку что в нем и откуда — неизвестно и нет возможности выяснить. И расшифровать нет возможности, поскольку сложных ключей скорее всего уже даже у получателя нет. Но вы там держитесь, здоровья вам, раз у вас всё так просто.
Да мы держимся, спасибо на добром слове.

Но даже если весь трафик надо хранить (вот специально сижу перечитываю, не вижу ни слова про весь), берём ленты вместо дисков.
И 1 Гб становится уже не по 90 центов, а по 3. А с учётом роботизированной библиотеки (железяка, софт, внедрение) — максимум доллар.

Просто на лентах всё медленно, это адресное хранение с низкой скоростью доступа. Придётся ставить flash-СХД для содержания индекса, а какой там индекс, если всё шифровано, только если адреса да пользователей с таймстампами хранить. Ну всё равно это не те деньги. Нет там триллиона, даже если всё писать.
Вы только стоимость самого носителя учитываете при нынешних расценках на устаревшую технологию, никак не сопутствующие затраты. По старым технологиям вряд ли много мощностей в мире осталось, так что возобновить производство всей инфраструктуры может стать архидорого. Рассчитывать можно только на существующие технологии или на перспективные, а там вилами на воде всё писано. Так что всё-таки нет.
Отнюдь.

Я как написал:
— 0.9 доллара на носитель
— 2 доллара на аппарат и внедрение

Вот эти два доллара и учитывают инфраструктуру.

А в целом про невозможность испечь такой пирожок, вот вам факты:
— яндекс и гугл хранят ВЕСЬ интернет, слепки чаще раза в сутки
— youtube хранит 60% всего видео
— UGC занимает 70% трафика мобильных операторов и это сравнимо с youtube

Они ж где-то себе купили хранилки. И не потратили триллион :)
Что? и все видео хранят? и весь интерактив? и даже то что роботом или юзерагентом запрещено индексировать? а торрент они хранят? и десятки изменений форума в час, когда сообщения появляются, удаляются, редактируются?
Вы не поняли, нет уже ленточных стримеров, всё. То есть найти сколько-то можно, как и флоповоды с дискетами, но в ограниченных количествах. Чтобы заполучить в промышленных масштабах, надо построить заводы по производству записывающих устройств и носителей к нему, с химикатами для носителей тоже проблемы будут.

Сравнение некорректно. То есть это просто не аргумент, что кто-то что-то хранит. Что, какие объемы, с каким сжатием? А тут расчет идет на пользователя, я, к примеру, 10-15 гигов стационарно потребляю и 3-5 мобильно. Все шифрованные. Грубо говоря 100 гигов носителя на меня надо, но как с надежностью? А то и 200 понадобится. Вот вам на 25 миллионов таких, как я, уже по вашим расчетам триллион вынь да положь.
Роботизированные ленточные хранилища как раз используются сейчас там, где нужно максимально дёшево хранить архивную информацию, без частого доступа к ней.
Вот пример того, что продают сейчас: https://www-03.ibm.com/systems/storage/tape/
Допустим, но какой объём они способны обеспечить? Я, к примеру, могу покрышки соседские у себя хранить бесплатно, но вот всем желающим такой сервис смогу, естественно, предоставить, только стоить это будет не бесплатно.
Например IBM TS4500 Tape Library обеспечивает хранение до 175.5 петабайт информации, что не так уж и мало.
У меня была в инфраструктуре 4500, с одним шкафом расширения. А прицепить их туда можно десятки.
И LTO прогрессирует: покупали библиотеку в конце нулевых и кассеты были по 800 Гб, а теперь уже по 3+ Тб.
Драйв заменил и они читаются. Коробка та же, привод — тот же, а данных помещается в 5 раз больше.
Полтора суток работы livejasmine.com к примеру.
> Я, к примеру, могу покрышки соседские у себя хранить бесплатно

Это вы на что намекаете?
Скажите, а сколько по времени Гугл с Яндексом занимаются созданием своих ЦОД-ов?
Это первое, второе, это их специфика — большие объемы информации, они изначально вкладывались в создание ДЦ с огромными хранилищами.
А от ОПСосов — вынь да полож, хорошо что еще не вчера. Затраты разные.
ОПСоСы и так давно СОБР поставили (иначе лицензии нихт) и голос хранят, просто их сейчас мобильный трафик заставили показать.
Дано: требуется хранить звонки, смски, чаты и логи интернета и почты. Полгода.

Нет, на самом деле поправка выглядит так:
а) пункт 1 изложить в следующей редакции:
«1. Операторы связи обязаны хранить на территории Российской
Федерации:
1) информацию о фактах приема, передачи, доставки и (или) обработки
голосовой информации, текстовых сообщений, изображений, звуков, видео-
или иных сообщений пользователей услугами связи — в течение трех лет с
момента окончания осуществления таких действий;
2) текстовые сообщения пользователей услугами связи, голосовую
информацию, изображения, звуки, видео-, иные сообщения пользователей
услугами связи — до шести месяцев с момента окончания их приема,
передачи, доставки и (или) обработки. Порядок, сроки и объем хранения
указанной в настоящем подпункте информации устанавливаются Правительством
Российской Федерации.»
В чем нестыковка? Факт просмотра на ютьюбе видео с котиками нужно хранить 3 года, само видео с котиками — 6 месяцев.
И дедуплицыровать этих милых котиков не выйдет — https.
А вот эти милые приписки про "… сообщения пользователей услугами связи" не обозначают ли исключительно собственные сообщения пользователей конкретного того оператора, к которому предъявляются требования?
Иначе ведь можно дорассуждаться до того, что оператор связи обязан хранить у себя копию всех сообщений всех пользователей всего интернета, даже если у самого оператора три с половиной абонента, которые кроме одноклассников ничем не пользуются.
Обязан хранить у себя трафик проходящий через него от\к его пользователей\лям.
Да, гарант лучше, чем перепост какой-то беты закона, который я встретил в fb.

Ок.

1) Я считал на полгода, тут на три. Значит, умножаем на 6, получается 1.110 млрд. Есть миллиард. Но если перевести диски на ленту — получится раза в три дешевле, так что нет миллиарда.
2) Я читаю это как «аттачменты в переписке между двумя пользователями», а не «видео стримерши Карины». Это ещё метров 50 в день в среднем по больнице или 9 Гб за полгода на юзера. Примерно те же 170 млрд.

Всё равно нет триллиона.
Вы напрасно читаете это как «аттачменты в переписке между двумя пользователями». Аттачмент в письме может быть в виде ссылки на тот же ютуб. На ролик «видео стримерши Карины». В котором как раз сообщение одного террориста другому.

Да и вообще, вы заходите на gmail через web-интерфейс, загружаете туда видео. Потом я туда же захожу, это видео скачиваю. С точки зрения оператора это вообще не почта. Это может быть и gmail и dropbox и что угодно. Хоть приватный FTP сервер.
А как же затраты на постройку ЦОД и прочих сопутствующих и дорогостоящих сооружений? Если бы государство само выстроило (пусть и за наши деньги) эту инфраструктуру, был бы хоть какой разговор. Но они говорят — мы так хотим, крутитесь теперь сами.
В моём расчёте это $2 с припиской (амортизируем по 2 доллара в год на инфраструктуру, которой жить 5 лет).

По-русски это означает, что инфраструктура нужна на $10. Но т.к. в ней самих железяк на те же $2, а остальное — инженерка и помещения, то это к делу не относится. ЦОДов в стране хватает.
Вы плохо понимаете специфику современных сетей.
Провайдеры подключают абонентов с учетом коэффициента мультипексирования, при этом не ограничивая скорость в локальной сети. С обработкой пользовательского трафика неизбежно возникнут проблемы.
Например, данные передаваемые в пределах одного многоквартирного дома, но с использованием инфраструктуры местного провайдера, тоже должны быть записаны(обработаны). До ЦОД этот трафик отзеркалировать не выйдет, т.к. к дому обычно подходит одна линия, к которой подключено множество абонентов. Пропускной способности просто не хватит, чтобы передать весь трафик этого сегмента внутренней сети.
Предлагате строить мини-ЦОД в каждом многоквартирном доме?
Исходя из $10 на абонента???
Вы плохо понимаете специфику современных сетей.
Провайдеры подключают абонентов с учетом коэффициента мультипексирования...

Эээ, наверное, согласен. И с тем, что не подумал, и с тем, что вы написали дальше.
Непонятно одно — будут этот трафик в реальности писать или нет. Мои расчёты по валидности примерно равны расчётам официальных представителей операторов, т.к. что там как на самом деле — даже они не знают.
Предлагаете строить мини-ЦОД в каждом многоквартирном доме? Исходя из $10 на абонента???

Нет конечно :) Я вообще не считал в своей смете трафика домашних сеток, всякой торрентовой и стриминговой потребленческой истории. Это ж тотальный адъ и израиль получается :(
Экспертно определяем вес текстовых записей. Все логи интернета и смсок/мессенджеров — текст, который весит сотни килобайт и не может производиться мегабайтами в сутки, это нереально набирать физически, если не иметь тысячи обезьян с пишущими машинками.


А где это вы возьмете текст?
Так я raw посчитал.
У оператора возьму, он знает, какое приложение трафик в мобильную сеть отдаёт. Да, может не отделить текст от фоток, но это всё равно не тот масштаб. Ну умножьте мои расчёты на 3, будет близко к теме.
Какое приложение? Вы о чем вообще?
Такое, которое в интернет ходит из смартфона.
Телефоны без приличной ОС трафик генерят в формате смс и ммс.
У оператора возьму, он знает, какое приложение трафик в мобильную сеть отдаёт

Ха-ха, может ещё оператор знает список установленных на смартфоне приложений?
Даже если не шифровать, каждый мессенджер зипует трафик по-своему, добавляя свои, никому не известные заголовки. И затем укладывает в HTTP/HTTPS (опять же — каждый по-своему), потому что это единственный протокол, нормально проходящий через мобильные сети.
Я не знаю. Честно.
" Операторы связи и «организаторы распространения информации» в интернете должны будут хранить все переговоры и данные, которые пользователи передают друг другу до полугода (точный срок устанавливается Правительством) с момента передачи."

Специально посмотрел статистику интернета-трафика, за последние 6 месяцев 1200ГБ принято, 350ГБ передано. Теперь подсчитайте сколько это теперь будет стоить, с учётом таких пользователей как я.
Вас Правительство запишет в наших :)

А если серьёзно — не знаю. Точнее, предполагаю, как можно решить, но это уже великий файерволл получается.
Откуда эта цитата? На закон не похоже. Скорее на интерпретацию какого-то журналиста.
для дедупликации нужна единая платформа или взаимодействие мужду провайдерами, а так получится что и мегафон и например билайн сохранят по 1 копии одного разговора
Они уже сохраняют, каждый себе.

И я писал про дедупликацию аттачментов, эта история работает хорошо именно на почте.
Странно, что я не нашёл комментария в виде «Яровая, перелогиньтесь!».
Уже всё было сказано выше, что под эти неявные описания в законе некоторые органы захотят провести ВЕСЬ пользовательский трафик, так что именно от этого считают наиболее перестраховывающиеся пользователи. В их числе и я.
Крайне плохой закон, особенно, прилично противоречащий Конституции.
Объясните, зачем хранить на дисках если можно на ленту, стоимость за гигабайт на ленте примерно 0.03$
Ок. а теперь с какой скоростью мы пишем на ленту? и сравниваем со скоростью магистральных каналов.
Сначала пишется на жёсткие диски, потом сбрасывается на ленту. Ленточное хранилище позволяет дешевле хранить информация, чем жёсткие диски.
вы предлагаете использовать хдд как буфер, потом писать на ленту.(т.е. прибавляем стоимость буфера в виде hdd))). каковы ваши оценки скорости прироста трафика в буфер, со скоростью сбрасывания инфы на ленту? Про стоимость хранения на ленте вопрос не поднимаю, это и так понятно. Просто теоретики забывают про некоторые технические ограничения использования лент. ))
Просто нужно больше лент!) Нужно оценивать среднюю нагрузку магистрали и смотреть параметры топовых ленточных хранилищ, а потом поделить.
Амазон позволяет хранить данные по цене $0.007 в месяц за гигабайт в самом дешёвом тарифе (когда нет постоянного чтения данных, как раз наш случай): https://aws.amazon.com/s3/pricing/

Хм, тогда 200PB/mon x 0.007$/GB x 2 redundancy x 6Mon = 17 M$ на одного оператора. На фоне 440 M$ EBITDA не так много, чтобы повышать тарифы в 3-4 раза, но если стоимость хранения ГБ в РФ дороже и учесть необходимость создания инфраструктуры для доступа к хранению и доп расходы на персонал, это может стать и 40-50 М$ на оператора. А в первые месяцы скорее несколько сотен миллионов единовременных затрат.

У Амазона сервера в РФ? А ведь в законе «на территории РФ».
Амазон российская компания? А как же защита данных и возможные враги?
Тут скорее имелось ввиду не предложение хранить в амазоне а ориентир цены хранения. Раз амазон дает такую цену и при этом он в плюсе значит реальная стоимость хранения даже меньше этой суммы.
И это приведет к необходимости увеличить канал раза в два с половиной (нам ведь надо будет отправить туда копию всего входящего и исходящего трафика).
Да нет проблем. Мне просто было интересно три раза:
— прикинуть ценник (см. выше)
— поделиться расчётами, чтобы понять, где и как я накосячил (сработало)
— осознать, что тут интересная публика (диалога нет, только минуса — но мне это до колена)
Видеоконференции добавьте еще в расчет как минимум, там уже совсем не 10М/час…
Нужна структура этих сессий в общем объёме трафика, чтобы было что обсуждать. А я на тапок снимал, заняло 10 минут записать.

По опыту своей жизни, ВКС сопровождает только проектную или отчётную фазу шагов любой компании. То есть, в среднем, если никто не растёт, не меняет что-то в дочерних компаниях и ждёт ответов на планёрке — переговорки в видеокодеками стоят. То есть, они стоят 99,5% времени в году.

Как-то так.
За то Скайп видео гоняет у огромного числа пользователей. И Твич еще какой-нибудь. И и стримеры на Ютьюбе… Ой, кажется «гигабайт в год» кончился за 20 минут сессии…
Подождите, мы же про корп. сегмент. Какой твич? Или вы на что-то намекаете?
Это вы про корп сегмент, а мы про закон. И судя по обсуждению ваши расчеты генерации контента крайне занижены.
А чем вас не устроил твитч в корпоративном сегменте?
Решение простое — ограничить потребление. Весело будут ограничивать разные стримовые каналы музыки и видео… если только не начать считать что разные СМИ источники в виде телекомпаний, радиокомпаний, и Рувидео уже имеют отцензуренный материал и этот трафик не проверять. А остальные идут лесом… лицензии от государства на такое у них нет.

Кто захочет (против кого официально направлен законопроект) тот и в перлюстрированном интернете будет обмениваться информацией.
Кто захочет (против кого официально направлен законопроект) тот и в перлюстрированном интернете будет обмениваться информацией.

Совершенно верно. Но чего там в головах у авторов было на самом деле — только они и знают.
Кто знает — тот знает… но по значительному сегменту трафика удар был нанесен ранее — торренты и порнушка…
Дано: требуется хранить звонки, смски, чаты и логи интернета и почты. Полгода.

Идите закон читайте.
Спасибо за совет, но я уже там был. А вы?
Если весь трафик…
За 5 суток, средний трафик в сутки 3221GB, в месяц 96630GB, и мобильного трафика 8GB в месяц. Все это на двоих с супругой.
image
Позвольте поинтересоваться, а что у вас так ест трафик, что он уходит терабайтами? У меня основной потребитель трафика это стим, из которого я часто ставлю новые игры, а старые удаляю и у меня выходит 100 гигабайт в месяц и меньше.
2 компа, 2 смарта и телек, нечего особенного не качаю, торрентом и стимом не часто пользуюсь, в основном серфинг и ютуб, надо бы проанализировать.
07.07 качал в стиме Арму3 и моды)
3 терабайта в день это 284 мегабита в секунду круглосуточно!
Я просто не представляю, что может генерировать такой поток постоянно, даже 3-5 стримов в FullHD столько не займут!
Да, Вы правы подозрительно много, может роутер что то не правильно показывает/
В статистике за месяц полный трафик 16,683.18 GB, но в этом месяце 14 дней мы были в отпуске и трафик не потребляли. Все равно как то не мало.
Уже лучше, но 47 мегабит тоже не кажется реальной цифрой.
image
Возможно роутер хитрит что то), может это весь трафик проходящий через роутр, к нему подцеплен винт, кино смотрим dnla, но далеко не каждый день.
Видимо, именно так – весь трафик. Накачать 10 ТБ за месяц, конечно, возможно при яростном желании (даже без учёта отдачи). Но… на чём?

P.S. У меня за июнь около 100 Гб. Даже при ярко выраженном «кино-маньячестве» и шестом сезоне «ИП»… =)
breaking bad один сезон — уже больше 100ГБ. Это если не пережатое качать.
Да я без фанатизма как-то…
Делю фильмы на те, которые можно сохранить в высоком качестве «ради кадра» (а таких очень мало), и на те, где важен лишь сюжет. «Во все тяжкие» – как раз из второй категории, там качество не так уж и важно, сюжет гораздо интереснее.

P.S. Да и качают сразу целыми сезонами лишь раз в год. Даже не считая того, что BB уже давно кончился, сейчас ждём нового Сола. ;)
Даже не очень ясно, с чего Вы решили, что сможете осилить такую задачу, как приблизительный расчёт затрат на реализацию обязаловки, введённой этими поправками. Судя по всему, технарь и математик из Вас никакой, но, к сожалению, вот только к таким и прислушиваются наши законотворцы. Приходите после того, как наберётесь достаточным объёмом знаний.
Ну я хотя бы попытался.

А вы — нет.
Речь на самом деле была о том, что нет ничего вреднее самоуверенных дилетантов.
Я бы этой фразе памятник поставил. Серьезно. Больше половины факапов последствия которых приходилось разгребать прекрасно ею описываются.
… которые уже успели построить пару ЦОДов, внедрить пяток систем инфобеза и даже взять призы от российских сообществ Global CIO и ITSMforum.

Нам, дилетантам, всё время хочется что-то узнать на собственном опыте, знаете ли. Впрочем, откуда вам знать, вы же не дилетант.
Вы так говорите, как будто в одиночку всем этим занимались. Судя по Вашему профилю и стилю общения, Вы управленец, а не инженер. Лично у меня предвзятое отношение к призам для управленцев, которые выдаются другими управленцами.
Да, управленец. А призы за то, что до результата доводил, а не просто труляля.

Предвзятое так предвзятое, на здоровье.

Я просто одно хочу сказать: триллиона нет, прикидывал реально минут 10 (с написанием текста), а потом ещё и ошибки исправил.

Максимально честно для формата сделал. Просто для того, чтобы понять, где я что-то не заметил — аудитория показала скользкое место, которое зависит от трактовки.
Интересно, ведь можно общаться например в онлайн играх и голосом и текстом, как в таком случае спецслужбы получат эту инфу?
У ФБР, кажется, есть специальный отдел по онлайн-играм, если это не слухи.
Вроде бы я даже слышал, что оказалось, что этот отдел абсолютно не эффективен. А как показала практика террористы используют смс и одноразовые телефоны и вообще не парятся ни шифрованием, ни изощренными способами передачи сообщений. Так что стоит задуматься ради чего весь этот бред по миру принимают.
Изображение и видео, которые передают пользователи. То есть, даже если ютуб хранить не заставят, объем сильно больше, чем просто сообщения.
А в чём смысл хранить зашифрованный трафик, тот же ютуб, если расшифровать и проанализировать его нельзя?
Какой-то непонятный мазохизм.
А разговоры и переписка — это такие копейки, даже несерьёзно.

Операторская отчетность говорит о 200±50 PB/mon:


image

Интересно.

Могу подправить расчёты, но, кажется, это никому тут не нужно, все терабайты логов своих трекеров постят :)

Можно привести к цене для типового оператора. В другом комментарии я прикидываю месячный OPEX на хранения 6 месяцев данных (голос не учтен), получается цифра 17-20M$ (сюда же сколько-то сотрудников, например 15, по 100k$ в год). Мне не понятна капитальная составляющая затрат.


Аналогичный пример, сейчас у некоторых мобильных операторов есть источники сбора больших данных — пробники на интерфейсах, но user plane не собирается централизованно, только сигналлинг — это максимум, и не у всех и не всегда, т.к. нет необходимости (экономической) обрабатывать, только может быть для точечной обработки жалоб.
Тендеры на системы для обработки таких данных конечно очень дороги, но несравнимо меньше месячного оборота оператора.

САРЕХ для простоты можно считать по баксу за Гб.

Это приведет к тому, что capex мобильного (4ГБ на абонента в мес — т.е.big3) оператора с 200 PB/mon будет 200PB x 6 mon x 1$/GB = 1.2 B$ Это превосходит ebitda за несколько месяцев (2-4 мес) и тогда операторы правы, что им придется повысить тарифы в разы на 1-2 года или на немного, но надолго.


1usd/GB — это производная, есть какие-то примеры, чтобы получить эту цифру?

Берите GPL любого вендора, вычитайте примерно 85-88% и будет вам стоимость железяки.
Софт туда не нужен практически никакой (хранить же), поэтому берётся любая удобная сборка любой POSIX-системы, потом скрипт разворачивания сразу 200 серверов и через неделю у вас второй Яндекс. У меня был админ, который так в своё время Рамблер поднимал. Потом скучно стало, ушёл менфреймы крутить…

Посмотрел характерную цену за 50 ТБ СХД, действительно порядка одного USD. Нужно еще накинуть на остальную часть оборудования и софта и, видимо, получится ваша первая оценка до 2USD.


Но на этом основании и предыдущей калькуляции видно, что типовому оператору большой тройки нужно 1+ млрд долларов капекса и порядка 20 млн опекса в мес. Это несколько противоречит выводам в вашей статье о несущественности расходов. В предположении, что это станет независимыми расходами для каждого оператора — это большая сумма для них по сравнению с оборотом.


Так для примера мегафон оценил в 250 млрд руб = 3.8 млрд долларов (наша оценка сейчас 1.2 млрд(200PB/mon)). У мегафона сейчас трафик процентов на 70% больше, чем в моей табличке и возможно заложили прогноз на рост. Они даже не приврали вдвое.


Предлагаю отразить в ваших выводах проверку корректности оценки операторов на том уровне, на котором мы сейчас это сделали.

Не, я лучше ч.2 выпущу, только про мобильных операторов. Там посчитать надо посерьёзнее — всё необходимое опубликовано.

Если карма останется, конечно :)
UFO just landed and posted this here
К отключению инета готов, все 6 сезонов «игры престолов»скачано, новые сезоны на дисках попрошу у белорусов
а я вот к отключению интернета не готов. От слова совсем.
Пока надежда только на то, что закон изначально придуман, чтобы сделать всех провайдеров виноватыми, соответственно послушными любым прихотям от властных структур.
Если же будут требовать выполнение закона, то может быть поможет полное отключение шифрованного трафика. А может и не поможет.
А может и не может Яровая-in-the-middle
11 Гигабайт хватит каждому!
А если серьёзно, то если дома есть ребёнок, который смотрит youtube (который отдаёт свои данные по https), то этот поток данных не дедуплицируется и много весит.
Возьмем 720p — около 20 мегабайт/минуту. Допустим, больше в семье ничего не потребляет, в fullhd не смотрит, игр не качает, торрентом не пользуется.
Скачать 3 часа видеоконтента в день = 3*60*20 = 3600 мегабайт.
В месяц это 3600 *30 = 108000 мегабайт или 100 гигабайт.
В полгода это 600 гигайбайт.
Это в 54 раз больше, чем 11.
Ваши 185 млрд умножаем на 54 = 9990 млрд. 10 триллионов.

Так что врут они про триллионы.

Не врут.
Это если правительство не внедрит свои сертификаты, в обязательном порядке, на конечные компьютеры… правда, тогда, в основном, пострадают как раз обычные пользователи.
Всё так, но есть одно «но».

Собственно, против этого «но» тут меня и закошмарили за последние сутки. Понятно, что история возникла с разночтением одной фразы в законе: всё хранить или не всё. Я считаю, что хранить надо только UGC или P2P трафик, т.к. там не определён источник (и это вполне укладывается в формулировку).

А в истории с youtube стриминг-сервер понятен, и потребитель вплоть до IP квартиры тоже известен.
Ну понятно же, что этот трафик никому не нужен. И так придут, если захочется разобраться, что за трафик там такой, шифрованный.
Ок, я гипотетический террорист. Решил общаться через закрытую видео-конференцию на ютубе. Или видеоответами.
А ещё лучше сделал свой P2P сервер, а в /etc/hosts прописал у youtube.com ip адрес своего сервера. Всё, я в шоколаде.
Я считаю, что хранить надо только UGC или P2P трафик,

Это Вы так считаете. А я вот считаю, что вообще ничего хранить не надо, и надо премировать граждан РФ за каждый просмотренный гигабайт видео. Инвалидам и ветеранам ВОВ — дополнительно пособие за аккаунт в твиттере.
И, кстати, P2P трафик — это торрент. Каковым скачиваются не только сериалы (а это гора-а-аздо больше 11 гигабайт). Это обновления Windows 10, World Of Tanks и других игр, ISO образы убунты, видеоразговоры в Skype.
На самом деле, тут учитывается, фактически, только «железо» и почти не учитывается его поддержка, софт, работа сотрудников и много чего ещё. Истина, как водится, где-то посередине: Тут явно больше 200 миллионов (даже с учётом уже частично готовой инфраструктуры), но, полагаю, и заметно меньше 300 миллиардов. Но тут и обсуждать особо нечего (в контексте описанного).

А вот о технической стороне (и не только) вопроса я бы ещё поговорил. В том числе о дедупликации, возможности подмена одних материалов другими, сжатии, распределении и централизованном хранении материала, фиксировании его изменения и прочего.
И тут ещё одна палка о двух концах всплывает: если надо сэкономить место, то надо данные сжимать и беспокоиться об их дедуплицировании, но тогда возрастают нагрузка и требования к софту и железу на их обработку -> Уменьшив траты в одном, увеличиваем их в другом.
Опечатался в циферках, поправлюсь:
* явно больше 200 миллиардов
* меньше нескольких триллионов
(Надо ещё подсчитать операторов, провайдеров и прочее)
Сжатие бесполезно. Хорошо сжимается текст, но в общем объеме это капля в море. А вот фоточки и видео — львиная доля объема — уже и так пожаты внутри своих форматов.
Да, фото и видео сжимать почти бесполезно (есть исключения), но можно дедуплицировать, по-возможности, и зарезать качество и/ли перегонять в другой формат, более удобный именно для хранения.
Перегонять в другой формат?
Что за бред.
А всё остальное в этом хранении — не бред?
Нет, не бред. Это целенаправленые действия по отключению возможности граждан РФ от возможности общаться по интернету и получать информацию, отличную от официальной.
А почему нет? Поменять формат хранения, использовать другие кодеки и форматы сжатия — почему нет?
Опять же, конечно, это требует заметное количество мощностей для обработки. И тут уже вопрос — что дешевле: наращивать мощности или объёмы, скажем, РСХ.
Пересжатый youtube в нескольких экземплярах?
Ну вот кстати за ютуб. Если даже я загружаю туда фуллхд-ролик 1080р, ютуб практически в реалтайме сделает из него, помимо 1080р ещё и 240р, 360р, 480р и 720р. То есть ютуб уже сейчас решает эту задачу, и практически реалтайм. То есть технически это осуществимо.

Хочу вот ещё на какой момент обратить внимание. Может я не очень внимательно читал закон, но я нигде не увидел слов о качестве хранимого видео и аудио. Кто мешает оператору пережать видео в 144р, а аудио в 3кбит/сек и хранить эту кашу?

Мета будет, видео и аудио есть, а то что в отвратительном качестве — так это не оговорено. Или я ошибаюсь?
Никто не говорит о технической невозможности. Все говорят только о том, что за чей счет будет покупаться это оборудование и какую пользу оно несет тому, кто за него платит.
Ладно, допустим отдедуплицировали вы все апдейты Win10, обновления игр, стримы интернет кинотеатров, интернет радио и телевидение, даже не шифрованное.

А дальше идут стримы со всех несчастных IP камер включенных в сеть, с паролями и без, удалённые рабочие столы и VPN с базами данных предприятий и прочие служебные передачи данных в автоматическом режиме(например о вашей поездке в метро, или о текущем положении самолёта), в конце концов данные медицинских организаций, нововведённого Платона, данные ЕГАИС, камер штрафующих за превышения скорости, банковские операции, целая копия Национальной платёжной системы. Всё что называется deep web.

Во сколько вы оцениваете этот трафик?

Ну и к хранению нужно добавить наценку за секретность, как минимум там же будут личные и коммерческие тайны.
Вы перечислили понятных приёмщиков и получателей, к ним можно прийти и спросить. Никуда не денутся, даже окажут содействие следствию.
Цедить хотят гражданские данные, как я выше написал
Как это разграничивается в законе?
Ну допустим кто-то может что-либо спросить и даже возможно прийти к ИП «Ильюшин-Горбунов Игорь Леонидович», но тогда устроиться в любое юр лицо или гос структуру и передавать шифровки самое лёгкое решение для террориста. Не говоря о работе курьера со служебной симкой. Тогда в чём смысл закона?
Примерно в том же, в чём был смысл выживания олигархов, а потом ТНК, а потом НКО. В запуске системы контроля. К сожалению, в мире не придумали общества, где абсолютная безопасность граждан была бы без ограничения свобод. ВВП предлагает миру абсолютную безопасность, но…
Тогда зачем считать затраты?

>абсолютную безопасность
обещание абсолютной безопасности
Во-первых ничего абсолютного не бывает.
во-вторых текущая реализация, никакой безопасности сама по себе не добавляет.
Я писал несколько раз в треде — мне просто стало интересно, откуда там триллион.

Насчёт бессмысленности реализации закона и цели его принятия — согласен (если думать «в лоб»), но это политика — там главное подать различимый сигнал кому следует. Взять на понты.
прочитал статью, и не покидает меня мысль, что это очень похоже на запланированный вброс.
Чую скоро ФБ и ВК пополнятся подобными статейками развеивания закона Яровой
Найдите меня в Фб и увидите, что я самый настоящий ФСБшник. Чего догадываться зазря? ;)
А мне другое интересно, автор статьи понимает что он этим делает ?!
Развлекаюсь, если честно.
Как, каким образом человек с такой высокой кармой высказывается не строго против Пу и Яровой? Недопустимо, я считаю, надо пожаловаться администрации чтобы вашу карму обнулили.
Вперёд. Мне уже 15 баллов сбили, не считая оценки за статью.
Но мне не жалко :)
Честно говоря я думал вы намеренно хабро-суицид учинили. Чтоб потом в роскомнадзор пожаловаться и заблочить гиктаймс.
Честно говоря, я немного опешил от того, что тут началось.

Но я таааак редко пишу на Хабр (минут 5 пароль пытался вспомнить), что вся эта история с кармой — небольшая досада.

Завтра напишу другое и наплюсуют.

Сейчас просто тема такая одиозная и горячая, что одно неосторожное движение и минус. Но. По модулю рейтинг у статьи вышел-таки вполне себе ничего :)
Все хотят знать, кто написал четыре миллиона доносов :)
— Алло, это ФСБ?
— Да
— Я отправлял смешной мемес в твиттор 31.09.2015, но случайно удалил, пришлите, пожалуйста, по email
Вот в чем правда смысл этого закона, убить IT отрасль в нашей стране и загнать всех обратно в (простите) «стойло»? Теперь не книг не скачать из инета для обучения ни программ никаких, и все ради того чтобы царь спал спокойно?
Думаю, что ситуация, где книги и программы для обучения можно скачать — не совсем хорошая стратегически.

Правда, закон не про это. По крайней мере, часть Яровой-Озерова.
Свободные и бесплатные книги, а также программы — пожалуйста. А за лицензионный (который коммерческий) контент и раньше нужно было платить.
А IT-отрасль никто и не убивает. Во многих аспектах — как раз наоборот. Тут я не говорю что проблем нет. Они есть, но и возможностей хватает, просто акцент сместился в другую сторону, а многим игрокам на рынке придётся менять свой подход к области.
> многим игрокам на рынке придётся менять свой подход к области.

Области проживания?
Перебираться в прибалтику?
Господа, ну серьёзно, раз уж вы так вольно трактуете «сообщения пользователей услугами связи» как любой трафик, пришедший на компьютер этого самого пользователя, в том числе видео с котиками с ютуба или 8 сезонов «Доктора Хауса», почему бы не пойти дальше и не расширить трактовку до вида «Операторы связи обязаны хранить… текстовые сообщения (любых) пользователей услугами связи, голосовую
информацию, изображения, звуки, видео-, иные сообщения (любых) пользователей услугами связи»?
Это позволит нарисовать в своём воображении ещё более трагическую картину, ведь тогда даже оператор «Вася Пупкин Телекомьюникейшн», перепродающий трафик Ростелекома домовой сети на 15 человек, будет обязан хранить полный архив всего трафика всех пользователей по всей планете. Вот тут-то с подсчётом затрат можно будет развернуться на полную!
А как вы различите видео с ютуба и комментарий на ютубе, если это https?
Как вы различите общение в vk (между прочим с фотками) и просмотр картинок в какой-то группе, если это https?
Как вы различите общение в телеграм, с end-to-end шифрованием?
Это уже проблема дополнительных законов и нормативных актов. Может, по примеру германии будет налажено применение полицейских троянов. Может, шифрование запретят. А может, никак не проработают вопрос и операторы связи получат возможность законно игнорировать весь шифрованный трафик.
К слову, мой комментарий был отнюдь не о разграничении типов трафика, а о направлении этого самого трафика. Согласно процитированной выше в комментариях выдержке из свежепринятого закона, правительству дано право обязать операторов связи обеспечить хранение сообщений пользователей услуг связи сроком до 6 месяцев, и информацию о факте передачи этих самых сообщений — сроком до 3 лет.
Мой вопрос: разве не следует из этого, что подразумеваются исключительно пользователи этого самого оператора связи? В таком случае нет никакой нужды обращать внимание на входящий трафик. Хранить требуется только исходящий (и то, не весь). Если же нет – в таком случае, не обязан ли каждый оператор связи хранить все сообщения всех пользователей всего интернета, в том числе условного Нгамбы Бгонга из ЮАР и некоего Барака Обамы из США, ведь они тоже являются пользователями услуг связи?
«разве не следует из этого, что подразумеваются исключительно пользователи этого самого оператора связи»

Нет, подразумевается хранение сообщений пользователя.
Слал пользователь сообщение, или получал пользователь сообщение — это оба сообщения, которые теперь принадлежат ему.
Следовательно И входящий И исходящий.
Комментарий на ютубе — сообщение? да.
Различить комментарий и само видео, если это https можно? нет
Только по размеру? Но видео не одним куском же идет. Значит хранить все? да.

Как вы видите, трактовать можно как угодно. И если вы доверяете судебной системе РФ в плане того, что они все сделают «правильно», значит вы считаете, что блокировка википедии, гугла и другие подобные действия это в норме вещей?
Пока этот вопрос не прописан в законах однозначно, будет двоякое толкование. До июля 2018 есть ещё время для уточнения или отмены этих норм.
(И всё же, по поводу Вашей трактовки. Действительно, обычное же дело, когда человек говорит другу: «получил вчера от тебя своё письмо». Или в новостях пишут «хакер Хелл вскрыл почтовый ящик очередной известной личности и скачал полный архив своих сообщений».)

Ещё раз по поводу типов трафика. Видео на ютубе — тоже сообщение. Не только текстовые комментарии. В законе так и прописано: «текстовые сообщения, голосовая информация, изображения, звуки, видео-, иные сообщения».

Уточнять формулировки и вносить поправки будет Правительство РФ, а до того, как правки внесены, операторы связи и «организаторы распространения информации в сети интернет», то есть те, к кому закон предъявляет требования, вольны трактовать эти требования по своему усмотрению.

И к чему, интересно, Вы упомянули судебную систему РФ? Что именно она должна сделать «правильно», если в п.2.а ст. 13 и п.1 ст. 15 ФЗ №374 от 06.07.2016, которые здесь обсуждаются, о ней не говорится ни слова?
К тому, что в случае судебного разбирательства, в этой стране суд будет стоять в первую очередь на стороне государства, а не граждан этого государства, чему есть множество доказательств.
а до того, как правки внесены, операторы связи и «организаторы распространения информации в сети интернет», то есть те, к кому закон предъявляет требования, вольны трактовать эти требования по своему усмотрению.

У вас там розовые пони за окном не летают? У нас тут вольны трактовать только «проверяющие» разных мастей, а операторы вольны только исполнять.
Деньги — это ещё пол беды. А вот конец безлимитным тарифам, жуткие пинги и лаги, которые появятся, если весь трафик писать — это будет боль. ТВ по интернету, исходники гигабайтами выкачиваются для сборки разного ПО, обновления — терабайта входящего трафика у меня за три дня иногда набирается (и это без учёта голоса).
Sign up to leave a comment.

Articles