ragequit 7 дек 2020 в 10:00

Освобождаем свои данные из корпоративного рабства. Концепция личного хранилища

7 мин

33K

Блог компании VDSina.ruИнформационная безопасность*Open source*Софт

+55

Комментарии 92

Javian 7 дек 2020 в 10:17

офф Его воспоминания, скорее всего, интересны только ему самому. Наследникам они не к чему. Исторического интереса, вероятно, не представляют.

slavius 7 дек 2020 в 12:19

Да-да, поэтому не публикуют письма Пушкина, например… Дневники известных людей… Мемуары — тоже в топку истории.

Люди, которые не учат историю будут повторять чужие ошибки. А люди, которые учат — вынуждены беспомощно наблюдать, как люди которые не учат — повторяют ошибки.

Javian 7 дек 2020 в 12:33

Эти люди были при жизни известными. А этого гражданина я вижу впервые.

-12

rezdm 7 дек 2020 в 13:26

Вы про Стивена Вольфрама?

+27

geirby 25 дек 2020 в 08:31

Шутка про неизвестность Стивена Вольфрама при жизни получила «отрицательный рост» оценок.

kasiopei 7 дек 2020 в 12:44

Те кто учат историю тоже повторяют ошибки. И даже на своем опыте люди не учатся.

zacisco 9 дек 2020 в 21:33

и тут приходим к тому, что не учить надо, а запоминать реперные точки и понимать происходящее и контекст

smart_alex 7 дек 2020 в 10:58

Что-то я не понял в чём проблема у Стивена Вольфрама. Есть локальный жёсткий диск и есть папка на нём с личными данными. Что не так?

Вообще сам посыл напоминает разводку в стиле «Докажи, что ты не лох, пошли СМС по нашему номеру». Зачем к своим личным чувствительным данным приделывать API? Чтобы они могли легче утечь?

Кроме того, у Стивена на столе стоят Apple мониторы — очевидно, что он пользуется техникой Apple — о каких вообще личных данных он ведёт речь, когда Apple тотально сливает все его действия, включая файлы, клавиатурный ввод, телеметрию по запуску приложений и т. д. и т. п.

Cheater 7 дек 2020 в 11:44

Автор, наоборот, написал набор скриптов для инкрементального импорта перс. данных из вебсервисов в локальный JSON. Плюс визуализация и т.д. Дальше уже идут API для экспорта/распределённого хранения этого самого JSON.

Но да, Вольфрам здесь упомянут ни к селу ни к городу 3 раза. Чем он важен для этого самого offline-first движения? Написал какой-то софт для оффлайна или участвует в этом движении? Нет. Хратит гигабайты старой переписки? Таких людей тысячи. Имеет какой-то эффективный инструментарий для почты итд? Но статья даже не рассказывает, чем он пользуется. (Upd: в статье по ссылке кое-что рассказывает, как и ожидалось всё довольно примитивно, в основном пиар своего продукта; ЧСХ он пиарит API Wolfram для работы с mbox, но сам пользуется Apple Mail)

smart_alex 7 дек 2020 в 11:54

Автор, наоборот, написал набор скриптов для инкрементального импорта перс. данных из вебсервисов в локальный JSON.

Эээ… Если кто-то так озабочен своей приватностью, то почему ему не приходит на ум такая простая идея, что свои чувствительные данные ИЗНАЧАЛЬНО не нужно доверять третьим лицам? И не нужно их собственноручно загружать ни в какие сервисы и облака?

K0styan 7 дек 2020 в 12:06

О приватности речь в статье вообще не идёт, только о сохранности данных. В том числе данных из сервисов, клиентские приложения которых не хранят полную локальную базу.

smart_alex 7 дек 2020 в 12:15

Мне кажется в статье речь идёт не только о сохранности данных, но и о концептуальных отношениях личность — корпорации. Цитата:

Сейчас практически всем стала понятна сущность некоторых интернет-корпораций, которые стремятся получить от людей как можно больше личных данных — и заработать на этом. Они предлагают бесплатный хостинг, бесплатные мессенджеры, бесплатную почту — лишь бы люди отдали свои файлы, фотографии, письма, личные сообщения. Наши данные приносят огромные деньги, а люди стали продуктом. Поэтому техногиганты Google и Facebook — самые крупные корпорации в истории человечества. Это неудивительно, ведь в их распоряжении миллиарды единиц бесплатного «сырья», то есть «пользователей» (кстати, этим словом users называют людей только в двух областях: наркоиндустрии и индустрии программного обеспечения).

berez 8 дек 2020 в 13:58

Концептуальность там скорее для придания статье модности-солидности. А так-то смысл в том, чтобы все данные из разных сервисов и программ хранить единообразно. С сервисами понятно, они умереть могут или аккаунт удалить, утянув с собой все данные (переписку, почту и т.п). С программами не так очевидно:
— пользователь может поменять одну программу на другую (outlook на thunderbird, например). В результате часть данных может остаться в старом формате (который теперь нечем читать). Скажем, у меня сейчас в почтовой программе есть несколько сдохших почтовых аккаунтов, которые я держу только из-за писем. Если я когда-нибудь перееду на другую почтовую программу, я вряд ли буду импортировать данные из сдохших аккаунтов — и они зависнут мертвым грузом, т.к. прочесть их будет уже нечем.
Когда таких «переездов» накапливается много, дохлых нечитаемых данных тоже накапливается много. А ведь иногда они могут и пригодиться.

maxwolf 9 дек 2020 в 16:59

Недавно с удивлением обнаружил, что большая часть людей вокруг меня вообще не понимают, что такое «почтовая программа»… Для них почта — это www.mail.ru (ну, или www.gmail.com). Большая часть остальных — склонённые к сожительству с outlook с использованием служебного положения.

event1 7 дек 2020 в 18:44

По-моему ту не про то, чтоб спрятать свои данные от корпораций, а про то, что надо иметь локальную копию.

Ilyasyakubov 7 дек 2020 в 18:50

Apple сливает куда? Можно какую-нибудь ссылочку? Для себя интересуюсь.

smart_alex 7 дек 2020 в 20:26

Apple сливает куда?

Догадайтесь с трёх раз. Но здесь даже не важно, «куда» сливает, важно, что Стивен не хозяин своему компьютеру, а расходный материал корпорации Apple. И разговор о каких-то «личных данных» в этой ситуации вообще не имеет смысла.

cijic 8 дек 2020 в 06:35

Возможно автор комментария про подобное .

Swill 8 дек 2020 в 11:49

Насколько я понял, статья не столько о защите, сколько о парсинге с разных источников и бэкапе. Все остальное — тонкости и детали. Злые корпорации приплетены потому, что без них никуда. Не опубликуешь твит и не отправишь СМС, которые тебе нужно потом сохранить.

НЛО прилетело и опубликовало эту надпись здесь

smart_alex 25 дек 2020 в 08:09

Всё, что вам нужно знать об Apple, хорошо написал Сергей Голубицкий в своей статье про M1

https://novayagazeta.ru/articles/2020/11/14/87963-apple

(про то, что творит Apple и куда она ведёт своё стадо фанатов-зомби написано в заключительной части статьи, начиная с заголовка «Эпилог памяти Оруэлла»).

Хотя любому мало-мальски вменяемому человеку всё это и без Голубицкого было понятно.

-2

НЛО прилетело и опубликовало эту надпись здесь

Gordon01 7 дек 2020 в 11:01

Напоминаю, что у меня есть хорошая статья о том, как сделать роутер + NAS на х86, с openvpn, спокойно вытягивающем гигабит: https://habr.com/ru/post/478924/

Если интересно, могу про сборку и железо побольше написать

Tomasina 8 дек 2020 в 21:51

Интересно.

Gordon01 8 дек 2020 в 23:18

Принял, надо подумать что интересненькое можно написать)

maxwolf 9 дек 2020 в 17:05

Напишите про асинхронное зеркалирование без раскрытия данных. Сценарий такой: двое (или N) знакомых, достаточно квалифицированных, чтобы развернуть такую ноду, и присматривать за ней. На каждой ноде половина пространства — твоя, другая — знакомого. Своей ты пользуешься без ограничения, а другая — «втёмную» отдана под зеркалирование ноды знакомого. У него такая же конфигурация.

rogoz 9 дек 2020 в 18:07

Если правильно понял вашу задумку, такое можно с Syncthing сделать. Только самому надо шифровать файлы, чтобы друг не свои файлы не читал.

maxwolf 11 дек 2020 в 09:56

Спасибо, посмотрю. Хотя, конечно, почитать подробности про чужой опыт решения конкретной проблемы (да ещё и успешный, да ещё и на хабре) — экономит много времени.

fransua 7 дек 2020 в 11:57

Чем ему SOLID POD не устраивает, персональное хранилище, с апи, спецификацией и открытым стандартом, настраиваемым доступом, библиотеками и большим количеством открытых данных.

tmin10 7 дек 2020 в 12:06

У меня тоже были мысли организовать Personal Home Cloud, т.е. перенести свои сервисы со всяких облаков вроде гугла на локальный нас и работать там с документами, почтой, делать бэкапы, сохранить данные с онлайн сервисов через выгрузку и т.д. Руки, правда, до серьёзного начала, так и не дошли, увы.
В планах даже была пара статей на хабр, первая по выгрузке данных из разных сервисов, вторая уже про теорию и практику локального облака.

Gordon01 7 дек 2020 в 12:24

Делайте, даже owncloud/nextcloud лучше (дешевле и быстрее) того, что дает гугл.

Но вот вебофис все равно придется юзать гугловсккий или майковский.

tmin10 7 дек 2020 в 12:26

Там у nextcloud вроде есть интеграция с вебофисом либры (Collabora Online), я начинал тыкать их докер образ, но сразу как-то не заработало.

SkyWheel 8 дек 2020 в 07:47

Работаю со встроенными Collabora Online и OnlyOffice для Nextcloud. Оба работают вполне сносно. Не проверял правда на большой выборке пользователей. Но для личных нужд подходит более чем.

slavius 8 дек 2020 в 11:49

nextcloud с OnlyOffice объединяли сами? Или есть готовая нормальная сборка?

SkyWheel 15 дек 2020 в 07:11

Сервера OnlyOffice и Collabora Online как и сами веб-приложения доступны в свежей версии Nextcloud как приложения. Просто необходимо их установить в два клика, настройка тоже не трубует каких-то особых умений. Всё работает из коробки.
Есть нюанс: я установил Nextcloud как snap. Но, как показывает мой 3-хлетний опыт, их версия Nextcloud-snap ещё более стабильная чем стабильные версии самого Nextcloud, плюс имеют официальную поддержку.
В данный момент я использую две установки Nextcloud-snap, одна self-hosted, другая хостится в AWS. Одна использует OnlyOffice, другая Collabora Online. В общем-то всё работает без проблем.

slavius 7 дек 2020 в 12:20

Следующей статьёй должна быть инструкция по организации всего этого уже не у хостера, а у себя. Но это уже не к этому автору:)

Areso 7 дек 2020 в 13:56

Да почему, невозможное возможно (правда это было у «соседей», но учитывая, что они в одном рынке крутятся, то я допускаю, что и у vdsины тоже что-то такое или было, или будет. Надеюсь, правда, получше качеством):
habr.com/ru/company/ruvds/blog/528428

rezdm 7 дек 2020 в 13:28

Осталось понять, как статья, продвигающая идея «давайте хранить всё у себя на своём железе» соотносится с рекламодателем (вдсина — виртуал дедикейтед сервер, да?)

geirby 25 дек 2020 в 08:37

Потому что надо смотреть дальше: self-local storage это в будущем self-mail server, self-video host и т.п., которые будут разворачиваться по кнопке на криптованных контейнерах. У провайдера, скорее всего. В совсем далеком будущем, наш цифровой отпечаток будет экстерриториален и болтаться у нас над головой в качестве отдельного self-satellite.
Пишу о превращении в эти self-* периодически, но исходя из угрозы энтропии, которые грозят вот этим гигантским (теперь) сервисам (а, значит, и нам).

peacemakerv 7 дек 2020 в 13:52

Статья навеяла мысль о flash-накопителе (постоянно локально включенным в сеть), состоящем из сотен или тысяч индивидуально запитываемых блоков («секторов» диска) по запросу от API.
Ну, и конечно постоянно работающем блоке кэша, с самыми часто запрашиваемыми данными.

Например, ФИО и номер паспорта нужны часто — они в кэш-блоке. А записи «трудовой книжки» могут быть в дальнем углу, в обесточенном большую часть времени блоке.

Кэш-блок, конечно, при износе — заменяется другим автоматически.

Интересно, так долговечность такого накопителя будет ли выше?

Areso 7 дек 2020 в 13:57

Не думаю.
Основная проблема (ресурса) это количество циклов записи, а не чтения.
Как часто вы меняете ФИО и номер паспорта?

peacemakerv 7 дек 2020 в 14:05

Как часто вы меняете ФИО и номер паспорта?

Само собой редко, но эти данные в контексте личного хранилища — часто запрашиваются, на чтение, поэтому должны быть быстродоступны из кэша.
И если всегда запитан и работает активно только один блок из 1000 на накопителе — по любому он должен прожить гораздо дольше, к тому же потребляя минимум лепестричества.
Разумеется тут приносится в жертву среднее время доступа к инфо. Но это и спец-накопитель.

Revertis 7 дек 2020 в 20:48

SSD могут терять данные при отсутствии электричества долгое время. Тут, на Хабре была статья.

НЛО прилетело и опубликовало эту надпись здесь

peacemakerv 7 дек 2020 в 15:55

А точные причины подыхания контроллеров известны?

НЛО прилетело и опубликовало эту надпись здесь

wtigga 7 дек 2020 в 14:50

Это специальное приложение, которое непрерывно работает на клиентской стороне в фоновом режиме — и постоянно синхронизирует локальный архив со всеми внешними сервисами.

Synology и Thunderbird.

Первый синхронизирует Dropbox, Яндекс.диск, Google Drive на NAS.
Второй скачивает содержимое всех ящиков через POP3.

Удалят аккаунт — болезненно, но не смертельно. Свежие копии данных есть локально.
Осталось сделать подобные приложения для скачивания своих постов/комментариев из соцсетей.

A114n 7 дек 2020 в 18:41

Второй скачивает содержимое всех ящиков через POP3.

Главная проблема ВСЕХ почтовых программ — они не могут скачать отправленные письма.

event1 7 дек 2020 в 18:49

IMAP прекрасно позволяет синхронизирует отправленные сообщения. Просто, указываете папку Sent в списке синхронизируемых папок. У меня mbsync и offlineimap прекрасно справляются уже несколько лет.

A114n 7 дек 2020 в 21:39

А что произойдет, если вы
1) Используете IMAP для синхронизации
2) Удалите всю почту с сервера
3) Используете IMAP для синхронизации ещё раз

event1 7 дек 2020 в 22:00

Я именно так попал, когда на работе поменяли сервер. Хвала бекапу, письма не потерялись. С тех пор я узнал, что в mbsync есть специальная опция Remove none.

A114n 8 дек 2020 в 15:09

Сейчас после длительного опыта работы с почтой, я понимаю, что нужен был какой-то механизм двустороннего обмена.
Буквально вот выбираешь определённые письма и их перемещаешь между сервером и почтовой программой. Если они лежат во входящих — они должны туда и попадать. Если их по какой-то причине нет — копируются. Если есть — не дублируются.

НЛО прилетело и опубликовало эту надпись здесь

A114n 9 дек 2020 в 09:32

А как по SMTP закачать уже отправленные письма на сервер в папку отправленных?

НЛО прилетело и опубликовало эту надпись здесь

Fr0sT-Brutal 8 дек 2020 в 01:21

Главная проблема ВСЕХ почтовых программ — они не могут скачать отправленные письма.

Если задача не очень регулярная, я делаю так: переношу на сервере отправленные во входящие, закачиваю их почтовиком, переношу их в отправленные внутри него.
Ну и это проблема не программ, а сервера и протокола (я о РОР3)

A114n 8 дек 2020 в 14:59

Именно! В этом и беда, что до сих пор не прикрутили хоть какой-то нашлёпки для исправления этой беды.

muxa_ru 7 дек 2020 в 15:44

С одной стороны, я очень расстроен тем как умирают популярные сервисы унеся с собой огромное количество накопленной информации.

Сервисы, сайты, технологии — умирает просто по одному клику мышкой. Щас флэш умрёт и утянет за собой кучу всего — https://habr.com/ru/post/531262/ .

А с другой, то что в мои детские годы интернета не было, а в студенческие был но не был так развит — скорее благо.

Вобщем, всё сложно.
Надеюсь что упомянутый в тексте мужик подтёр некоторые переписки :)

xakep2011 7 дек 2020 в 17:15

Давно хотел приложение, собирающее инфу со всех сервисов (почта, сообщения, комментарии, фото, геолокация) и распределяющее её по оси времени. У гугла есть что-то похожее, но интерфейс абсолютно неподходящий и устаревший для этих целей

vrangel 7 дек 2020 в 18:05

Нам нужны удобные программы, сервисы, базы данных и защищённые хранилища для фотографий, личных финансов, социального графа, данных о личной продуктивности, потреблению продуктов, истории всех чатов в онлайне и офлайне, личного дневника, медицинских данных (пульс, давление, настроение и проч.), прочитанной литературы и публицистических статей, просмотренных веб-страниц, фильмов и видеороликов, прослушанной музыки и так далее.

Я лично не понимаю, нафига вести вот такой подробный цифровой дневник. Ну с фото согласен. Но зачем мне история посещенных веб страниц? Настроения? Представляю сцену из будущего:
— Ты этот фильм видел?
— Надо посмотреть в логах

Нужны удобные инструменты для анализа и статистики. Нужны персональные нейросети для обработки данных и предсказания личных решений (например, для рекомендации музыкальных групп, блюд кухни или людей для общения).

Зачем лично мне личные нейросети для предсказания моих личных решений. Я сам проанализирую и решу. Блюдо сам закажу. Спасибо.

muxa_ru 7 дек 2020 в 18:35

Но зачем мне история посещенных веб страниц?

Я недавно в процессе изучения темы про стахановцев читал много разных книжек.

Наутро вспомнил про интересный момент который видел, но не сохранил.

Открыл историю и стал пересматривать.

И это не первый такой случай.

event1 7 дек 2020 в 18:53

для предсказания, наверное незачем. А вот вытягивать что-нибудь интересное из старых данных — заболевание какое-нибудь на начальной стадии, например — было бы интересно.

Biga 7 дек 2020 в 20:46

Для предсказания как раз очень полезно. Например, фильтровать новостную ленту (или даже Хабр) от статей, которые я точно не буду читать. Сейчас приходится тупо скроллить, читая заголовки.

event1 7 дек 2020 в 21:11

дело ваше, конечно, но я бы не доверил компьютеру следить за моим информационным пузырём

tmin10 7 дек 2020 в 22:36

Вы так получите аналог поискового пузыря, когда никакая новая информация не сможет прорваться в ваше окружение. Например писал всегда под одним фреймворком и поиск будет услужливо подставлять только его, а не то, что может быть более интересным.

Biga 7 дек 2020 в 23:44

Эта проблема понятна. Фильтрация должна быть максимально осторожной. К примеру, я абсолютно уверен, что не хочу читать статьи про маркетинг и новости про криминал. Это отфильтровало бы достаточно существенный процент информационного мусора без ущерба для моего кругозора.

Без ИИ я просто ставлю в игнор определенные теги, то есть "пузырь" фактически уже есть и меня устраивает. Но теги есть далеко не во всех новостных лентах или блогах.

tmin10 7 дек 2020 в 22:34

История страниц штука полезная. Помнишь, что прошлым летом искал что-то по вопросу, а вот история помогает найти те страницы и точные запросы. Несколько раз так помогало.

A114n 8 дек 2020 в 15:11

Но зачем мне история посещенных веб страниц?

Как уже указали в ответе выше — это совершенно необходимо, когда вспоминаешь, что «Недавно читал где-то» и лезешь в историю.
Я всё мечтаю о браузере, который реально будет просто сохранять в оффлайн все страницы, которые ты захотел — кликнул на кнопку и всё. Но пока есть только всякие полумеры типа мёртвого скрапбука.

K0styan 8 дек 2020 в 15:45

Evernote и OneNote предлагают свои клипперы для всех ходовых браузеров. Да, это дополнительный сервис, но у них по крайней мере базы локально хранятся.

Я вообще всё потенциально интересное загоняю в Pocket, если понимаю, что буду обращаться к этому материалу позже — пересохраняю в Evernote.

maxwolf 9 дек 2020 в 17:16

А в чём, по Вашему, должна заключаться «жизнь» скрапбука (и почему он — полумера)? У меня он работает, каши не просит. Ни одной страницы, содержательная часть которой мне была бы интересна, и он не смог бы её сохранить, я пока не встретил (при текущем объёме базы под 50Gb). Что я упускаю?

НЛО прилетело и опубликовало эту надпись здесь

Vinchi 8 дек 2020 в 03:23

Всегда при долговременном хранении встает вопрос отказоустойчивости и бэкапов. Так что хранить локально не вариант. Значит нужна синхронизация с облаком. Это уже есть — google, dropbox и т.п. дальше добавляем синхронизацию с популярными сервисами в облако. Ну а дальше надо думать как можно монетизировать. Т.е. делать какой то вьювер для этих данных на случай офлайн доступа.

bonta 8 дек 2020 в 07:29

кстати, этим словом users называют людей только в двух областях: наркоиндустрии и индустрии программного обеспечения

Вот это поворот, не знал. User реально можно перевести как наркоман :)

mkostya 8 дек 2020 в 15:10

Поэтому техногиганты Google и Facebook — самые крупные корпорации в истории человечества.

Вообще-то, самая крупная корпорация сегодня — это Apple, а у нее с конфиденциальностью данных все намного лучше, чем у вышеупомянутых Google и Facebook

-1

bonta 9 дек 2020 в 10:08

Это кстати удивительно, если выудить из русской вики данные о сотрудниках яндекса, гугла и эппла то будет 9k, 127k, 137k.

Удивительно в том плане что я вижу что Гугл и Яндекс действительно многое что делают. А вот эппл, ну делает процессоры на ARM не лучше не хуже других, делает телефоны, ноутбуки и рабочие станции, которые мягко говоря не лучше других. Вроде мониторами славился (славится?) (из-за чего фотографы его любили раньше) — но думаю уже чисто Китайские не хуже в 2020м. Ну ок, есть у них своя операционка, которая тоже, мягко говоря не на острие прогресса.

Короче говоря я в шоке — что все эти 137 тысяч человек в эппле делают. Может они всех менеджеров по продажам во всём мире посчтитали? :)

Вот Майкрософт кстати имеет 140k сотрудников, и то как он развивает, кроме Windows, которая действительно крута (хотя я фан Линукса, но и на ВинАпи писал, и скажу это другое, но мне понравилось), крутые технологии вроде Net, Azure, Xamarin — т.е. я могу понять что там 140k чел делом заняты. А Яндекс вообще вон делает классный поиск (местами лучше гуглового, особенно по части поиска по картинкам и машинного распознавания что на них), делает более технологичные дата-центры чем Гугл, которые отапливают жителей Финляндии (удивился но факт, тепло от охлаждения их вычислительных блоков — идёт в дома финов) — и при этом там всего 8k.

А в Эппле, которая не делает ничего, чем моя скромная персона могла бы восхититься — рабоатает 137k, короче я в шоке -_-

mkostya 9 дек 2020 в 11:18

Ну во-первых — да, в Apple все работники магазинов, включая продавцов самого низкого уровня, а также вся обслуга — например, уборщики, работники столовой — все они работники Apple, и все это из-за политики конфиденциальности. Apple старается как можно меньше пользоваться аутсорсингом. Во-вторых, все что вы написали Apple делает — а это очень много всего, там есть и software, и hardware, причем разнообразное hardware, все это требует большого количества инженеров.

Mistx 8 дек 2020 в 15:51

Стивен пытается навести людей на мысль о выгоде для конкретного индивидуума использования децентрализованных сервисов. И тут его сложно не поддержать, ведь все проблемы современного общества именно из-за гигантского дисбаланса, порождаемого супервыгодными для элиты и ущербными для общества централизованными сервисами (институтами). Думаю, сейчас лучшее время для разработки децентрализованных аналогов всего, ведь современная экономическая модель себя полностью исчерпала, а новую только предстоит создать. Если общество проиграет эту технологическую гонку, мы все можем оказаться в условиях неофеодализма, абсолютно лишённые всех прав, свобод и каких либо возможностей, кроме прихоти элиты. Рекомендую DHT и blockchain в качестве основы.

tmin10 8 дек 2020 в 17:36

С DHT и блокчейном получится проблемка, что участники сети должны хранить чужую информацию на своём железе и если мы хотим хранить сразу 2-3 копии, то чужого надо хранить раза в 2-3 больше, чем своего. А 2-3 реплики — мне кажется, слишком оптимистично для сети из случайных участников, это скорее актуально для кластера в датацентре, т.е. надо больше реплик и больше оверхеда.

Mistx 8 дек 2020 в 17:51

Если мы говорим про решение задачи хранения своих собственных данных, то:
1. Собираем коллекцию файлов в иерархии директорий
2. Шифруем (как директорию или как архив)
3. Создаём torrent-файл
4. Размещаем на всех своих подконтрольных машинах и сидируем
При таком подходе надо будет автоматизировать только процесс добавления новых данных к сидируемому хранилищу. Небольшая программка на любимом языке поможет (идея для стартапа ;).

tmin10 8 дек 2020 в 17:53

Если есть подконтрольные машины, то можно настроить репликацию данных без p2p, конфигурация же не меняется динамически. У моего QNAP можно сделать зеркало на другой nas и оно будет автоматически реплицировать новые данные по сети.

berez 8 дек 2020 в 19:04

Если добавить в директорию файлы, то торрент-файл будет другим — поменяется его хэш. В результате остальные машины будут сидировать старый торрент и не подхватят новые файлы.
Вам придется писать систему по обновлению торрент-файлов на подконтрольных вам машинах.

tmin10 9 дек 2020 в 12:36

Вообще есть инструмент для этого: Resilio Sync (ранее BitTorrent Sync), но, возможно, есть и OpenSource решения.

НЛО прилетело и опубликовало эту надпись здесь

K0styan 8 дек 2020 в 19:37

Любой инструмент шифрования по выбору, тот же VeraCrypt + Resilio (бывший TorrentSync) или SyncThing. Вполне рабочая схема.

Минусы соответствующие: если на одном узле файл сломается, то он ровно так же очень быстро окажется сломанным и на прочих.

НЛО прилетело и опубликовало эту надпись здесь

muxa_ru 9 дек 2020 в 15:21

Это не минусы, а неотъемлемое свойство электронных архивов. Они как кот шрёдингера — пока не распакуешь и не запустишь, не узнаешь жив он или нет.

dimskiy 9 дек 2020 в 20:16

Какой-то набор проблем с общими идеями решения или «а вот тут хз, еще не придумали». Особенно порадовало начало в духе «а еще запилить свою нейросеть рекомендации музыки, да чтоб удобно и не хуже гугла». Ага, в одиночку :) Да даже малая группа не породит ничего действительно удобного.
Тогда уж надо проповедовать аскетизм и ограничение числа потребляемых сервисов

Furriest 10 дек 2020 в 06:53

Первый абзац написан так, как будто это что-то плохое.
Мне давно интересно узнать, как среднестатистический Джон Доу пострадал от того, что корпорации зарабатывают на его персональных данных.

НЛО прилетело и опубликовало эту надпись здесь

muxa_ru 14 дек 2020 в 20:00

Увы, неизвестно, что именно войдёт в ненужные 99%, а что в нужные 1%.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий