Как стать автором
Обновить

Комментарии 92

офф Его воспоминания, скорее всего, интересны только ему самому. Наследникам они не к чему. Исторического интереса, вероятно, не представляют.
Да-да, поэтому не публикуют письма Пушкина, например… Дневники известных людей… Мемуары — тоже в топку истории.

Люди, которые не учат историю будут повторять чужие ошибки. А люди, которые учат — вынуждены беспомощно наблюдать, как люди которые не учат — повторяют ошибки.
Эти люди были при жизни известными. А этого гражданина я вижу впервые.
Вы про Стивена Вольфрама?
Шутка про неизвестность Стивена Вольфрама при жизни получила «отрицательный рост» оценок.
Те кто учат историю тоже повторяют ошибки. И даже на своем опыте люди не учатся.
и тут приходим к тому, что не учить надо, а запоминать реперные точки и понимать происходящее и контекст
Что-то я не понял в чём проблема у Стивена Вольфрама. Есть локальный жёсткий диск и есть папка на нём с личными данными. Что не так?

Вообще сам посыл напоминает разводку в стиле «Докажи, что ты не лох, пошли СМС по нашему номеру». Зачем к своим личным чувствительным данным приделывать API? Чтобы они могли легче утечь?

Кроме того, у Стивена на столе стоят Apple мониторы — очевидно, что он пользуется техникой Apple — о каких вообще личных данных он ведёт речь, когда Apple тотально сливает все его действия, включая файлы, клавиатурный ввод, телеметрию по запуску приложений и т. д. и т. п.

Автор, наоборот, написал набор скриптов для инкрементального импорта перс. данных из вебсервисов в локальный JSON. Плюс визуализация и т.д. Дальше уже идут API для экспорта/распределённого хранения этого самого JSON.


Но да, Вольфрам здесь упомянут ни к селу ни к городу 3 раза. Чем он важен для этого самого offline-first движения? Написал какой-то софт для оффлайна или участвует в этом движении? Нет. Хратит гигабайты старой переписки? Таких людей тысячи. Имеет какой-то эффективный инструментарий для почты итд? Но статья даже не рассказывает, чем он пользуется. (Upd: в статье по ссылке кое-что рассказывает, как и ожидалось всё довольно примитивно, в основном пиар своего продукта; ЧСХ он пиарит API Wolfram для работы с mbox, но сам пользуется Apple Mail)

Автор, наоборот, написал набор скриптов для инкрементального импорта перс. данных из вебсервисов в локальный JSON.

Эээ… Если кто-то так озабочен своей приватностью, то почему ему не приходит на ум такая простая идея, что свои чувствительные данные ИЗНАЧАЛЬНО не нужно доверять третьим лицам? И не нужно их собственноручно загружать ни в какие сервисы и облака?

О приватности речь в статье вообще не идёт, только о сохранности данных. В том числе данных из сервисов, клиентские приложения которых не хранят полную локальную базу.

Мне кажется в статье речь идёт не только о сохранности данных, но и о концептуальных отношениях личность — корпорации. Цитата:
Сейчас практически всем стала понятна сущность некоторых интернет-корпораций, которые стремятся получить от людей как можно больше личных данных — и заработать на этом. Они предлагают бесплатный хостинг, бесплатные мессенджеры, бесплатную почту — лишь бы люди отдали свои файлы, фотографии, письма, личные сообщения. Наши данные приносят огромные деньги, а люди стали продуктом. Поэтому техногиганты Google и Facebook — самые крупные корпорации в истории человечества. Это неудивительно, ведь в их распоряжении миллиарды единиц бесплатного «сырья», то есть «пользователей» (кстати, этим словом users называют людей только в двух областях: наркоиндустрии и индустрии программного обеспечения).
Концептуальность там скорее для придания статье модности-солидности. А так-то смысл в том, чтобы все данные из разных сервисов и программ хранить единообразно. С сервисами понятно, они умереть могут или аккаунт удалить, утянув с собой все данные (переписку, почту и т.п). С программами не так очевидно:
— пользователь может поменять одну программу на другую (outlook на thunderbird, например). В результате часть данных может остаться в старом формате (который теперь нечем читать). Скажем, у меня сейчас в почтовой программе есть несколько сдохших почтовых аккаунтов, которые я держу только из-за писем. Если я когда-нибудь перееду на другую почтовую программу, я вряд ли буду импортировать данные из сдохших аккаунтов — и они зависнут мертвым грузом, т.к. прочесть их будет уже нечем.
Когда таких «переездов» накапливается много, дохлых нечитаемых данных тоже накапливается много. А ведь иногда они могут и пригодиться.
Недавно с удивлением обнаружил, что большая часть людей вокруг меня вообще не понимают, что такое «почтовая программа»… Для них почта — это www.mail.ru (ну, или www.gmail.com). Большая часть остальных — склонённые к сожительству с outlook с использованием служебного положения.
По-моему ту не про то, чтоб спрятать свои данные от корпораций, а про то, что надо иметь локальную копию.

Apple сливает куда? Можно какую-нибудь ссылочку? Для себя интересуюсь.

Apple сливает куда?

Догадайтесь с трёх раз. Но здесь даже не важно, «куда» сливает, важно, что Стивен не хозяин своему компьютеру, а расходный материал корпорации Apple. И разговор о каких-то «личных данных» в этой ситуации вообще не имеет смысла.
Насколько я понял, статья не столько о защите, сколько о парсинге с разных источников и бэкапе. Все остальное — тонкости и детали. Злые корпорации приплетены потому, что без них никуда. Не опубликуешь твит и не отправишь СМС, которые тебе нужно потом сохранить.
НЛО прилетело и опубликовало эту надпись здесь
Всё, что вам нужно знать об Apple, хорошо написал Сергей Голубицкий в своей статье про M1

https://novayagazeta.ru/articles/2020/11/14/87963-apple

(про то, что творит Apple и куда она ведёт своё стадо фанатов-зомби написано в заключительной части статьи, начиная с заголовка «Эпилог памяти Оруэлла»).

Хотя любому мало-мальски вменяемому человеку всё это и без Голубицкого было понятно.
НЛО прилетело и опубликовало эту надпись здесь

Напоминаю, что у меня есть хорошая статья о том, как сделать роутер + NAS на х86, с openvpn, спокойно вытягивающем гигабит: https://habr.com/ru/post/478924/


Если интересно, могу про сборку и железо побольше написать

Интересно.

Принял, надо подумать что интересненькое можно написать)

Напишите про асинхронное зеркалирование без раскрытия данных. Сценарий такой: двое (или N) знакомых, достаточно квалифицированных, чтобы развернуть такую ноду, и присматривать за ней. На каждой ноде половина пространства — твоя, другая — знакомого. Своей ты пользуешься без ограничения, а другая — «втёмную» отдана под зеркалирование ноды знакомого. У него такая же конфигурация.
Если правильно понял вашу задумку, такое можно с Syncthing сделать. Только самому надо шифровать файлы, чтобы друг не свои файлы не читал.
Спасибо, посмотрю. Хотя, конечно, почитать подробности про чужой опыт решения конкретной проблемы (да ещё и успешный, да ещё и на хабре) — экономит много времени.
Чем ему SOLID POD не устраивает, персональное хранилище, с апи, спецификацией и открытым стандартом, настраиваемым доступом, библиотеками и большим количеством открытых данных.
У меня тоже были мысли организовать Personal Home Cloud, т.е. перенести свои сервисы со всяких облаков вроде гугла на локальный нас и работать там с документами, почтой, делать бэкапы, сохранить данные с онлайн сервисов через выгрузку и т.д. Руки, правда, до серьёзного начала, так и не дошли, увы.
В планах даже была пара статей на хабр, первая по выгрузке данных из разных сервисов, вторая уже про теорию и практику локального облака.

Делайте, даже owncloud/nextcloud лучше (дешевле и быстрее) того, что дает гугл.


Но вот вебофис все равно придется юзать гугловсккий или майковский.

Там у nextcloud вроде есть интеграция с вебофисом либры (Collabora Online), я начинал тыкать их докер образ, но сразу как-то не заработало.
Работаю со встроенными Collabora Online и OnlyOffice для Nextcloud. Оба работают вполне сносно. Не проверял правда на большой выборке пользователей. Но для личных нужд подходит более чем.
nextcloud с OnlyOffice объединяли сами? Или есть готовая нормальная сборка?
Сервера OnlyOffice и Collabora Online как и сами веб-приложения доступны в свежей версии Nextcloud как приложения. Просто необходимо их установить в два клика, настройка тоже не трубует каких-то особых умений. Всё работает из коробки.
Есть нюанс: я установил Nextcloud как snap. Но, как показывает мой 3-хлетний опыт, их версия Nextcloud-snap ещё более стабильная чем стабильные версии самого Nextcloud, плюс имеют официальную поддержку.
В данный момент я использую две установки Nextcloud-snap, одна self-hosted, другая хостится в AWS. Одна использует OnlyOffice, другая Collabora Online. В общем-то всё работает без проблем.
Следующей статьёй должна быть инструкция по организации всего этого уже не у хостера, а у себя. Но это уже не к этому автору:)
Да почему, невозможное возможно (правда это было у «соседей», но учитывая, что они в одном рынке крутятся, то я допускаю, что и у vdsины тоже что-то такое или было, или будет. Надеюсь, правда, получше качеством):
habr.com/ru/company/ruvds/blog/528428
Осталось понять, как статья, продвигающая идея «давайте хранить всё у себя на своём железе» соотносится с рекламодателем (вдсина — виртуал дедикейтед сервер, да?)
Потому что надо смотреть дальше: self-local storage это в будущем self-mail server, self-video host и т.п., которые будут разворачиваться по кнопке на криптованных контейнерах. У провайдера, скорее всего. В совсем далеком будущем, наш цифровой отпечаток будет экстерриториален и болтаться у нас над головой в качестве отдельного self-satellite.
Пишу о превращении в эти self-* периодически, но исходя из угрозы энтропии, которые грозят вот этим гигантским (теперь) сервисам (а, значит, и нам).
Статья навеяла мысль о flash-накопителе (постоянно локально включенным в сеть), состоящем из сотен или тысяч индивидуально запитываемых блоков («секторов» диска) по запросу от API.
Ну, и конечно постоянно работающем блоке кэша, с самыми часто запрашиваемыми данными.

Например, ФИО и номер паспорта нужны часто — они в кэш-блоке. А записи «трудовой книжки» могут быть в дальнем углу, в обесточенном большую часть времени блоке.

Кэш-блок, конечно, при износе — заменяется другим автоматически.

Интересно, так долговечность такого накопителя будет ли выше?
Не думаю.
Основная проблема (ресурса) это количество циклов записи, а не чтения.
Как часто вы меняете ФИО и номер паспорта?
Как часто вы меняете ФИО и номер паспорта?

Само собой редко, но эти данные в контексте личного хранилища — часто запрашиваются, на чтение, поэтому должны быть быстродоступны из кэша.
И если всегда запитан и работает активно только один блок из 1000 на накопителе — по любому он должен прожить гораздо дольше, к тому же потребляя минимум лепестричества.
Разумеется тут приносится в жертву среднее время доступа к инфо. Но это и спец-накопитель.
SSD могут терять данные при отсутствии электричества долгое время. Тут, на Хабре была статья.
НЛО прилетело и опубликовало эту надпись здесь
А точные причины подыхания контроллеров известны?
НЛО прилетело и опубликовало эту надпись здесь
Это специальное приложение, которое непрерывно работает на клиентской стороне в фоновом режиме — и постоянно синхронизирует локальный архив со всеми внешними сервисами.

Synology и Thunderbird.

Первый синхронизирует Dropbox, Яндекс.диск, Google Drive на NAS.
Второй скачивает содержимое всех ящиков через POP3.

Удалят аккаунт — болезненно, но не смертельно. Свежие копии данных есть локально.
Осталось сделать подобные приложения для скачивания своих постов/комментариев из соцсетей.
Второй скачивает содержимое всех ящиков через POP3.

Главная проблема ВСЕХ почтовых программ — они не могут скачать отправленные письма.
IMAP прекрасно позволяет синхронизирует отправленные сообщения. Просто, указываете папку Sent в списке синхронизируемых папок. У меня mbsync и offlineimap прекрасно справляются уже несколько лет.
А что произойдет, если вы
1) Используете IMAP для синхронизации
2) Удалите всю почту с сервера
3) Используете IMAP для синхронизации ещё раз
Я именно так попал, когда на работе поменяли сервер. Хвала бекапу, письма не потерялись. С тех пор я узнал, что в mbsync есть специальная опция Remove none.
Сейчас после длительного опыта работы с почтой, я понимаю, что нужен был какой-то механизм двустороннего обмена.
Буквально вот выбираешь определённые письма и их перемещаешь между сервером и почтовой программой. Если они лежат во входящих — они должны туда и попадать. Если их по какой-то причине нет — копируются. Если есть — не дублируются.
НЛО прилетело и опубликовало эту надпись здесь
А как по SMTP закачать уже отправленные письма на сервер в папку отправленных?
НЛО прилетело и опубликовало эту надпись здесь
Главная проблема ВСЕХ почтовых программ — они не могут скачать отправленные письма.

Если задача не очень регулярная, я делаю так: переношу на сервере отправленные во входящие, закачиваю их почтовиком, переношу их в отправленные внутри него.
Ну и это проблема не программ, а сервера и протокола (я о РОР3)
Именно! В этом и беда, что до сих пор не прикрутили хоть какой-то нашлёпки для исправления этой беды.

С одной стороны, я очень расстроен тем как умирают популярные сервисы унеся с собой огромное количество накопленной информации.


Сервисы, сайты, технологии — умирает просто по одному клику мышкой. Щас флэш умрёт и утянет за собой кучу всего — https://habr.com/ru/post/531262/ .


А с другой, то что в мои детские годы интернета не было, а в студенческие был но не был так развит — скорее благо.


Вобщем, всё сложно.
Надеюсь что упомянутый в тексте мужик подтёр некоторые переписки :)

Давно хотел приложение, собирающее инфу со всех сервисов (почта, сообщения, комментарии, фото, геолокация) и распределяющее её по оси времени. У гугла есть что-то похожее, но интерфейс абсолютно неподходящий и устаревший для этих целей
Нам нужны удобные программы, сервисы, базы данных и защищённые хранилища для фотографий, личных финансов, социального графа, данных о личной продуктивности, потреблению продуктов, истории всех чатов в онлайне и офлайне, личного дневника, медицинских данных (пульс, давление, настроение и проч.), прочитанной литературы и публицистических статей, просмотренных веб-страниц, фильмов и видеороликов, прослушанной музыки и так далее.


Я лично не понимаю, нафига вести вот такой подробный цифровой дневник. Ну с фото согласен. Но зачем мне история посещенных веб страниц? Настроения? Представляю сцену из будущего:
— Ты этот фильм видел?
— Надо посмотреть в логах

Нужны удобные инструменты для анализа и статистики. Нужны персональные нейросети для обработки данных и предсказания личных решений (например, для рекомендации музыкальных групп, блюд кухни или людей для общения).


Зачем лично мне личные нейросети для предсказания моих личных решений. Я сам проанализирую и решу. Блюдо сам закажу. Спасибо.
Но зачем мне история посещенных веб страниц?

Я недавно в процессе изучения темы про стахановцев читал много разных книжек.


Наутро вспомнил про интересный момент который видел, но не сохранил.


Открыл историю и стал пересматривать.


И это не первый такой случай.

для предсказания, наверное незачем. А вот вытягивать что-нибудь интересное из старых данных — заболевание какое-нибудь на начальной стадии, например — было бы интересно.

Для предсказания как раз очень полезно. Например, фильтровать новостную ленту (или даже Хабр) от статей, которые я точно не буду читать. Сейчас приходится тупо скроллить, читая заголовки.

дело ваше, конечно, но я бы не доверил компьютеру следить за моим информационным пузырём
Вы так получите аналог поискового пузыря, когда никакая новая информация не сможет прорваться в ваше окружение. Например писал всегда под одним фреймворком и поиск будет услужливо подставлять только его, а не то, что может быть более интересным.

Эта проблема понятна. Фильтрация должна быть максимально осторожной. К примеру, я абсолютно уверен, что не хочу читать статьи про маркетинг и новости про криминал. Это отфильтровало бы достаточно существенный процент информационного мусора без ущерба для моего кругозора.


Без ИИ я просто ставлю в игнор определенные теги, то есть "пузырь" фактически уже есть и меня устраивает. Но теги есть далеко не во всех новостных лентах или блогах.

История страниц штука полезная. Помнишь, что прошлым летом искал что-то по вопросу, а вот история помогает найти те страницы и точные запросы. Несколько раз так помогало.
Но зачем мне история посещенных веб страниц?

Как уже указали в ответе выше — это совершенно необходимо, когда вспоминаешь, что «Недавно читал где-то» и лезешь в историю.
Я всё мечтаю о браузере, который реально будет просто сохранять в оффлайн все страницы, которые ты захотел — кликнул на кнопку и всё. Но пока есть только всякие полумеры типа мёртвого скрапбука.
Evernote и OneNote предлагают свои клипперы для всех ходовых браузеров. Да, это дополнительный сервис, но у них по крайней мере базы локально хранятся.

Я вообще всё потенциально интересное загоняю в Pocket, если понимаю, что буду обращаться к этому материалу позже — пересохраняю в Evernote.
А в чём, по Вашему, должна заключаться «жизнь» скрапбука (и почему он — полумера)? У меня он работает, каши не просит. Ни одной страницы, содержательная часть которой мне была бы интересна, и он не смог бы её сохранить, я пока не встретил (при текущем объёме базы под 50Gb). Что я упускаю?
НЛО прилетело и опубликовало эту надпись здесь

Всегда при долговременном хранении встает вопрос отказоустойчивости и бэкапов. Так что хранить локально не вариант. Значит нужна синхронизация с облаком. Это уже есть — google, dropbox и т.п. дальше добавляем синхронизацию с популярными сервисами в облако. Ну а дальше надо думать как можно монетизировать. Т.е. делать какой то вьювер для этих данных на случай офлайн доступа.

кстати, этим словом users называют людей только в двух областях: наркоиндустрии и индустрии программного обеспечения

image
Вот это поворот, не знал. User реально можно перевести как наркоман :)
Поэтому техногиганты Google и Facebook — самые крупные корпорации в истории человечества.


Вообще-то, самая крупная корпорация сегодня — это Apple, а у нее с конфиденциальностью данных все намного лучше, чем у вышеупомянутых Google и Facebook
Это кстати удивительно, если выудить из русской вики данные о сотрудниках яндекса, гугла и эппла то будет 9k, 127k, 137k.

Удивительно в том плане что я вижу что Гугл и Яндекс действительно многое что делают. А вот эппл, ну делает процессоры на ARM не лучше не хуже других, делает телефоны, ноутбуки и рабочие станции, которые мягко говоря не лучше других. Вроде мониторами славился (славится?) (из-за чего фотографы его любили раньше) — но думаю уже чисто Китайские не хуже в 2020м. Ну ок, есть у них своя операционка, которая тоже, мягко говоря не на острие прогресса.

Короче говоря я в шоке — что все эти 137 тысяч человек в эппле делают. Может они всех менеджеров по продажам во всём мире посчтитали? :)

Вот Майкрософт кстати имеет 140k сотрудников, и то как он развивает, кроме Windows, которая действительно крута (хотя я фан Линукса, но и на ВинАпи писал, и скажу это другое, но мне понравилось), крутые технологии вроде Net, Azure, Xamarin — т.е. я могу понять что там 140k чел делом заняты. А Яндекс вообще вон делает классный поиск (местами лучше гуглового, особенно по части поиска по картинкам и машинного распознавания что на них), делает более технологичные дата-центры чем Гугл, которые отапливают жителей Финляндии (удивился но факт, тепло от охлаждения их вычислительных блоков — идёт в дома финов) — и при этом там всего 8k.

А в Эппле, которая не делает ничего, чем моя скромная персона могла бы восхититься — рабоатает 137k, короче я в шоке -_-
Ну во-первых — да, в Apple все работники магазинов, включая продавцов самого низкого уровня, а также вся обслуга — например, уборщики, работники столовой — все они работники Apple, и все это из-за политики конфиденциальности. Apple старается как можно меньше пользоваться аутсорсингом. Во-вторых, все что вы написали Apple делает — а это очень много всего, там есть и software, и hardware, причем разнообразное hardware, все это требует большого количества инженеров.
Стивен пытается навести людей на мысль о выгоде для конкретного индивидуума использования децентрализованных сервисов. И тут его сложно не поддержать, ведь все проблемы современного общества именно из-за гигантского дисбаланса, порождаемого супервыгодными для элиты и ущербными для общества централизованными сервисами (институтами). Думаю, сейчас лучшее время для разработки децентрализованных аналогов всего, ведь современная экономическая модель себя полностью исчерпала, а новую только предстоит создать. Если общество проиграет эту технологическую гонку, мы все можем оказаться в условиях неофеодализма, абсолютно лишённые всех прав, свобод и каких либо возможностей, кроме прихоти элиты. Рекомендую DHT и blockchain в качестве основы.
С DHT и блокчейном получится проблемка, что участники сети должны хранить чужую информацию на своём железе и если мы хотим хранить сразу 2-3 копии, то чужого надо хранить раза в 2-3 больше, чем своего. А 2-3 реплики — мне кажется, слишком оптимистично для сети из случайных участников, это скорее актуально для кластера в датацентре, т.е. надо больше реплик и больше оверхеда.
Если мы говорим про решение задачи хранения своих собственных данных, то:
1. Собираем коллекцию файлов в иерархии директорий
2. Шифруем (как директорию или как архив)
3. Создаём torrent-файл
4. Размещаем на всех своих подконтрольных машинах и сидируем
При таком подходе надо будет автоматизировать только процесс добавления новых данных к сидируемому хранилищу. Небольшая программка на любимом языке поможет (идея для стартапа ;).
Если есть подконтрольные машины, то можно настроить репликацию данных без p2p, конфигурация же не меняется динамически. У моего QNAP можно сделать зеркало на другой nas и оно будет автоматически реплицировать новые данные по сети.
Если добавить в директорию файлы, то торрент-файл будет другим — поменяется его хэш. В результате остальные машины будут сидировать старый торрент и не подхватят новые файлы.
Вам придется писать систему по обновлению торрент-файлов на подконтрольных вам машинах.
Вообще есть инструмент для этого: Resilio Sync (ранее BitTorrent Sync), но, возможно, есть и OpenSource решения.
НЛО прилетело и опубликовало эту надпись здесь
Любой инструмент шифрования по выбору, тот же VeraCrypt + Resilio (бывший TorrentSync) или SyncThing. Вполне рабочая схема.

Минусы соответствующие: если на одном узле файл сломается, то он ровно так же очень быстро окажется сломанным и на прочих.
НЛО прилетело и опубликовало эту надпись здесь

Это не минусы, а неотъемлемое свойство электронных архивов. Они как кот шрёдингера — пока не распакуешь и не запустишь, не узнаешь жив он или нет.

Какой-то набор проблем с общими идеями решения или «а вот тут хз, еще не придумали». Особенно порадовало начало в духе «а еще запилить свою нейросеть рекомендации музыки, да чтоб удобно и не хуже гугла». Ага, в одиночку :) Да даже малая группа не породит ничего действительно удобного.
Тогда уж надо проповедовать аскетизм и ограничение числа потребляемых сервисов
Первый абзац написан так, как будто это что-то плохое.
Мне давно интересно узнать, как среднестатистический Джон Доу пострадал от того, что корпорации зарабатывают на его персональных данных.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

Увы, неизвестно, что именно войдёт в ненужные 99%, а что в нужные 1%.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий