Комментарии / Профиль PashaPodolsky / Хабр

Как стать автором

Паша @PashaPodolsky

Энергия древних интернетов

Профиль Публикации 5Комментарии 138Закладки 13

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

PashaPodolsky 15 ноя 2023 в 11:55

У меня этот сайт вообще не открывается без приседаний с VPN, уже головная боль. И что значит без "командной строки", когда вся суть в том, чтобы скачивать и обрабатывать на своих серверах терабайты данных? Где там семантический поиск? Вижу только клон Z-Library - здорово, но не очень.

0

Посмотреть

Децентрализованный поиск для свободного веба

PashaPodolsky 3 ноя 2022 в 10:26

Перенаправление на IPFS-адрес тоже ворох проблем несет.

IPFS-демон дополнительно делает перенаправление с адресов вида localhost:8080/ipfs/hash на hash.ipfs.localhost:8080. Из-за этого сайт, расположенный по этому адресу, может пользоваться только своим кешом, так как кеш ассоциируется с поддоменом. Может и можно было бы залезть в кеш корневого домена, но работа SharedBufferов в JS требует включенных cross-origin политик, запрещающих даже запросы к корневому домену.
Но я не настоящий JS-программист, возможно есть хаки, позволяющие таки лазить в кеш между разными поддоменами.

0

Посмотреть

Децентрализованный поиск для свободного веба

PashaPodolsky 30 окт 2022 в 15:24

Да, про IPNS я вроде как писал в статье. Мне показалось, что комментарий был о проблеме более высокого порядка: мол, как тут среди кучи ваших хешей и технологий найти что-то нужное :)
С IPNS есть еще пара нерешенных проблем, например, отсутствуют заголовки кеширования в HTTP-гейтвее для путей /ipns/… или отсутствие удобных настроек в клиенте для политики кеширования разрезолвленных имен. Но в общем и целом все работает.

0

Посмотреть

Децентрализованный поиск для свободного веба

PashaPodolsky 27 сен 2022 в 14:41

Во-первых, важно различать поиск и индексацию, это две разных задачи. Статья - о поиске, а индексация в таком поисковике может быть классической или какой-то иной, она за рамками статьи.

Второе, попробую ответить на ваш изначальный вопрос развернуто.

Сложные системы конструируются из более простых примитивов. Даже поисковик из моей статьи невозможно было сделать, если бы не существовало IPFS и WASM. Технологии оказались зрелыми, поэтому получилось на их основе построить более сложную систему - поисковик, для поиска в котором не требуется центральный сервер.

Вы задаете вопрос о системе еще более высокого порядка - поиске в группе поисковых систем, среди которых могут быть злонамеренные. Такую систему можно сконструировать из поисковиков Summa, но здесь не описано как это сделать.

Например, в libp2p есть примитивы для создания улея серверов (Swarm в оригинале, не уверен что так переводится). Поисковые системы разных агентов можно соединить в такой улей, подключать пользователя к улью и получать от каждого агента его поисковую базу, после чего выполнять поиск в каждой базе. Тогда самое простое решение фильтрации, какое мне приходит в голову - использовать ваш поведенческий фидбек и пенализировать базы, которые вы задизлайкали или пометили как ненадежные. Можно и дальше развить эту идею, например, публиковать фидбек для доступа других пользователей. Но я дальше уже боюсь предлагать что-то без тщательного обдумывания, потому что плаваю в механизмах консенсуса в общем, и в том, что libp2p предлагает в частности.

+6

Посмотреть

Децентрализованный поиск для свободного веба

PashaPodolsky 27 сен 2022 в 14:14

Это вопрос о том, как найти поисковик. Боюсь, тут бесконечная рекурсия получится :)

+2

Посмотреть

Децентрализованный поиск для свободного веба

PashaPodolsky 27 сен 2022 в 14:10

Нужно в хранилище иметь два эндпоинта: один возвращает список файлов и их размеры, второй возвращает часть файла с байта А по байт Б. Что такое Storj я не знаю, но если у него такой интерфейс есть, то ответ на вопрос утвердительный.

0

Посмотреть

Децентрализованный поиск для свободного веба

PashaPodolsky 27 сен 2022 в 12:22

Хорошая техническая статья должна обозначать конкретную проблему и решать ее. Предмет этой статьи обозначен во втором абзаце, в нем нет ни слова об индексации, обходе сайтов и прочем.

Поисковые системы - это не только обход сайтов и окошечко для ввода текста в Goolge, а в первую очередь инструмент для миллионов различных повседневных задач, от поиска в маркетплейсах и новостных сайтах до поиска раздач в торрент-трекерах.

Если хочется порассуждать о социальных проблемах - то пожалуйста, пишите и люди с удовольствием придут к вам комментировать. Жаловаться же на то, что в технической статье автор не изобретает очередную утопию, немного странно.

+9

Посмотреть

Децентрализованный поиск для свободного веба

PashaPodolsky 27 сен 2022 в 08:23

Короткий и провокационный ответ: Rust быстрее :)
Чуть больше можно узнать тут
В итерирование по постинг-листам в Tantivy вложено много усилий, а LLVM выдаёт код, в котором оптимизатор проделывает крутую работу по развертыванию циклов и удалению граничных проверок

Возможно JVM не дотягивает в этом месте, но круто если бы вы в О3 могли бы посмотреть на байт-код после прохода всех оптимизаторов в коде DocSet.seek и сказать так это или нет

+4

Посмотреть

Децентрализованный поиск для свободного веба

PashaPodolsky 26 сен 2022 в 23:21

Не знаю что за ранжирование в YaCy, наверное все-таки какое-то есть. В библиотеке aiosumma (питонячий клиент для Summa) есть несколько классов и методов для расширения запросов, что сильно улучшает качество выдачи. Проблема в том, что это Python и я не хотел бы пихать в браузер и его тоже. Но в ближайших планах переписывание части методов из aiosumma на Rust, после чего они станут доступны внутри поискового движка. Поэтому ранжирование более качественное, чем BM25, будет.

На fasteval2 можно более тонко тюнить формулу ранжирования. Например, можно прикрутить пенальти для старых документов или добавить всякие пейджранки и все что вы насчитали у себя и сохранили в индекс. Это можно делать уже сейчас.

Общий концептуальный минус такого поисковика в том, что обратную связь от пользователя тут не получится использовать для тюнинга выдачи других пользователей, поэтому также круто, как в Гугле, сделать не получится. Но для качественной выдачи все возможности будут.

С фильтрацией немного мимо, в первую очередь эта архитектура для того, чтобы один агент создавал индекс, размазывая его по всей сети и делая неблокируемым. В такой постановке проблемы фильтрации нет, это ответственность одного агента (СМИ, поисковой системы, библиотеки - смотря кто будет пользоваться) и вы доверяете его авторитету.

P.S. Ссылку поправил, спасибо!

+4

Посмотреть

Децентрализованный поиск для свободного веба

PashaPodolsky 26 сен 2022 в 21:43

Если собирать в нативную архитектуру, то перф Summa бьется с графиками Tantivy Game: в два раза быстрее Lucene 8.10
Lucene 9 слегка быстрее предшественника, но общая картина не меняется.

Я делал еще подход и пытался провести сравнение с ES, но у меня экспертизы в ES немного. Скорость как индексации, так и поиска отличались на порядок. С одной стороны, я мог упустить нюансы в настройке ES, но вообще бывшие коллеги работали с ES и тоже видели, что он нереально медленный даже в сравнении с Lucene. Заготовки бенчмарка лежат тут, когда-нибудь я его допилю.

Бенчмаркать Summa, собраный для Wasm я не стал, так как сравнивать не с чем. Я не знаю больше поисковых индексов, которые можно собрать в эту архитектуру. Но перф полностью устраивает, 99% времени работы - это ожидание сети, быстрее для однопользовательской системы и не надо.

+3

Посмотреть

Фронты третьей мировой: ARM China

PashaPodolsky 24 сен 2022 в 13:44

Да, вы правильно меня поправляете, обычно самоцитированием называют ситуацию, когда автор сам себя цитирует. Термина для такого явления на уровне страны я не знаю, вот и употребил слово неудачно без пояснений.

График отсюда: https://www.nature.com/articles/d41586-018-07695-1

Более свежих хитмапов я не видел. Из похожих статей могу дать пару, но я их не читал, не знаю есть ли там нужная информация

🔬 Measuring the citation context of national self‐references
Chen, Liyue et al in Journal of the Association for Information Science and Technology (2021) pp. 671-686
DOI: 10.1002/asi.24569

🔬 Nations ranking in scientific competition: Countries get what they paid for
Courtioux, Pierre et al in Economic Modelling (2022.11) p. 105976
DOI: 10.1016/j.econmod.2022.105976

+1

Посмотреть

Фронты третьей мировой: ARM China

PashaPodolsky 24 сен 2022 в 09:17

Есть вот такой график из исследования в Nature, на нем видно сколько происходит самоцитирований на уровне страны, если посмотреть на главную диагональ таблицы. Там же видно как цитируют друг друг разные страны.

+3

Посмотреть

Фронты третьей мировой: ARM China

PashaPodolsky 23 сен 2022 в 07:49

Справедливости ради, публикации китайцев нередко - это вот прямо полная туфта. Китайцы понимают как устроены рейтинги в современной науке. А они очень херово устроены: все завязано на количество цитирований, импакт-факторы и т.д. Поэтому для получения влияния, больших грантов и условного научного престижа со стороны китайцев начался самый настоящий зерг-раш. Количество плагиата, самоцитирований и пир-ревью абьюза зашкаливает неимоверно, от этого и рейтинги поползли вверх.

Ближайшая аналогия из IT - это СЕО-оптимизация в поисковиках образца 00-10ых гг., при которой рейтинг документа повышался не общим качеством контента, а атакой на члены формулы ранжирования.

+11

Посмотреть

Крупнейшая свободная электронная библиотека выходит в межпланетное пространство

PashaPodolsky 24 июн 2022 в 16:29

Я боюсь, что тут нельзя на пальцах объяснять как пользоваться :) Но если вы уже все установили, то вам остается маленький шаг сделать: попробуйте погуглить фразу "libgen crypt dweb link"

0

Посмотреть

Это ваш мозг под наркозом

PashaPodolsky 13 мая 2021 в 12:49

Диванная гипотеза — эмоциональный и мысленный шторм из-за амфетаминов просто занимает все место в голове и на боль не остается места.

Переключение внимания часто так работает. Например, один из способов успокоить боль поранившегося ребенка — отвлечь его чем-нибудь интересным (лучше разговором или конфетой, а не сабжем).

+1

Посмотреть

Старение и бессмертие: взгляд биолога

PashaPodolsky 1 мая 2021 в 13:40

Хочу для связанности интернетов сообщить — разработчики LibGen этим и занимаются сейчас и им нужна ваша помощь! Я бы с удовольствием оставил тут публичные контакты, но по-моему правилами запрещено. Могу отписать в личку, либо можете самостоятельно поискать в гугле "Nexus Search Telegram" и дальше выйти по цепочке ссылок на мейнтейнеров.

0

Посмотреть

Российские власти обсуждают запрет закупки рекламы в зарубежных сервисах для госкомпаний или юрлиц

PashaPodolsky 23 апр 2021 в 20:05

Если твоя аудитория в Инсте

Скоро поправят, не будет там никакой вашей аудитории, не переживайте!
/irony

+1

Посмотреть

Евросоюз хочет ограничить использование ИИ и систем распознавания лиц в угоду приватности

PashaPodolsky 22 апр 2021 в 19:12

Интересно как будет выглядеть практическая реализация. На мой взгляд, главная опасность даже не в том, как использовать ИИ, а в неравенстве доступа к ИИ в самом широком смысле.

Например, можно запретить пользоваться гражданам и государственным работникам. Но если данные будут все равно накапливаться и обрабатываться, то доступ будет у злоумышленников. Потому что полувековая история софтописания намекает, что систему без дыр создать невозможно.

Или можно сделать ещё хуже и ограничить доступ только гражданам и оставить практически неограниченный доступ государству, [s]не будем показывать пальцем[/s].

Здорово, что люди об этом заботятся, только непонятно есть ли у проблемы настоящее решение кроме крайностей: матёрого луддизма или ультраоткрытости, при которой все смирятся с невозможностью хранения тайн и поедут дальше решать другие вопросы.

0

Посмотреть

Анонимность в современном мегаполисе

PashaPodolsky 22 апр 2021 в 12:55

Я бы ещё упомянул в статье тот факт, что часто эксплуатируется возможность залезть в вашу жизнь через приложения/сервисы. Строя маршрут на условных Ты.Картах в залогиновой сессии, ваше местоположение в истории останется с гораздо большей точностью. Правда это не только мегаполисов касается, но всё же жители крупных городов чаще пользуются всеми этими благами капитализма.

Если нельзя избежать попадания на радары, то можно создать такое зашумление, что пользоваться радарами станет невозможно. Пора уже к этому переходить:

Носить маски, которые не просто скрывают лицо, а дают ложное распознавание
Активно создавать публичные точки доступа и участвовать в качестве промежуточных узлов в TOR / I2P / Yggdrasil сетях, если боитесь или не хотите служить выходной нодой. Тогда действительно можно будет в плотных центральных частях городов отказаться от сим-карты полностью.
Генерировать мусорный трафик

+2

Посмотреть

По подсчётам палеонтологов на Земле жило больше 2,5 млрд тираннозавров

PashaPodolsky 21 апр 2021 в 08:03

это было невозможно из-за слишком медленного нервного импульса

Тормознутость может быть связана не с какими-то непоправимыми багами нервной системы, а с недостаточным уровнем миелинизации нервной системы. Этот уровень меняется в результате болезней и мутаций, поэтому вполне возможно, что за миллионы лет он бы смог домутироваться до более высокого и у динозавров.

Но это все моя диванная фантазия, пруфов не будет.

+1

Посмотреть

1

2 3 ...