Pull to refresh
2
0

Python-разработчик

Send message
Реликты сопряжения сфер
Простите, пятничное утреннее
Когда читаешь подобный заголовок, надеешься, что будет что-то типа lxml.de/parsing.html#iterparse-and-iterwalk а тут XML2CSV и нет ответа как работать с большими XML при маленьком количестве оперативки. Это что, сезон курсовых на хабре опять? до нового года еще далеко.
Извините за снобизм
Да простит меня комьюнити за мое мнение, но, еще раз ИМХО, статьи с подобным уровнем подготовки а-ля курсач 3-го курса первого полугодия способствуют общему понижению уровня ресурса.
Особенно, если учесть использование жутких антипаттернов.

Вот человек умеет как машина проходить 1 дорогу очень хорошо и умеет. Но красоты и вкуса к ней нет в его жизни, вот он и страдает.

Эта статья напоминает ситуацию, когда начинает только внедряться CI/CD на околоконтейнерный (и Kubernetes) историях, что очень вычищает серверы, кодовую базу пайплайном и очень упрощает различные прлцедуры верификации (от юнит до e2e на большом парке микроскрвисов). При этом разработчики еще не вкурили что и как или лень переучиваться и начинают предлагать костыли.


Как попытка призвать к разумности в некоторых ситуациях — ок, это действительно бывает полезным, но обозначенные в статье и предыдущих комментариях звучат наивно и большая часть решается административно, если это вообще нужно.

Эта проблема, увы, не только разработчика, в NodeJS вот так. 300MB — это еще хорошо. В кровавом энтерпрайзе и 1.5GB+ видели...

Я очень извиняюсь )
image
Спасибо за исчерпывающее руководство.

Молодцы. Обеспечили очередную пачку религиозного восторга. А народ доволен — нужен же символ победы человеческого разума, хотя материи, в которых ведутся «победы» абсолютно не осязаемы простым смертным.

Когда только начинаешь k8s и натыкаешься на helm — он очень подкупает. И шаблонизация тебе, и релизы, и хуки/роллбэки. Но потом эйфория сталкивается с повседневными задачами и да, начинается описанная Вами боль. Но, приходится признать, для дистрибьюции чартов как продукт, или как первый тулсет, на котором пробовать k8s — он хорош.

Microsoft вообще молодцы. Сразу понятно — кто делает у себя большой рефакторинг. Движутся в своих действиях в правильном наеоавлении, но не все сразу получится идеально.

Также, есть типограф Муравьева (http://mdash.ru) но он изначально написан на php и как-то ну очень по зверски переведен в python. Но патч из примерно 10 строк позволяет запускать его в продакшене и почти не бояться проблем с кодировкой.

Да, действительно, можно будет это использовать.

  1. Задачи были: Искать похожие тексты, поиск по словосочетаниям. Также, была идея найти продукт, который позволит не писать отдельные запросы напрямую к elastic, а использовать его подобным образом.
  2. Да, на ts_vector есть индекс. Не хватало возможностей ts_vector из коробки. Вероятно, я что-то не знаю о его возможностях. Опять-же, см пункт 1 моего ответа.
  3. см пункт 1, задачи стояли не только в поиске по тегам. По тегам я просто описал пример синтаксиса запроса. Согласен, концептуально пример не очень валиден.
  1. Да, можно. Можно искать как по полям Postgres, так и используя индексированные эластиком поля. Тоесть, 2 варианта:


    SELECT test_elastic.text
    FROM test_elastic
    WHERE zdb('test_elastic', ctid) ==> 'text:(набор термов) and comments > 10';

    и


    SELECT test_elastic.text
    FROM test_elastic
    WHERE zdb('test_elastic', ctid) ==> 'text:(набор термов)' AND test_elastic.comments > 10;

    будут работать


  2. Текст дублирется в elastic в созданный индекс. Для каждого поля есть возможность указывать свой маппинг (ссылка на документацию), свои фильтры. Дополнительно, расширение создает в Postgres таблицы, в которых хранятся фильтры, маппинги и токенайзеры (например). Также, можно делать кастомные поисковые поля, объединяющие под собой существующие с одинаковым типом, на которые, видимо, можно вешать отдельно свой анализатор, что бы искать, например, и по шинглам, и по обычному. Но эту фичу я еще не проверял


  3. Да, это расширение парсит OR, AND, скобки. Есть свой набор операторов, которые умеет парсить (ссылка). Как простым способом определить свой dsl я пока не понял.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity