Pull to refresh

Comments 4

xmlstarlet лекго оправдает день на его изучение, на Гб файлах.

Все текстовые форматы это awk, включая csv. И вся постобработка файлов после извлечения парсерами смысловых значений тоже он. Я бы поставил его на первое, второе и третье место в этой статье, перед ним может стоять спецпарсер, а сего помощю можно творить чудеса. man awk.

"XMLStarlet command line utility is written in C and uses libxml2 and libxslt from http://xmlsoft.org/" — по сути это будет обертка на XSL трансформером?
Чем он в указанных задачах лучше http://xmlsoft.org/xslt/xsltproc.html, который тоже обертка над этими же библиотеками, но поддерживается, а не заброшен как xmlstarlet?

Поддержу, awk + утилиты распараллеливания, позволяют решить большое кол-во проблем и задач на этапе предобработки. Если нужна производительность, можно взять mawk, который на порядок (на ряде задач) может быть быстрее (https://brenocon.com/blog/2009/09/dont-mawk-awk-the-fastest-and-most-elegant-big-data-munging-language/).

Я работал 6 лет назад с ним над файлом в 24 гб, с ежемесячными изменениями около 1%. Без него бы просто сдох, а с ним парсинг и деплой занимал минуты. Просто очень благодарен этому ПО. А так наверное ничем.

Sign up to leave a comment.

Articles