ITSumma 18 мар 2020 в 13:34

13 инструментов для обработки текста в командной оболочке

17 мин

86K

Блог компании ITSummaНастройка Linux*Системное администрирование*Серверное администрирование*Софт

Туториал

Перевод

+50

Комментарии 65

chelsea2 18 мар 2020 в 13:49

Главная фишка `tr` не раскрыта; все выше приведенные примеры с `tr` заменяются утилитой `sed «s///»`

-2

НЛО прилетело и опубликовало эту надпись здесь

shurutov 18 мар 2020 в 15:17

а зачем в команде awk ... < multiline перенаправление,
когда вполне себе работает awk ... multiline?

4umak 18 мар 2020 в 18:23

общество защиты кошек

justhabrauser 18 мар 2020 в 19:58

Болезнь миллениалов: злоупотребление лишним cat:
cat multiline | awk… вместо awk… < multiline

Объясню — стремновато выглядит.
Примерно как "> myfile": был myfile — и нет myfile.
Поэтому конструкция "awk… < multiline" выглядит так, как будто сейчас "..." будет прибито.
Нет, ну правда.

А так — цивильный конвейер, слева направо, всё нормуль.
Можно дальше что-нить прицепить без заморочек.

НЛО прилетело и опубликовало эту надпись здесь

justhabrauser 18 мар 2020 в 20:15

Оукей.
Покажите в правильном виде (с "<"):

sudo cat /var/log/messages | grep systemd | gawk '{print $6}' | less

Только так, чтобы живому человеку было понятно кто кому Рабинович.
В данном случае — источник | команда | команда | ...

НЛО прилетело и опубликовало эту надпись здесь

justhabrauser 18 мар 2020 в 21:56

можно было написать без cat

Можно. Пишите без cat, никто ж не запрещает.
Вам кота жалко, что ли? )

amkartashov 16 апр 2020 в 10:47

cat нужен там, где следующая утилита не работает с именем файла или не умеет несколько файлов (cat используется для конкатенации). Продолжайте пихать везде cat если вас не смущают конструкции вида

cat ... | grep ...
cat ... | awk ...
cat ... | wc
cat ... | cat ...
wtf ... | cat ...

С другой стороны, это всё борьба тупоконечников с остроконечниками. Главное — результат.

НЛО прилетело и опубликовало эту надпись здесь

amkartashov 18 апр 2020 в 12:48

Простите, но вы какую-то ерунду написали. В какой оболочке одновременное перенаправление двух файлов в stdin приведёт к их конкатенации?

######## bash
$ cat 1.txt
1content
$ cat 2.txt
2content
$ cat 1.txt 2.txt
1content
2content
$ cat < 1.txt
1content
$ cat < 2.txt
2content
$ cat < 1.txt < 2.txt
2content

НЛО прилетело и опубликовало эту надпись здесь

Cheater 2 июл 2020 в 12:11

В какой оболочке одновременное перенаправление двух файлов в stdin приведёт к их конкатенации?

В zsh с включенным multios.

amkartashov 2 июл 2020 в 14:36

ох ты ж. Век живи, век учись.

slonopotamus 18 мар 2020 в 22:08

Как выглядит исключение из правила "всегда используй cat и пайпай потом его во что нужно для задачи"?

asm0dey 19 мар 2020 в 06:35

sudo grep systemd /var/log/messages | gawk '{print $6}' | less

Я терпеть не могу перенаправления, но многое работает и вот так.

iig 19 мар 2020 в 10:27

Захочется искать не только в messages, но messages.1.gz — тут cat и пригодится.
sudo ( zcat messages.1.gz | cat messages -) | grep ...

А в чем проблема с useless cat? Экономия 2 символов? ;)

-1

asm0dey 19 мар 2020 в 10:28

Когда надо — тогда надо. Но когда это часть большого скрипта плодить процессы может быть неидеальной идеей.

dth_apostle 25 апр 2020 в 11:09

Цимус использования cat в этом случае для меня, что я оперативно могу поправить, что я именно делаю с nginx.log — могу быстро, вызвав предыдущую команду, заменить Firefox на Chrome или grep Firefox на cat -d -f 3, а также могу оперативно переключиться в начало строки и заменить cat на tail -n 100.

shurutov 18 мар 2020 в 15:01

Вывод адреса IPv4, связанного с сетевым интерфейсом:
ip ad |awk '/inet / {print $2}'
ifconfig — это уже несколько устарело (мало того! встречался с ситуациями, когда ip ad показывал интерфейс/адрсес, а ifconfig — нет, а вот обратного не видел. Но утверждать, что обратного быть не может, я не буду);
/inet / — шаблон строки, которая должна быть обработана, сразу отсекает inet6, т.к. после 't' идёт пробел.

norguhtar 19 мар 2020 в 05:08

ip добавляет IP на тот же интерфейс, а ipconfig на сабинтерфейс :0. По этому и не видно.

shurutov 18 мар 2020 в 15:27

Тема xargs вообще не раскрыта. А между тем:
find <path> -print0|xargs -0 -I {} <command> {}
это наиболее простой способ обработать файлы, в именах которых есть пробелы.

justhabrauser 18 мар 2020 в 15:39

Тема find тоже не раскрыта, но заголовок поста — "… для обработки текста".

shurutov 18 мар 2020 в 17:59

Ну расскажите уже, как без find обработать текстовые файлы с пробелами и прочими непотребствами в наименованиях. Я вот сколько не пытался, либо ничего не получается, либо какие-то совершенно монструозные конструкции.

justhabrauser 18 мар 2020 в 19:47

Не очень понятно при чем find к пробелам в имени файла.
Речь о том, что человек обрисовал только примочки для работы с текстом.
Не с файлами как таковыми.
Поэтому нет xargs, find, tee и прочих ~~извращений~~ инструментов.
Иначе проще было бы написать перевод info.

PS. файлы с пробелами в именах обрабатываются как-то так:

ls -1 | while read -r; do echo "$REPLY"; done

tagirb 18 мар 2020 в 23:22

ls | while пишут джуны. Сеньоры пишут, как товарищ выше написал.

justhabrauser 19 мар 2020 в 00:07

Тимлиды пишут "Сеньору: вывести список файлов".

Это принципиально кто как пишет?
Главное — результат, в приемлемые сроки и в сопровождаемом виде.

asm0dey 19 мар 2020 в 06:37

Но вот это не будет работать если в названии файла есть перенос строки же.

tagirb 19 мар 2020 в 20:56

Это принципиально кто как пишет?

Нет, просто сеньоры уже успели набить шишек в таких конструкциях.

Oxyd 19 июл 2020 в 02:10

Утилитами командной строки, включая xargs, можно делать всякие извращения… Например выводит количество дней в каждом месяце текущего года (или любого, если чуть поправить) Люблю всякие дурацкие задачи на SO.

seq 12|xargs -i sh -c 'LC_ALL=C cal 31 {} $(date +%Y) 2>&1|grep -Eo "\-(2[8|9])|\-30|31"|cut -d "-" -f 2|tr "\n" " "'

А вот более жизненная, хоть не сильно быстрая, но на безрыбье и ping nmap. ;-)

 seq 1 254|xargs -i sh -c 'ping -c1 -W1 172.19.76.{} >&/dev/null && echo 172.19.76.{} is up'

НЛО прилетело и опубликовало эту надпись здесь

aragaer 19 мар 2020 в 06:19

Конкретно в данном случае можно написать еще проще:
find <path> -exec <command> {} +

ser-mk 19 мар 2020 в 13:07

$ xargs -0 echo < /proc/1083/cmdline

и чем это лучше чем просто

cat /proc/1083/cmdline

намного короче получается

НЛО прилетело и опубликовало эту надпись здесь

chapuza 22 мар 2020 в 11:34

либо специальным инструментом для рефакторинга, понимающим синтаксис языка

Который обязательно поломается на аспектах, рефлекшене, метапрограммировании и (прости хоспади) эвалах. Ну уж нет, рефакторинг с помощью инструментов — это такая же не работающая лажа, как и grep вслепую в данном случае.

warhamster 19 мар 2020 в 07:16

Хз кто минусанул, я вот соглашусь — нефиг консольными тулзами лезть в код.

chapuza 22 мар 2020 в 11:35

В общем случае — да, в частных — вполне. Если рефакторинга немного, ничего лучше sed+awk, за которыми сразу следует git diff — человечество не придумало.

warhamster 22 мар 2020 в 22:03

Если немного, какой смысл вылезать из уютненькой идешечки? Вот если она не осиливает, то да, но это уже будет значить, что кода — не одна сотня мегабайт, и страшно будет в любом случае, чем ни полезь…

youngmysteriouslight 26 мар 2020 в 11:34

какой смысл вылезать из уютненькой идешечки? Вот если она не осиливает

Или если она не существует.
Если мы берём не язык из топ-20, такое вполне частое явление. Даже у JS до ~2010 не было иде. А sed/awk тащат любой текстовый язык.

chapuza 26 мар 2020 в 13:03

После появления Language Server протокола с кошерными реализациями, я вообще не понимаю, кому нахрен может прийти в голову в нее вообще влезать.

НЛО прилетело и опубликовало эту надпись здесь

youngmysteriouslight 26 мар 2020 в 18:31

Возможно. Или я с годом ошибся.

Впрочем, уточню мысль: для ещё-вчера-noname языков нет ide, ибо жирно (дай бог чтоб кроме компилятора вообще что-то было), но жизнь заставляет с ними работать и рефакторить.

chapuza 27 мар 2020 в 06:04

жизнь заставляет с ними работать и рефакторить

И сколько я ни пробовал рефакторить что-то в IDE, с каждым разом убеждаюсь, что руками это сделать всегда проще и спокойнее. Вообще, я с опытом пришел к мнению, что IDE — хорошее подспорье для новичков, которым и подсказки по методам нужны, и доку прямо тут почитать, и зарефакторить что-то, не особо беря на себя ответственность (пусть железяка сделает).

Профессионалам IDE только мешает своими свистелками и постоянным мерцанием то тут, то там.

kovserg 27 мар 2020 в 09:20

Особенно когда оно еще ежедневно предлагает что-то обновить. После чего что то надо подправить иначе не собирается.

VolCh 27 мар 2020 в 11:20

Профессионалы обычно могут настроить IDE так, чтобы только нужные им свистелки и мерцания были.

chapuza 27 мар 2020 в 15:07

Нужных свистелок не бывает, да и у меня есть, чем заняться в свободное время, помимо настройки IDE. Я люблю, когда оно из коробки не отвлекает, а не после допиливания восемнадцатью напильниками.

Syntax highlighting — единственная причина, почему меня не устраивает Notepad.

tagirb 14 апр 2020 в 11:35

А чем вы пользуетесь, что оно вас из коробки не отвлекает?

У меня есть опыт как с редакторами (Vim, Emacs, VS Code), так и с IDE (VS, PHPStorm) — допиливать приходилось и те, и другие.

kovserg 18 мар 2020 в 19:09

А где Perl?

justhabrauser 18 мар 2020 в 19:53

В этом сезоне модно Go, Node.js, .Net (то есть .NET, прошу прощения).
Многопоточно, асинхронно и с элементами ИИ.
Perl уже моветон.

kovserg 18 мар 2020 в 20:40

Тогда python

VolCh 18 мар 2020 в 20:51

Сколько лет ими пользуюсь, но без гугла/мана максимум простой grep могу написать и то с дефолтнымитрегэкспами, которых не знаю. У всех так?

asm0dey 19 мар 2020 в 06:38

Нет

НЛО прилетело и опубликовало эту надпись здесь

aragaer 18 мар 2020 в 22:00

Не увидел (ситуационно) полезного nl — нумерация строк. У sort есть еще полезный ключик -k для сортировки не с начала строки, а по заданному «полю». А еще есть ключик -u, чтобы сразу оставлять только уникальные (из соседних, как uniq). В свое время, не зная об uniq -c, использовал цепочку sort | nl | sort -k2 -u + немного арифметики.

А еще существуют rev и tac, с которыми тоже можно насочинять много интересных дел.

mkostya 24 мар 2020 в 13:01

А кстати sort -u это же самое, что и sort | uniq

acklamterrace 28 июл 2020 в 03:20

«sort | uniq -c» часто бывает полезным.

xotkot 16 апр 2020 в 10:47

fold не умеет в юникод
использую вмето него par, очень гибкий инструмент

GenZmeY 16 апр 2020 в 10:47

Я бы в список еще column добавил — позволяет отображать данные в виде таблицы, берет на себя всю работу по выравниванию. Получается весьма наглядно и информативно, вот например:

Заголовок спойлера

Причем применение предельно простое, что то вроде такого:

echo "$TableRows" | column -t

Единственный недостаток — column не умеет адекватно обрабатывать коды управления цветом, текст уезжает. Приходится выбирать между выравниванием и цветным выводом.