driver_by 6 фев 2009 в 19:20

Расширяем возможности wget

6 мин

24K

Настройка Linux*

+61

Комментарии 48

Gomer 6 фев 2009 в 20:37

Тоже занимаюсь написанием удобного интерфейса для wget, пишу его под web на java.

grokinn 8 фев 2009 в 01:12

о как раз ищу удобный web интерфейс для wget чтоб он понимал список ссылок и запоминал кукисы от рапидшары, как допишете выкладывайте на хабр!

Gomer 8 фев 2009 в 06:48

Выложу, конечно

TiGR 8 фев 2009 в 01:41

Смотрели ли в сторону httrack/webhttrack?

Gomer 8 фев 2009 в 06:51

Раньше не слышал, возьму на заметку, спасибо

zencd 6 фев 2009 в 20:59

Думаю, команда wait с успехом заменит нижележайший код:

# По наличию записей в active.lst error.lst проверяем идет ли закачка

while [ -s $active_list ] || [ -s $error_list ]

do

sleep 1

done

# Все скачали...

echo "All completed"

driver_by 6 фев 2009 в 21:25

Спасибо за подсказку, сейчас попробую ее использовать.

driver_by 6 фев 2009 в 22:01

Внес изменения в скрипт по Вашему совету. Вместо:

while [ $i -le $threads ] do download_thread $i & sleep 1 i=`expr $i + 1` done if [ ! -e $error_list ]; then touch $error_list; fi # По наличию записей в active.lst error.lst проверяем идет ли закачка while [ -s $active_list ] || [ -s $error_list ] do sleep 1 done

Вот этот код:

while [ $i -le $threads ] do download_thread $i & downloader_pid="${downloader_pid} $!" sleep 1 i=`expr $i + 1` done if [ ! -e $error_list ]; then touch $error_list; fi # Ждем окончания всех закачек wait $downloader_pid

3al 6 фев 2009 в 21:59

А почему бы не использовать aria2c? Можно будет убрать threads.

driver_by 6 фев 2009 в 22:17

Да, есть такая замечательная утилита — aria2c (поддерживает скачивание нескольких файлов одновремено, скачивание по списку, + еще скачивание сегментами одного файла). Правда о ее существовании я узнал только после начала работы над скриптом. Поэтому, чтобы оправдать проделанную мной работу, скажу: wget входит практически во все дистрибутивы *nix (можно сказать что это стандарт). Так что для тех у кого нет возможности/желания устанавливать дополнительные программы я написал этот скрипт =)

iTNitro 8 фев 2009 в 00:44

Ну вообще то не во все, к примеру в FreeBSD по дефолту нет wget, придётся ставить из портов.

Orenlab 8 фев 2009 в 00:48

есть fetch.

iTNitro 8 фев 2009 в 00:51

Не будем сравнивать fetch и wget, у них абсолютно разный функционал по возможностям, fetch'У очень далеко до wget'А

driver_by 8 фев 2009 в 00:53

Поэтому и написал: «практически». Хотя, если откровенно, то не знал что wget не входит в FreeBSD, думал, что он входит во все популярные дистрибутивы. Теперь думаю что это относится, скорее, к потомкам System V.

Vyazovoi 8 фев 2009 в 14:00

Формат инит-файлов никак не связан с наличием wget в дистрибутиве.

driver_by 8 фев 2009 в 14:33

Насколько я помню: System V и BSD отличаются не только форматом инит-файлов (с этой темой не очень знаком, поэтому спорить не буду).
Но мое упоминание здесь system V в отношении wget было не очень уместно, потому что linux дистрибутивы содержат особенности реализации разных веток unix (System V и BSD в том числе). Поэтому наличие/отсутствие wget можно отнести только к особенностям конкретного дистрибутива.

PsySonic 8 фев 2009 в 20:41

Предпологаю, что это связано с GNU.

Nerten 6 фев 2009 в 23:28

Ух ты, еще один полезный скрипт в копилку :)
Тоже хочу поблагодарить того человека, который пригласил полезного и интересного человека на хабр :)

НЛО прилетело и опубликовало эту надпись здесь

alrond 8 фев 2009 в 01:04

Можно вместо wget использовать axel — еще и в несколько потоков грузить умеет «из коробки»

shulc 8 фев 2009 в 01:21

в заголовке #!/bin/bash, а запускать советуете через sh.
а не проще сделать примерно так:

l=`wc -l $download_list`

la=`echo "$l/$n" | bc`

split -l $la download_list down_split

for $i in `ls down_split*`; do

wget -i $i &

done

wait

shulc 8 фев 2009 в 02:16

ошибочка:

l=`wc -l $download_list |awk '{print $1}'`
la=`echo "$l/$n" | bc`
echo $la
split -l $la $download_list down_split
for i in `ls down_split*`; do
        wget -p -i $i &
done
wait
rm down_split*

driver_by 8 фев 2009 в 10:22

/bin/bash исправил на /bin/sh
А такой способ деления списка — тоже вариант. Просто я хотел чтобы список можно было пополнять и во время закачек. Это до конца не реализовано (если качается в несколько потоков, все кроме одного завершились, то при добавлении в список n ссылок они будут качаться одним потоком). Можно немного изменить скрипт чтобы потоки не завершались, а раз в n минут проверяли опять список. Тогда можно использовать его, например, на сервере: просто скидывать сслыки в файл (echo ... >> download.lst)и они сами будут скачиваться.

darkk 8 фев 2009 в 11:05

А вы уверены, что у вас башизмов в коде нет, чтоб смело на /bin/sh исправлять? :-)

driver_by 8 фев 2009 в 11:10

Честно — не уверен. Если совсем откровенно, то еще не разобрался в их отличиях :) Не судите строго, повторюсь — это мой первый опыт. Просто тестил и использовал при помощи `sh downloader ...` и все работало.

darkk 8 фев 2009 в 11:19

Я критику с одной целью пишу — знания распространить. :-)
Вот теперь вы знаете, что bash умеет больше, чем обычный sh и между ними есть отличия. В отличие от большинства Linux-ов, на FreeBSD, например, sh != bash.

x_empty_dragon 8 фев 2009 в 02:02

>Ух ты, еще один полезный скрипт в копилку :)
а можно глянуть что в копилке?

darkk 8 фев 2009 в 10:18

используйте mktemp для создания временных файлов.

driver_by 8 фев 2009 в 10:58

Спасибо, добавил в скрипт использование mktemp.
Плюсы:
— можно отказаться от переменной tmp_dir.
— создается случайное имя (вместо «XX» — буквы/цифры), что исключает возможности перезаписи одного временного файла при одновременном вхождении в функцию move_line() в разных потоках.

darkk 8 фев 2009 в 11:04

— никто не сотрёт ваш /home/luser/.ssh/id_rsa симлинком из /tmp/staticfilename -> /home/…

driver_by 8 фев 2009 в 14:47

Не совсем понял о чем речь. Я имел ввиду, что ранее использованный код:

1. tmp_file="${tmp_dir}/downloader.tmp"
2. echo $1 >> $3
3. cat $2 | grep -v $1 > $tmp_file
4. mv $tmp_file $2

дает вероятность (хоть и маленькую), что в двух потоках одновременно выполнится строка №3 (т.е. временный файл одного потока перезапишется данными другого потока).

darkk 8 фев 2009 в 16:03

Плюс к тому, возможно перед стартом программы существует "${tmp_dir}/downloader.tmp", который является символьной ссылкой на файл, принадлежащий пользователю.
Таким образом, можно уничтожить файл пользователя, т.к. tmp_dir == /tmp а туда право на запись имеют все.

Поэтому надо использовать mktemp, который создаст НОВЫЙ файл и, возможно, использовать set -o noclobber (но второе — это уже для по настоящему параноидально написанных скриптов)

darkk 8 фев 2009 в 16:05

Данная атака имеет какое-то правильное название, но я его точно не помню. Ключевой момент, что файл в /tmp может быть символьной ссылкой и его может создать злоумышленник.

Вообще, при написании скриптов никогда не стоит забывать, что UNIX — многопользовательская система, поэтому в kill стоит еще и UID проверять, а также по-хорошему стоит отправлять сначала TERM и только через некоторое время KILL.
:-)

Vyazovoi 8 фев 2009 в 14:03

А у меня есть свой велосипед на баше для этого дела, забросил ввиду перехода на emacs-wget

korotovsky 8 фев 2009 в 15:04

Автору большое спасибо, выполнил хорошую автоматизацию отличной программы

driver_by 8 фев 2009 в 15:09

Вам спасибо за отзыв и остальным за конструктивную критику. Все это добавляет энтузиазма для работы над чем-нибудь полезным для общества ;)

korotovsky 8 фев 2009 в 15:25

Вот вам хороший пример, хорошей связки curl+bash Пример скрипта Я думаю будет полезно Вам в нем покапаться :)

dirtyHabrBobr 2 апр 2010 в 23:57

404 ((

korotovsky 3 апр 2010 в 00:30

Уже тут: http://launchpadlibrarian.net/40931461/itmages

Mezomish 8 фев 2009 в 21:51

>Для работы скрипта необходимо сделать его исполняемым и создать файл "./list/download.lst" со списком ссылок для скачивания.

Запуск:
sh downloader start [количество одновременных скачиваний]

Небольшое замечание:

Если мы собираемся запускать скрипт именно так (передавая как параметр sh), то исполняемым его делать вовсе необязательно.
Исполняемым его нужно делать для того, чтобы иметь возможность запустить непосредственно его самого:

$ ./downloader [number of downloads]

driver_by 8 фев 2009 в 22:00

Согласен. Написал в статье.

Neiro 9 фев 2009 в 17:14

я дописал еще такую штучку

wget -c -o "${log_dir}/wget_thread${thread}.log" -O "${output_dir}/$(basename "$url")" $url 2>&1 | sed -u 's/.*\ $[0-9]\+%$\ \+$[0-9.]\+\ [KMB\/s]\+$$/\1\n# Downloading \2/' | zenity --progress --width=500 --title=«Downloading File: $(basename „$url“)»

Мне удобно, когда в GNOME вылетает окошко с прогресс-баром

maard 12 фев 2009 в 18:21

как только мои shell скрипты переваливают за 20 строк, я бросаю шелл и перехожу на более удобный инструмент.

в частности, ваш скрипт подвершен упомянутому race condition, т.к. потоки никак не синхронизируются и могут запросто перетереть и файлы списков и сами скачиваемые файлы.

в образовательных целях шелл знать не помешает, но в работе нужны другие инструменты.
если в шелл скрипте более 1 раза встретились grep и awk — скрипт пора переписывать.