SomeOneWhoCares Mar 5 2017 at 14:50

Реализация на Python многопоточной обработки данных для парсинга сайтов

2 min

27K

Python*

Comments 16

Scorobey Mar 5 2017 at 14:53

Просто и подробно о сложном — это о статье

-4

LingvoLena Mar 5 2017 at 15:10

Статья интересна, спасибо. Прошу рассмотреть парсинг сайтов с использованием lxml, urlib3 и pyparcing.

-2

andreymal Mar 5 2017 at 15:11

А потом банят на неделю за слишком большую частоту запросов.

SomeOneWhoCares Mar 5 2017 at 15:20

На данном сайте нет защиты по IP. Но если вас это беспокоит IP-сервера можете найти в моей статье здесь.

-3

MeGaPk Mar 5 2017 at 16:00

для каждого пула можно заюзать прокси + паузы в потоках, что бы не попасть под бан. Если сайт еще работает на ipv6, то покупаешь 100шт за 50 рублей и радуешься.

-4

Skycker Mar 5 2017 at 16:40

Для многопоточного парсинга я бы рекомендовал Scrapy. У нее внутри twisted, код будет менее многословным, чем кастомное решение на bs4 и шататных питоновских возможностях работы с потоками/процессами. К тому же работа с разметкой там гораздо лаконичнее. Как-то на работе появилась задача напистать скрипт для периодического парсинга примерно 20 ресурсов на предмет упоминаний о компании клиента. Со scrapy получилось уложиться в несколько часов.

И позвольте на минуту включить зануду и немного покритиковать оформление кода. У вас импорты не по PEP8 оформлены. В кучу смешаны вендорные пакеты и встроеные. В функции get_all_links зачем-то идут строки очистки файла, но, судя по названию, её задача — вытащить ссылки с главной страницы. Принцип одной отвественности говорит, что котлеты с рыбой смешивать не нужно. Да и все ссылки на сайты, имена файлов и подобное хорошо бы вынести вверх скрипта в константы. Если захотите сохранять результаты не в coin.csv, а в foobar.csv, то придется править код в двух местах. В небольшом скрипте такое, конечно, не критично, но в реальных прикладных проектах может сэкономить время и нервы коллег, поддерживающих ваш код

VovanZ Mar 5 2017 at 17:12

Scrapy однопоточный.

VovanZ Mar 5 2017 at 21:40

А за что минус? Почитайте, что ли, как twisted работает и что такое асинхронность. Scrapy работает в одном процессе, в одном потоке.

Ну, при желании можно запускать много отдельных процессов с помощью Scrapyd или распределённый краулинг в Scrapy Cluster, но сам Scrapy — однопоточный.

VovanZ Mar 5 2017 at 17:13

Зачем вам многопоточность? Я не верю, что вы упираетесь в CPU.
Почему вы пишете про многопоточность, но в коде используете multiprocessing?
Зачем писать это всё самому, когда есть Scrapy (как уже заметил комментатор выше)?

alekseev_ap Mar 5 2017 at 22:45

Не про питон, но по поводу парсинга сайтов: Make Collection. Из плюсов: можно качать на выбор картинки, видео, текст, звук. И есть возможность генерировать имена файлов используя окружение. Ну и до кучи — экспорт в SQLite.

-4

kalbas Mar 6 2017 at 12:35

Более ужасно нечитаемого кода еще поискать.

MrGobus Mar 6 2017 at 15:39

Везет вам на питоне, я вот на node.js недавно парсер писал, так там обратная история, пришлось заморачиваться чтобы ограничить число потоков так как сервера не успевали отдать всю информацию и умирали от таймаута из за чего данные получались битыми =(

TOBBOT Mar 6 2017 at 16:23

Увы, плодить потоки проще и дешевле процессов. А с потоками у Python «проблема». В итоге сделать так, чтобы работало быстро можно, но не просто и не так лаконично, как в примерах выше. А пот Windows так и вообще фантастика. Хотя, я мог пропустить некий переломный момент произошедший с момента выхода Python 3.4.

madkite Mar 6 2017 at 21:34

2017 год… А люди до сих пор используют блокирующий I/O для работы с сетью и плодят потоки, чтобы ждать ответа от сервера.

homm Mar 6 2017 at 21:39

*и плодят потоки, чтобы не ждать ответа от сервера.

andjel Mar 7 2017 at 15:03

Не делайте так никогда

massiv_price = [pn.find('b').text for pn in soup.find('div', class_ = 'wm_exchange').find_all('a', class_ = 'button', target = False)]+[pr.text for pr in soup.find('div', class_ = 'wm_exchange').find_all('td', class_ = 'amount')]

А еще лучше прогоните код через Flake

Show the best of all time