NewTechAudit Jul 17 2023 at 09:55

Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Medium

10 min

8.6K

Сбер corporate blogPython*Big Data*

Tutorial

Comments 6

anzay911 Jul 17 2023 at 11:38

"GET / HTTP/1.1" 301 162 "-" "python-requests/2.31.0"

— А, это опять ты.

atshaman Jul 17 2023 at 11:52

Какое-то странное сравнение "теплого" с "мягким" - парсера xml\(x)\html с полноценным асинхронным краулером. И даже в этом качестве сравнение прям такое себе - кто мешал вместо синхронных вызовов requests использовать например aiohttp?

sshikov Jul 17 2023 at 18:55

Заметьте, не просто теплого с мягким, а один из сравниваемых — BeautifulSoup, который был создан в 2004 году. То есть, продукту скоро 20 лет. Новье подвезли?

И да, bigdata тут не пахнет.

NewTechAudit Jul 18 2023 at 10:09

Спасибо за интерес.

Год выпуска BeautifulSoup никак не влияет на популярность использования. А данный пост носит обзорный характер и была разработан новичков, которые только начинают свой путь в мире данных.

Что касается bigdata, вы правы: в публикации не было применения парсинга именно для больших данных. Но, даже на примере извлечения небольшого количества данных, можно оценить огромную разницу в скорости работы библиотек, и применять полученные знания опыт для работы с bigdata .

NewTechAudit Jul 18 2023 at 10:51

Извиняюсь за опечатку, пост конечно же "был разработан для новичков", отредактировать комментарий не удалось

NewTechAudit Jul 18 2023 at 10:05

Добрый день!

Пост носит больше обзорный характер. Многие новички все ещё используют BS4 и не знают о таком мощном инструменте, как scrapy. Что же касается использования aiohttp вместо requests, соглашусь, что это действительно более эффективное решение, но, как уже говорилось, пост изначально задумывался для начинающих специалистов, поэтому использовалась наиболее известная и простая библиотека.