Comments 6
"GET / HTTP/1.1" 301 162 "-" "python-requests/2.31.0"
— А, это опять ты.
Какое-то странное сравнение "теплого" с "мягким" - парсера xml\(x)\html с полноценным асинхронным краулером. И даже в этом качестве сравнение прям такое себе - кто мешал вместо синхронных вызовов requests использовать например aiohttp?
Заметьте, не просто теплого с мягким, а один из сравниваемых — BeautifulSoup, который был создан в 2004 году. То есть, продукту скоро 20 лет. Новье подвезли?
И да, bigdata тут не пахнет.
Спасибо за интерес.
Год выпуска BeautifulSoup никак не влияет на популярность использования. А данный пост носит обзорный характер и была разработан новичков, которые только начинают свой путь в мире данных.
Что касается bigdata, вы правы: в публикации не было применения парсинга именно для больших данных. Но, даже на примере извлечения небольшого количества данных, можно оценить огромную разницу в скорости работы библиотек, и применять полученные знания опыт для работы с bigdata .
Добрый день!
Пост носит больше обзорный характер. Многие новички все ещё используют BS4 и не знают о таком мощном инструменте, как scrapy. Что же касается использования aiohttp вместо requests, соглашусь, что это действительно более эффективное решение, но, как уже говорилось, пост изначально задумывался для начинающих специалистов, поэтому использовалась наиболее известная и простая библиотека.
Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)