Pull to refresh

Comments 6

"GET / HTTP/1.1" 301 162 "-" "python-requests/2.31.0"

— А, это опять ты.

Какое-то странное сравнение "теплого" с "мягким" - парсера xml\(x)\html с полноценным асинхронным краулером. И даже в этом качестве сравнение прям такое себе - кто мешал вместо синхронных вызовов requests использовать например aiohttp?

Заметьте, не просто теплого с мягким, а один из сравниваемых — BeautifulSoup, который был создан в 2004 году. То есть, продукту скоро 20 лет. Новье подвезли?


И да, bigdata тут не пахнет.

Спасибо за интерес.

Год выпуска BeautifulSoup никак не влияет на популярность использования. А данный пост носит обзорный характер и была разработан новичков, которые только начинают свой путь в мире данных.

Что касается bigdata, вы правы: в публикации не было применения парсинга именно для больших данных. Но, даже на примере извлечения небольшого количества данных, можно оценить огромную разницу в скорости работы библиотек, и применять полученные знания опыт для работы с bigdata .

Извиняюсь за опечатку, пост конечно же "был разработан для новичков", отредактировать комментарий не удалось

Добрый день!

Пост носит больше обзорный характер. Многие новички все ещё используют BS4 и не знают о таком мощном инструменте, как scrapy. Что же касается использования aiohttp вместо requests, соглашусь, что это действительно более эффективное решение, но, как уже говорилось, пост изначально задумывался для начинающих специалистов, поэтому использовалась наиболее известная и простая библиотека.

Sign up to leave a comment.