Pull to refresh

Comments 8

Материал интересный, продолжайте, пожалуйста.
Спасибо! надеюсь буду располагать временем )
Да, у нас в компании есть краулеры как минимум на C/C++, Java. Но определенно это не то место для более подробной информации ) Настоящий материал имеет ознакомительный характер, цель которого — рассказать об основных моментах, с которыми имеешь дело вне зависимости от выбранного языка. Если же интерес вызван потенциальным желанием принять участие в разработке, то всегда можно откликнуться, прийти и узнать подробности )
А почему не использовали request или got? Пункты 1 и 2 он прекрасно покрывает.
И есть ли смысл использовать JSDOM для данной задачи?
request тянет кучу ненужных зависимостей, тогда как сейчас нужно просто отправить GET-запрос за контентом и заголовками:

image

«Покрывает 2ой пункт» — в смысле, обходит редиректы? это как раз умышленно не происходит, чтобы руками собрать все цепочки и использовать более-менее общий алгоритм экстрактора.

Нативных клиентов для задачи — достаточно. В дальнейшем да, got (который полегче) кажется хорошим вариантом… чтобы те же ретраи и таймауты организовать.

И есть ли смысл использовать JSDOM для данной задачи?

Если есть альтернативы полегче, буду рад идеям! Задача сводится к парсингу контента для дальнейшего простого поиска элементов дерева по атрибутам и их значениям.
JSDOM умеет рендерить виртуальный дом, это удобно для парсинга SPA. Но нужно дождаться, когда фронт получит все данные с бэкенда. В остальных случаях это оверхед, легко упереться в лимит по памяти.
Для таких задач я использую cheerio, он предоставляет такой же интерфейс как и jQuery. Это весьма удобно, можно тестировать экстрагирование данных в консоли браузера, а потом просто вставлять в код краулера
Sign up to leave a comment.