Книга «Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание» / Комментарии / Хабр

Emelian 13 апр 2021 в 10:50

В части I основное внимание уделено механике веб-скрапинга: как с помощью Python запрашивать информацию с веб-сервера, производить базовую обработку серверного отклика и организовать автоматизированное взаимодействие с сайтами.

Ну, этой информации как бы достаточно в Сети, зачем тогда нужна книга?

В части II исследованы более специфичные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга.
— Разбирайте сложные HTML-страницы.

Да, это интересно, но что конкретно имеется в виду?

— Разрабатывайте поисковые роботы с помощью фреймворка Scrapy.

Зачем мне поисковый робот? Сайт уже найден, нужно только одноразовое извлечение данных.

— Изучайте методы хранения данных, полученных с помощью скрапинга.

Вы это серьезно? Человек, который смог извлечь сложные иерархические данные с html-страницы, с плавающей структурой, не знает, как ему сохранять полученные данные?

— Считывайте и извлекайте данные из документов.

Зачем повторяться?

— Очищайте и нормализуйте плохо отформатированные данные.

Если вы уже смогли их извлечь, то, думаю, хватить ума, самостоятельно довести их до кондиции.

— Читайте и пишите информацию на естественных языках.

А это, вообще, о чем?

— Освойте поиск по формам и логинам.

Опять поиск! Интересно извлекать данные сложной структуры с элементами неопределенности (поскольку никто вам спецификацию формата серверных данных давать не намерен) из конкретных html-страниц. Для поиска есть Гугл и иже с ним.

— Изучите скрапинг JavaScript и работу с API.

А почему книга называется: «Современный скрапинг веб-сайтов с помощью Python»?

— Используйте и пишите программы для преобразования изображений в текст.

А что тема извлечения сложных данных из статических html-страниц уже закрыта? Зачем сразу перескакивать на другую неисчерпаемую тему «компьютерного зрения»?

— Учитесь обходить скрапинговые ловушки и блокаторы ботов.

Типа, это главная проблема? Важнее это вычисление динамической структуры данных и собственно само извлечение данных полученной структуры.

— Протестируйте собственный сайт с помощью скрапинга.

Думаю, это уже лишнее для рассматриваемой темы. Или вы еще рассматриваете вопрос защиты своих данных от скрапинга? Как в рекламе, три в одном.

Опыт показывает, что для извлечения конкретных данных вполне удобны инструменты Питона lxml / etree / xpath (примеры использования можно найти в Интернете). Однако для получения всех, слабо структурированных, данных нужно повозиться. Скажем, нас интересует база данных какого-нибудь онлайнового словаря, у которого, как мы знаем, может быть достаточно сложная и неоднозначная структура.

В этом случае, проще скачать сайт целиком, а потом уже разбираться со страницами. При этом сторонние средства мало помогают, опять же, в силу не всегда очевидной структуры данных. Вот и приходится сначала определять нужную структуру, и потом уже в соответствии с ней извлекать данные. А для хранения удобен формат *.json и ему подобные.

Ничего подобного я, в этой книге, скорее всего, не найду, судя по писанию…

-1