Как стать автором
Обновить

Комментарии 16

А зачем MVC в скрипта-парсерах? Всегда было интересно :)
на случай если появятся новые требования и придется увеличивать и усложнять эту штуку
Просто предполагал, что такие скрипты крутятся по крону, так что как минимум V там не нужен… Пропустил момент, что у Вас по требованию скрипт пускается.
Парсить html — это технология 10 летней давности.
Гугл может отдавать ответ в нормальном (с точки зрения программиста) виде. code.google.com/intl/ru/apis/ajaxsearch/documentation/#fonje

Да и вообще, пичитайте на досуге API от гугля. Там много чего ещё вкусного есть.
Только вот это АПИ не дает таких же результатов как Веб-поиск.
Рекомендую ещё к прочтению такое.
code.google.com/intl/ru-RU/apis/searchappliance/documentation/62/xml_reference.html
Тут правда для корпоративных пользователей, и к сожалению, параметр output=xml не работает, но в основном может помочь в понимании остальных параметров.
Да, я попробовал сделать ваш запрос из примера с помощью API и результаты немного отличаются, но думаю это больше связано с тем, поиск с сайта может учитывать некоторые дополнительные факторы, связанные с учетной записью, географическим расположением по IP, куками и хрен ещё знает с чем, (лень было дальше копать).
Однако, релевантность результатов поиска полученных с помощью различных средств трудно сравнивать, по-этому считаю, что лучше пользоваться документированными возможностями, которые не противоречат Соглашению о предоставлении услуг, т.е. API )
Парсить результаты, кстати, запрещает TOC Google.
TOS т.е.
а где это там написано, что то я не нашел (смотрел здесь www.google.com/accounts/TOS)
5.3 You agree not to access (or attempt to access) any of the Services by any means other than through the interface that is provided by Google, unless you have been specifically allowed to do so in a separate agreement with Google.
спасибо, не знал
Чушь. В продуктах — да, я не имею право использовать сервисы гугла подобным образом.

Но для своего личного использования я могу делать всё, что мне заблагорассудиться. Информация которую я получил от гугла — уже является моей информацией, а свою информацию я могу читать в любом удобном для себя виде.

К тому же, даже если мои действия нарушают TOS — они не могут привлечь к ответственности да и не станут. Максимум — какими-либо действиями могут заблокировать запросы. Но любые ограничения обходятся, кроме полного закрытия доступа к данным для всех без исключения.
«Не разрешает парсить» — спорно.

Ваша цитата скорее относится к «не разрешает „хакать“ ». То есть получать данные «через какой-то другой интерфейс, чем предоставленный Гуглом». Например, скрытый, внутрикорпоративный интерфейс Гугла и пр. Ну или выдавать информацию Гугла за свою (здесь ближе к описываемой ситуации, но автор нигде не заявляет, что поисковые результаты Гугла он выдает за поисковые результаты компании «ххх»).

Здесь же данные вполне законно получаются от Гугла через его же интерфейс, и, затем, сортируются дополнительно в интересах авторов парсера.

Я сам писал подобные вещи, даже нарушал некие соглашения (с совершенно другим сервисом, и в разумных пределах — вводились кэширующие запросы, например), но, действительно, почему бы не автоматизировать рутину, если, в конечном счете, одни и те же действия будут всё равно выполнены от имени этих же людей, пусть не компьютером, а людьми, но только на 30-60% меньше (чисто из-за скорости обработки данных)?
Не нашёл, как производится фильтрация по времени?
Кажется забыл написать. За фильтрацию по времени отвечает параметр as_qdr. Например as_qdr=d, где d — за последние 24 часа. Значение w — за неделю, наверное есть и другие значения параметра, не проверял
Не знал. Спасибо
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории