Notna0ub 11 фев 2010 в 11:34

«Improve your… Google?»

4 мин

PHP*

Комментарии 16

dohlik 11 фев 2010 в 11:37

А зачем MVC в скрипта-парсерах? Всегда было интересно :)

Notna0ub 11 фев 2010 в 11:45

на случай если появятся новые требования и придется увеличивать и усложнять эту штуку

dohlik 11 фев 2010 в 11:59

Просто предполагал, что такие скрипты крутятся по крону, так что как минимум V там не нужен… Пропустил момент, что у Вас по требованию скрипт пускается.

kaasnake 11 фев 2010 в 12:07

Парсить html — это технология 10 летней давности.
Гугл может отдавать ответ в нормальном (с точки зрения программиста) виде. code.google.com/intl/ru/apis/ajaxsearch/documentation/#fonje

Да и вообще, пичитайте на досуге API от гугля. Там много чего ещё вкусного есть.

ebogdanov 11 фев 2010 в 12:36

Только вот это АПИ не дает таких же результатов как Веб-поиск.

kaasnake 11 фев 2010 в 13:45

Рекомендую ещё к прочтению такое.
code.google.com/intl/ru-RU/apis/searchappliance/documentation/62/xml_reference.html
Тут правда для корпоративных пользователей, и к сожалению, параметр output=xml не работает, но в основном может помочь в понимании остальных параметров.
Да, я попробовал сделать ваш запрос из примера с помощью API и результаты немного отличаются, но думаю это больше связано с тем, поиск с сайта может учитывать некоторые дополнительные факторы, связанные с учетной записью, географическим расположением по IP, куками и хрен ещё знает с чем, (лень было дальше копать).
Однако, релевантность результатов поиска полученных с помощью различных средств трудно сравнивать, по-этому считаю, что лучше пользоваться документированными возможностями, которые не противоречат Соглашению о предоставлении услуг, т.е. API )

SamDark 11 фев 2010 в 12:51

Парсить результаты, кстати, запрещает TOC Google.

SamDark 11 фев 2010 в 12:52

TOS т.е.

greengarlic 11 фев 2010 в 13:26

а где это там написано, что то я не нашел (смотрел здесь www.google.com/accounts/TOS)

SamDark 11 фев 2010 в 13:30

5.3 You agree not to access (or attempt to access) any of the Services by any means other than through the interface that is provided by Google, unless you have been specifically allowed to do so in a separate agreement with Google.

greengarlic 11 фев 2010 в 14:31

спасибо, не знал

Doggy 11 фев 2010 в 15:02

Чушь. В продуктах — да, я не имею право использовать сервисы гугла подобным образом.

Но для своего личного использования я могу делать всё, что мне заблагорассудиться. Информация которую я получил от гугла — уже является моей информацией, а свою информацию я могу читать в любом удобном для себя виде.

К тому же, даже если мои действия нарушают TOS — они не могут привлечь к ответственности да и не станут. Максимум — какими-либо действиями могут заблокировать запросы. Но любые ограничения обходятся, кроме полного закрытия доступа к данным для всех без исключения.

-1

myem 13 фев 2010 в 15:29

«Не разрешает парсить» — спорно.

Ваша цитата скорее относится к «не разрешает „хакать“ ». То есть получать данные «через какой-то другой интерфейс, чем предоставленный Гуглом». Например, скрытый, внутрикорпоративный интерфейс Гугла и пр. Ну или выдавать информацию Гугла за свою (здесь ближе к описываемой ситуации, но автор нигде не заявляет, что поисковые результаты Гугла он выдает за поисковые результаты компании «ххх»).

Здесь же данные вполне законно получаются от Гугла через его же интерфейс, и, затем, сортируются дополнительно в интересах авторов парсера.

Я сам писал подобные вещи, даже нарушал некие соглашения (с совершенно другим сервисом, и в разумных пределах — вводились кэширующие запросы, например), но, действительно, почему бы не автоматизировать рутину, если, в конечном счете, одни и те же действия будут всё равно выполнены от имени этих же людей, пусть не компьютером, а людьми, но только на 30-60% меньше (чисто из-за скорости обработки данных)?

xexsus 12 фев 2010 в 00:47

Не нашёл, как производится фильтрация по времени?

Notna0ub 12 фев 2010 в 09:11

Кажется забыл написать. За фильтрацию по времени отвечает параметр as_qdr. Например as_qdr=d, где d — за последние 24 часа. Значение w — за неделю, наверное есть и другие значения параметра, не проверял

xexsus 12 фев 2010 в 10:17

Не знал. Спасибо

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

«Improve your… Google?»

Комментарии 16

Публикации

Истории