Comments 24
Посмотрел пример для получения XML-документа с распознанным текстом и сразу вспомнил цикл статей PDF — текст любой ценой. С подобным сервисом всё становится проще.
С интересом читал />этот цикл статей. Участвовал в разработке проектов, где была необходимость парсить текст из различных документов, поэтому интересовался этой темой.

Но если там добивались только текста, то здесь XML даёт нам и немного информации о форматировании текста: расположении блоков текста и размерах шрифта:


<block l="276" t="204" w="59" h="14">
	<text l="276" t="204" w="59" h="14" p="276,38,317,18">
		Google, Inc.
	</text>
</block>


Вот что мы видим: «l» — отступ блока слева от края страницы, «t» — отступ сверху, «w» — ширина, «h» — высота (которая одновременно даёт информацию и о размере шрифта в блоке), «p» — позиции «подблоков» (используемых при выделении во вьювере), по паре значений на каждый (первое значение отступ слева от края страницы и ширина).
Действительно, очень полезный и удобный сервис. Жалко, что он не поддерживает многие расширения файлов изображений.
А я один так испорчен, что не сразу разглядел белку на картинке?
Ну и зачем вы это сказали?
Я ведь смотал обратно, посмотрел на белку и со второй попытки увидел то, что вы увидели с первой. Теперь спать спокойно не смогу…
> без авторизации просматривать документы

Нажимал на примеры, направляет на авторизацию сначала. Конкретно ссылка из pagenumber.
К сожалению, у меня не получается сэмулировать такую же ситуацию как у Вас. Отлючил сессию пользователя на гугле во всех браузерах, после чего удалил куки по фильтру «goo*», но ссылка в примере у GET-параметра сразу возвращала PNG-изображение.

Очень хотелось бы разобраться в ситуации, которая произошла у Вас.
Мне, к сожалению и стыду, тоже не удается воспроизвести это.
Было: Опера, нажал на ссылку, случился переход на вход Гугля, где мой логин был введен, а пароль спрашивался. Ввел пароль, кинуло куда надо.

Удалил куки гугля, пробовал входить — выходить, всё работает.

Если ещё придумаю что — напишу, а так, если больше никто подобного не сообщит, можно и на невысыпание отнести :)

PS Спасибо за статью.
Такая-же ситуация. Тоже отправился на авторизацию. Причем, в приватной вкладке (в опере) картинка открылась.
>случился переход на вход Гугля, где мой логин был введен, а пароль спрашивался

Вы были залогинены, но в результате какихто проверок безопасности вы были перенаправлены на страницу повторного ввода пароле. такое бывает не только в доксах.
Не подскажете как решить обратную задачу? Скачать гуглодок по ссылке. Требование только одно — отсутствие необходимости в каком бы то ни было графическом интерфейсе, чтобы можно было скриптом на сервере запускать.
Если я правильно понял, то это возможно разными способами.

Например через публикацию документа в гуглодоксе: у вас появиться ссылка вида docs.google.com/document/pub?id={id-документа} на док с облегченным интерфейсом, из которой можно получить ссылку на документ совсем без интерфейса добавив параметр &embedded=true, вот так:
docs.google.com/document/pub?id={id-документа}&embedded=true
Нашёл

wget 'https://docs.google.com/uc?id=0B8QbnXA7SzxSNzY1YTJmZTQtMWE2Mi00YTFlLWJlM2ItYmU1ZjA5ZmFkYjBh&export=download&hl=en'

Но так у меня получилось скачать только свои документы.
Спасибо за подсказку, я совсем и забыл про форматы MS Office 2007. Проверил, PPTX тоже поддерживается (пример).

А так же проверил другие форматы введённые в MS Office 2007:
dotx (не поддерживается, пример),
xlsx (поддерживается, пример),
xlsm (не поддерживается, пример),
pptm (не поддерживается, пример),
ppsx (не поддерживается, пример).

Обновлю таблицу.
Можно ли как то вручную обновить файл который показывается.
А то google берет не свежую только залитую версию, а из своего кэша.

например если прайс лист обновляется каждые пол часа.
Only those users with full accounts are able to leave comments. Log in, please.