alizar Nov 3 2008 at 14:58

Google подключил OCR-движок для индексации PDF

1 min

1.2K

Search engines*

+49

Comments 32

merlin-vrn Nov 3 2008 at 15:03

Тут соображение — а какого рода информация хранится в таких pdf? Так ли она будет полезна, или будет наоборот забивать шумом ту, что ищется?

И второе: pdf — хорошо, а djvu и прочие.

A_G_K Nov 3 2008 at 15:58

по поводу забивать шумом — что такое шум?
если вы имеете ввиду полезность информации, то html формате тоже много вского разного есть, и для кого то поезное и бесполезно для другого, и копи-паст и куча всего еще…

наверное зная цели Googleз зачем все это. Google работает в сторону глобального поиска, поэтому и идут разработки в сторону индексации всего что есть в цифровом формате

а уже дело второе — полезная информация или нет.
решать конечному пользователю.
это мое мнение.

Shoom Nov 3 2008 at 17:00

Мне кажется, что в PDF-ах уж наверняка больше полезной информации, чем в бесконечных HTML-ных блогах, форумах и т.д. Обычно это оцифрованные книги, часто специализированные, поиск по ним не может не радовать

UFO just landed and posted this here

kurokikaze Nov 4 2008 at 01:15

Имхо отсеивать «шум» Google и так уже научились. Среди простого HTML контента его тоже было полно.

PSHKGRZN Nov 3 2008 at 16:04

Ждем ответа от Яндекса!

proto Nov 3 2008 at 19:38

Яндекс тока график отключения горячей воды может сделать, какое там распознование

+10

UFO just landed and posted this here

Yustos Nov 3 2008 at 22:17

Даже если такие PDF будут индексироваться намного реже обычного контента, всё равно хорошо. «Картинковые» PDF, как правило, редко обновляются.
Надеюсь, русские символы распознает. Пока ничего действительно нового найти не получилось :(

kurokikaze Nov 4 2008 at 01:15

Их есть у него.

t0os Nov 3 2008 at 17:09

ну вот, теперь различный уникальный материал, который брали с этих PDF-ок для создания контента на сайт, станет не уникальным…

CharnaD Nov 3 2008 at 17:50

вот бы они еще обучили свой ОЦР движок, да выложили бы еще в открытый доступ…

agl666 Nov 3 2008 at 18:03

code.google.com/p/ocropus/

и вот что первое попалось на хабре

habrahabr.ru/blogs/google/15409/

VSOP_juDGe Nov 3 2008 at 18:03

Думаю, скорее добавят в гугл докс и файнридер станет ненужным.

kurokikaze Nov 4 2008 at 01:16

Скорей бы уже :)

foboss Nov 3 2008 at 18:10

Вы об этом?

code.google.com/p/tesseract-ocr/
google-code-updates.blogspot.com/2006/08/announcing-tesseract-ocr.html

beardog Nov 3 2008 at 18:22

не знаю, как сейчас, а пару лет назад это совершенный отстой был. Распознавал только в plain text (хотя, кончено, Google больше и не надо), ошибок было немеряно и глюков. Что, впрочем, и не удивительно, софтину изначально разрабатывало HP, еще чуть ли не в 80е годы.
Впрочем, может, они его и допилили до юзабельного состояния. А может, Cunei Form взяли, оно ведь под GPL cейчас

Kuzzy Nov 3 2008 at 18:08

Лафа вебмастерам, можно забыть про долгие ночи пыхтенья с файнридером и правкой бесконечных ошибок после распознания. Гуглу респект!

pumi Nov 3 2008 at 18:09

А как скоро он будет надписи в фотографиях искать?

ska_zochnik Nov 3 2008 at 18:23

в дальнейших планах поиск по изоображениям с веб-камер =)

AgentSmith Nov 3 2008 at 19:25

Я просто мечтаю о поиске по DjVu — моём любимом формате :)
Эх, скорее бы сделали бы…

kaaquantum Nov 3 2008 at 20:25

До сих пор не пойму чем DjVu лучше PDF? :)

A2K Nov 3 2008 at 20:39

требует значительно меньше ресурсов для просмотра.

egoholic Nov 3 2008 at 21:54

тормозит меньше и размер файла меньше в разы.

AgentSmith Nov 4 2008 at 00:05

Для меня он лучше тем, что это скан с живой книги, выглядит, как реальная книга.
А на e-ink-ебуке выглядит просто потрясающе

kurokikaze Nov 4 2008 at 01:17

Размер меньше :) На самом деле если сделали нормальное распознание изображений, то дописать его под различные контейнеры труда не составит — хоть PDF, хоть DJVu, хоть BMP.

kaaquantum Nov 4 2008 at 03:10

просто по моему опыту работы с djvu — они занимали больше места чем аналоги в pgf. При этом нормальные «текстовые» djvu книги встречались мне чертовски редко — львиная доля была из плохо или вообще нераспознанных сканов страниц — и весили чертовски много. У pdf — полностью наоборот :)

Возможно в Сети еще очень мало валидных djvu книг

kaaquantum Nov 4 2008 at 03:11

Кстати, какой djvu reader можете посоветовать (желательно под Ubuntu) — а то те что я находил отличались изощренным убожеством

kurokikaze Nov 6 2008 at 14:48

Под убунту, честно говоря, даже не знаю. На десктопе пользуюсь DjVuReader, на КПК — PocketDjVu.

habibti Nov 4 2008 at 00:40

Неплохо было бы отделить это от основных результатов, как картинки и результаты англоязычных сайтов.

kurokikaze Nov 4 2008 at 01:18

PDF-результаты и так помечаются отдельно.

UFO just landed and posted this here

Show the best of all time