Comments 32
Тут соображение — а какого рода информация хранится в таких pdf? Так ли она будет полезна, или будет наоборот забивать шумом ту, что ищется?
И второе: pdf — хорошо, а djvu и прочие.
И второе: pdf — хорошо, а djvu и прочие.
0
по поводу забивать шумом — что такое шум?
если вы имеете ввиду полезность информации, то html формате тоже много вского разного есть, и для кого то поезное и бесполезно для другого, и копи-паст и куча всего еще…
наверное зная цели Googleз зачем все это. Google работает в сторону глобального поиска, поэтому и идут разработки в сторону индексации всего что есть в цифровом формате
а уже дело второе — полезная информация или нет.
решать конечному пользователю.
это мое мнение.
если вы имеете ввиду полезность информации, то html формате тоже много вского разного есть, и для кого то поезное и бесполезно для другого, и копи-паст и куча всего еще…
наверное зная цели Googleз зачем все это. Google работает в сторону глобального поиска, поэтому и идут разработки в сторону индексации всего что есть в цифровом формате
а уже дело второе — полезная информация или нет.
решать конечному пользователю.
это мое мнение.
+1
Мне кажется, что в PDF-ах уж наверняка больше полезной информации, чем в бесконечных HTML-ных блогах, форумах и т.д. Обычно это оцифрованные книги, часто специализированные, поиск по ним не может не радовать
+7
UFO just landed and posted this here
Имхо отсеивать «шум» Google и так уже научились. Среди простого HTML контента его тоже было полно.
0
Ждем ответа от Яндекса!
+1
UFO just landed and posted this here
ну вот, теперь различный уникальный материал, который брали с этих PDF-ок для создания контента на сайт, станет не уникальным…
0
вот бы они еще обучили свой ОЦР движок, да выложили бы еще в открытый доступ…
0
+1
Думаю, скорее добавят в гугл докс и файнридер станет ненужным.
0
не знаю, как сейчас, а пару лет назад это совершенный отстой был. Распознавал только в plain text (хотя, кончено, Google больше и не надо), ошибок было немеряно и глюков. Что, впрочем, и не удивительно, софтину изначально разрабатывало HP, еще чуть ли не в 80е годы.
Впрочем, может, они его и допилили до юзабельного состояния. А может, Cunei Form взяли, оно ведь под GPL cейчас
Впрочем, может, они его и допилили до юзабельного состояния. А может, Cunei Form взяли, оно ведь под GPL cейчас
0
Лафа вебмастерам, можно забыть про долгие ночи пыхтенья с файнридером и правкой бесконечных ошибок после распознания. Гуглу респект!
0
А как скоро он будет надписи в фотографиях искать?
0
в дальнейших планах поиск по изоображениям с веб-камер =)
+3
Я просто мечтаю о поиске по DjVu — моём любимом формате :)
Эх, скорее бы сделали бы…
Эх, скорее бы сделали бы…
+2
До сих пор не пойму чем DjVu лучше PDF? :)
0
требует значительно меньше ресурсов для просмотра.
0
тормозит меньше и размер файла меньше в разы.
0
Для меня он лучше тем, что это скан с живой книги, выглядит, как реальная книга.
А на e-ink-ебуке выглядит просто потрясающе
А на e-ink-ебуке выглядит просто потрясающе
0
Размер меньше :) На самом деле если сделали нормальное распознание изображений, то дописать его под различные контейнеры труда не составит — хоть PDF, хоть DJVu, хоть BMP.
+1
просто по моему опыту работы с djvu — они занимали больше места чем аналоги в pgf. При этом нормальные «текстовые» djvu книги встречались мне чертовски редко — львиная доля была из плохо или вообще нераспознанных сканов страниц — и весили чертовски много. У pdf — полностью наоборот :)
Возможно в Сети еще очень мало валидных djvu книг
Возможно в Сети еще очень мало валидных djvu книг
0
Неплохо было бы отделить это от основных результатов, как картинки и результаты англоязычных сайтов.
0
UFO just landed and posted this here
Sign up to leave a comment.
Google подключил OCR-движок для индексации PDF