Pull to refresh

Comments 32

Тут соображение — а какого рода информация хранится в таких pdf? Так ли она будет полезна, или будет наоборот забивать шумом ту, что ищется?

И второе: pdf — хорошо, а djvu и прочие.
по поводу забивать шумом — что такое шум?
если вы имеете ввиду полезность информации, то html формате тоже много вского разного есть, и для кого то поезное и бесполезно для другого, и копи-паст и куча всего еще…

наверное зная цели Googleз зачем все это. Google работает в сторону глобального поиска, поэтому и идут разработки в сторону индексации всего что есть в цифровом формате

а уже дело второе — полезная информация или нет.
решать конечному пользователю.
это мое мнение.
Мне кажется, что в PDF-ах уж наверняка больше полезной информации, чем в бесконечных HTML-ных блогах, форумах и т.д. Обычно это оцифрованные книги, часто специализированные, поиск по ним не может не радовать
UFO just landed and posted this here
Имхо отсеивать «шум» Google и так уже научились. Среди простого HTML контента его тоже было полно.
Яндекс тока график отключения горячей воды может сделать, какое там распознование
UFO just landed and posted this here
Даже если такие PDF будут индексироваться намного реже обычного контента, всё равно хорошо. «Картинковые» PDF, как правило, редко обновляются.
Надеюсь, русские символы распознает. Пока ничего действительно нового найти не получилось :(
ну вот, теперь различный уникальный материал, который брали с этих PDF-ок для создания контента на сайт, станет не уникальным…
вот бы они еще обучили свой ОЦР движок, да выложили бы еще в открытый доступ…
Думаю, скорее добавят в гугл докс и файнридер станет ненужным.
не знаю, как сейчас, а пару лет назад это совершенный отстой был. Распознавал только в plain text (хотя, кончено, Google больше и не надо), ошибок было немеряно и глюков. Что, впрочем, и не удивительно, софтину изначально разрабатывало HP, еще чуть ли не в 80е годы.
Впрочем, может, они его и допилили до юзабельного состояния. А может, Cunei Form взяли, оно ведь под GPL cейчас
Лафа вебмастерам, можно забыть про долгие ночи пыхтенья с файнридером и правкой бесконечных ошибок после распознания. Гуглу респект!
А как скоро он будет надписи в фотографиях искать?
в дальнейших планах поиск по изоображениям с веб-камер =)
Я просто мечтаю о поиске по DjVu — моём любимом формате :)
Эх, скорее бы сделали бы…
До сих пор не пойму чем DjVu лучше PDF? :)
требует значительно меньше ресурсов для просмотра.
тормозит меньше и размер файла меньше в разы.
Для меня он лучше тем, что это скан с живой книги, выглядит, как реальная книга.
А на e-ink-ебуке выглядит просто потрясающе
Размер меньше :) На самом деле если сделали нормальное распознание изображений, то дописать его под различные контейнеры труда не составит — хоть PDF, хоть DJVu, хоть BMP.
просто по моему опыту работы с djvu — они занимали больше места чем аналоги в pgf. При этом нормальные «текстовые» djvu книги встречались мне чертовски редко — львиная доля была из плохо или вообще нераспознанных сканов страниц — и весили чертовски много. У pdf — полностью наоборот :)

Возможно в Сети еще очень мало валидных djvu книг
Кстати, какой djvu reader можете посоветовать (желательно под Ubuntu) — а то те что я находил отличались изощренным убожеством
Под убунту, честно говоря, даже не знаю. На десктопе пользуюсь DjVuReader, на КПК — PocketDjVu.
Неплохо было бы отделить это от основных результатов, как картинки и результаты англоязычных сайтов.
PDF-результаты и так помечаются отдельно.
UFO just landed and posted this here
Sign up to leave a comment.

Articles