Pull to refresh

Comments 34

>> На практике же книгу невозможно прижать к сканеру

Интересно — а фотографировать страницы не пробовали?
Имеется в виду, что книжный разворот у более-менее толстой книги в ровную плоскость (без порчи книги) превратить практически нереально. Фотографированием эту проблему не исправить.
Я имел ввиду, конечно, не целиком разворот снимать, а по одной странице, для этого книгу надо раскрыть только на 90 градусов а не 180, что еще безопаснее для книги.
если сканить только по половине книги — то кол-во работы тупо удвоится ты об этом думал?
а что делать? не все книжки создавались для ocr'а =)

есть даже сканер, предназначенный для толстых книг / книг с хреновым переплетом — plustek opticbook 3600
Подумал. Лечится установкой двух фотоаппаратов под углом 90 градусов. Один снимает одну страницу, другой — другую :)

Как специалист по оцифровке редких книг говорю — есть специальные сканеры. Без стекла, с десятками приспособлений для комфортного размещения книги под объективом (принцип работы планарных сканеров очень похож на фотографирование) и для получения максимально лучшего изображения. Но! Никакие программные средства не позволяют удалить искажения изгибов страниц (от них даже механически избавиться зачастую нельзя — книгу невозможно выровнять. Часто приходится расшивать их постранично). При фотографировании сверху на форматах от А3 возникают искажения перспективного типа, и до сих пор нормального метода с ними бороться не придумано. Хоть вы десять фотоаппаратов разместите — не забудьте потом совместить картинку с них воедино!

Что касается темы — получение модели искривления страницы это, несомненно, плюс. НО! При работе с редкими книгами зачастую запрещается попадание на них инфракрасного или ультрафиолетовго излучения. Зато технология может помочь с более новыми книгами.
Пусть ещё научатся в моск заливать инфу как в матрице:
— Танк, Войну и мир, все тома. И так глазками заморгал-заморгал.
UFO just landed and posted this here
Как вариант, для определения уникальности текстов на сайтах. Все сателлиты и говносайты, основанные на отсканированном варианте они смогут отбросить в один момент. Апдейт — 90% сателлитов в бане :)
UFO just landed and posted this here
А кто сказал о всем тексте? Цитат тоже беспредельно вставлять нельзя, есть порог, после которого чрезмерное цитирование законодательно признается плагиатом. Но что очень много сайтов содержит полные версии или куски статей и книг — это даже сомнению не подлежит. Зайдите в форум на searchengines.ru, там для сканерщиков целые топики есть. И рерайтеры там тусят по полной. И сто пудов — на Западе уже давно и биржи и вообще, как направление бизнеса, это существует. Если учесть тот факт, что Гугл во всех странах кроме России и Китая — самая популярная поисковая система — линкоторговцы под нее явно не бедствуют и спрос рождает весьма неплохое предложение. Так что помощь в сохранении шедевров книгопечатания, помогающая убить кучу линкоферм, основанных на ворованном контенте — это весьма и весьма успешный выстрел по двум зайцам. А «депломы» — да, надо писать самому. 5% цитирования — это на самом деле очень даже немало… И если товарищ студент соизволит прочитать 10-20 книг по теме — думаю гугл будет не против.
боюсь, что не все книги можно выкладывать в открый доступ, ввиду авторских прав и т.д.
Можно конечно подумать о том, чтобы за счет рекламы делать отчисления авторам.
UFO just landed and posted this here
кстати говоря у ластфм все не так хорошо с финансами, как хотелось бы
оффтоп — Вбейте «Достоевский» и посмотрите Идиота. Где они нашли такое издание?! Может это сценарий фильма?

по теме — Существует (имхо) прекрасный вакуумный сканер для книг, в т.ч. и старых фолиантов. ScanBot.

www.youtube.com/watch?v=y16rNqnxj0U

и не нужно тут больше ничего придумывать.
Другое дело, что гугль захотел «собственное» изобретение в портфель крутости, что вовсе не говорит, чем они будут сканировать книги. :)
Можно было б не до конца листочки переворачивать. Т.е. два листа, которые фотографируются, преподымаются и становятся под углом 45 градусов к друг другу. Снизу их поодерживают ровные пластинки. Только у каждого листочка тогда своя камера, так же под углами расставленные. Всё же копьютерная обработка ровно сфотографированного листа не всегда заменит.
Если будет все больше и больше безработных, то гугл наймет их для перепечатки книг — так дешевле будет :)
удивляет то, что гугл до сих пор не сделал свою recaptcha.net/
Хотя может придет время и они их просто купят.
Патенты — зло. Патентуют очевидные идеи. Проецирование сетки применяется регулярно, ничего нового они не придумали. Надеюсь, что патентом закрыта именно IR сетка и именно для ocr. А, скажем, лазерные остались открытыми.
лазерные не так удобны, т.к. цвет лазерной сетки может совпасть с цветом фрагментов изображения на странице. тут патентуется идея использования разных диапазонов электромагнитных волн для распознавания изображения и для распознавания сетки.

интересно, догадались ли они запатентовать, наоборот, инфракрасный диапазон для распознавания текста и обычный — для распознавания сетки.
Иногда очевидные вещи патентуют как раз для того, чтобы не запатентовали другие умники, которые сами идеей не пользуются, а просто требуют баснословные деньги за лицензию.
>Google поставила перед собой отсканировать, распознать и проиндексировать все бумажные книги в мире

— И что в этом плохого?
— Они хотят собрать всю информацию во вселенной и хранить её в сфере.
— Значит они стремятся к знаниям?
— Да.
— Подонки!

(С) Футурама, сезон 5, серия 8
— Они считают, что должны знать всё. Скоро так и будет.
— Я зол как никогда!
— Как только они заполучат всю информацию, то захотят сделать так, чтобы новые данные не появлялись и уничтожат всю вселенную!

:)
"...Google поставила перед собой отсканировать..." — мне кажется, тут пропущено слово «задачу» :)
UFO just landed and posted this here
UFO just landed and posted this here
Этому методу в принципе черт знает сколько лет. И пользуются им для своих нужд все подряд. Похоже в США надо патентовать не только идеи, но и отдельно идеи относительно каждого из возможных применений.
Было бы круто, если бы они придумали как отсканировать книгу, не открывая ее вообще )
UFO just landed and posted this here
«Не открывая вообще»-сканер существует. И находится он в Александрийской библиотеке. Работает по принципу рентгена или томографа, применяется для книге, которые нельзя открывать. Сканирует книгу насквозь, послойно — и вуаля, после доработки манускрипт можно увидеть и полистать на сенсорном мониторе.

Но сколько он стоит — я представить боюсь. Ибо на оцифровке книг у нас в России пытаются зарабатывать просто _нереальные_ деньги, при этом ничего не делая. Система практически не развита, оборудование и ПО стоит дорого, очень дорого. И при этом зачастую такого качества, что я каждый раз благодарю небеса, что это не медецинское оборудование, и передо мной лишь книга, а не умирающий человек.
Sign up to leave a comment.

Articles