alizar Apr 6 2009 at 19:20

Инфракрасная подсветка для OCR

1 min

1.7K

IT-companies

+32

Comments 34

maxshopen Apr 6 2009 at 19:42

>> На практике же книгу невозможно прижать к сканеру

Интересно — а фотографировать страницы не пробовали?

-10

spleenjack Apr 6 2009 at 20:00

Имеется в виду, что книжный разворот у более-менее толстой книги в ровную плоскость (без порчи книги) превратить практически нереально. Фотографированием эту проблему не исправить.

maxshopen Apr 6 2009 at 22:00

Я имел ввиду, конечно, не целиком разворот снимать, а по одной странице, для этого книгу надо раскрыть только на 90 градусов а не 180, что еще безопаснее для книги.

-1

fatum Apr 7 2009 at 02:17

если сканить только по половине книги — то кол-во работы тупо удвоится ты об этом думал?

snch Apr 7 2009 at 08:57

а что делать? не все книжки создавались для ocr'а =)

есть даже сканер, предназначенный для толстых книг / книг с хреновым переплетом — plustek opticbook 3600

maxshopen Apr 7 2009 at 11:27

Подумал. Лечится установкой двух фотоаппаратов под углом 90 градусов. Один снимает одну страницу, другой — другую :)

Sotis Apr 7 2009 at 14:50

Как специалист по оцифровке редких книг говорю — есть специальные сканеры. Без стекла, с десятками приспособлений для комфортного размещения книги под объективом (принцип работы планарных сканеров очень похож на фотографирование) и для получения максимально лучшего изображения. Но! Никакие программные средства не позволяют удалить искажения изгибов страниц (от них даже механически избавиться зачастую нельзя — книгу невозможно выровнять. Часто приходится расшивать их постранично). При фотографировании сверху на форматах от А3 возникают искажения перспективного типа, и до сих пор нормального метода с ними бороться не придумано. Хоть вы десять фотоаппаратов разместите — не забудьте потом совместить картинку с них воедино!

Что касается темы — получение модели искривления страницы это, несомненно, плюс. НО! При работе с редкими книгами зачастую запрещается попадание на них инфракрасного или ультрафиолетовго излучения. Зато технология может помочь с более новыми книгами.

leoneed Apr 6 2009 at 21:53

Пусть ещё научатся в моск заливать инфу как в матрице:
— Танк, Войну и мир, все тома. И так глазками заморгал-заморгал.

-5

UFO just landed and posted this here

pandy Apr 6 2009 at 22:22

Как вариант, для определения уникальности текстов на сайтах. Все сателлиты и говносайты, основанные на отсканированном варианте они смогут отбросить в один момент. Апдейт — 90% сателлитов в бане :)

UFO just landed and posted this here

pandy Apr 6 2009 at 23:19

А кто сказал о всем тексте? Цитат тоже беспредельно вставлять нельзя, есть порог, после которого чрезмерное цитирование законодательно признается плагиатом. Но что очень много сайтов содержит полные версии или куски статей и книг — это даже сомнению не подлежит. Зайдите в форум на searchengines.ru, там для сканерщиков целые топики есть. И рерайтеры там тусят по полной. И сто пудов — на Западе уже давно и биржи и вообще, как направление бизнеса, это существует. Если учесть тот факт, что Гугл во всех странах кроме России и Китая — самая популярная поисковая система — линкоторговцы под нее явно не бедствуют и спрос рождает весьма неплохое предложение. Так что помощь в сохранении шедевров книгопечатания, помогающая убить кучу линкоферм, основанных на ворованном контенте — это весьма и весьма успешный выстрел по двум зайцам. А «депломы» — да, надо писать самому. 5% цитирования — это на самом деле очень даже немало… И если товарищ студент соизволит прочитать 10-20 книг по теме — думаю гугл будет не против.

rvnikita Apr 6 2009 at 22:23

боюсь, что не все книги можно выкладывать в открый доступ, ввиду авторских прав и т.д.
Можно конечно подумать о том, чтобы за счет рекламы делать отчисления авторам.

UFO just landed and posted this here

rvnikita Apr 6 2009 at 22:35

кстати говоря у ластфм все не так хорошо с финансами, как хотелось бы

Orlangur Apr 6 2009 at 23:17

хочешь, читаешь, бля!

dharbari Apr 7 2009 at 02:45

books.google.com/

allseek Apr 7 2009 at 11:40

оффтоп — Вбейте «Достоевский» и посмотрите Идиота. Где они нашли такое издание?! Может это сценарий фильма?

по теме — Существует (имхо) прекрасный вакуумный сканер для книг, в т.ч. и старых фолиантов. ScanBot.

www.youtube.com/watch?v=y16rNqnxj0U

и не нужно тут больше ничего придумывать.
Другое дело, что гугль захотел «собственное» изобретение в портфель крутости, что вовсе не говорит, чем они будут сканировать книги. :)

leoneed Apr 6 2009 at 22:15

Можно было б не до конца листочки переворачивать. Т.е. два листа, которые фотографируются, преподымаются и становятся под углом 45 градусов к друг другу. Снизу их поодерживают ровные пластинки. Только у каждого листочка тогда своя камера, так же под углами расставленные. Всё же копьютерная обработка ровно сфотографированного листа не всегда заменит.

yesenin_toxa Apr 7 2009 at 10:23

Может 90?

Grimobile Apr 6 2009 at 22:21

Если будет все больше и больше безработных, то гугл наймет их для перепечатки книг — так дешевле будет :)

rvnikita Apr 6 2009 at 22:28

удивляет то, что гугл до сих пор не сделал свою recaptcha.net/
Хотя может придет время и они их просто купят.

jerom Apr 6 2009 at 23:01

Патенты — зло. Патентуют очевидные идеи. Проецирование сетки применяется регулярно, ничего нового они не придумали. Надеюсь, что патентом закрыта именно IR сетка и именно для ocr. А, скажем, лазерные остались открытыми.

victor_lavrenko Apr 6 2009 at 23:39

лазерные не так удобны, т.к. цвет лазерной сетки может совпасть с цветом фрагментов изображения на странице. тут патентуется идея использования разных диапазонов электромагнитных волн для распознавания изображения и для распознавания сетки.

интересно, догадались ли они запатентовать, наоборот, инфракрасный диапазон для распознавания текста и обычный — для распознавания сетки.

Andrusha Apr 7 2009 at 01:47

Иногда очевидные вещи патентуют как раз для того, чтобы не запатентовали другие умники, которые сами идеей не пользуются, а просто требуют баснословные деньги за лицензию.

VDG Apr 6 2009 at 23:50

>Google поставила перед собой отсканировать, распознать и проиндексировать все бумажные книги в мире

— И что в этом плохого?
— Они хотят собрать всю информацию во вселенной и хранить её в сфере.
— Значит они стремятся к знаниям?
— Да.
— Подонки!

(С) Футурама, сезон 5, серия 8

VDG Apr 6 2009 at 23:58

— Они считают, что должны знать всё. Скоро так и будет.
— Я зол как никогда!
— Как только они заполучат всю информацию, то захотят сделать так, чтобы новые данные не появлялись и уничтожат всю вселенную!

:)

Mezomish Apr 7 2009 at 04:00

"...Google поставила перед собой отсканировать..." — мне кажется, тут пропущено слово «задачу» :)

UFO just landed and posted this here

Optik Apr 7 2009 at 09:17

Этому методу в принципе черт знает сколько лет. И пользуются им для своих нужд все подряд. Похоже в США надо патентовать не только идеи, но и отдельно идеи относительно каждого из возможных применений.

freeOne Apr 7 2009 at 10:47

Было бы круто, если бы они придумали как отсканировать книгу, не открывая ее вообще )

UFO just landed and posted this here

Sotis Apr 7 2009 at 16:06

«Не открывая вообще»-сканер существует. И находится он в Александрийской библиотеке. Работает по принципу рентгена или томографа, применяется для книге, которые нельзя открывать. Сканирует книгу насквозь, послойно — и вуаля, после доработки манускрипт можно увидеть и полистать на сенсорном мониторе.

Но сколько он стоит — я представить боюсь. Ибо на оцифровке книг у нас в России пытаются зарабатывать просто _нереальные_ деньги, при этом ничего не делая. Система практически не развита, оборудование и ПО стоит дорого, очень дорого. И при этом зачастую такого качества, что я каждый раз благодарю небеса, что это не медецинское оборудование, и передо мной лишь книга, а не умирающий человек.

Show the best of all time