mkevac Mar 25 2009 at 00:13

Получение ISBN номера из книги в формате PDF

1 min

4.2K

Gadgets

+19

Comments 37

seiros Mar 26 2009 at 16:57

Думается, что есть смысл включить в поиск и последние страницы книги, так, на всякий случай.

mkevac Mar 26 2009 at 17:00

Честно говоря не встречал книг, где, если ISBN и написан, то он не на первых страницах. Вы встречали?
Если да, то, действительно, стоит…

seiros Mar 26 2009 at 17:02

Честно говоря, никогда не обращал на это специального внимания, просто всякая служебная информация печатается как на первых, так и на последних страницах

Zharskiy Mar 26 2009 at 19:55

конечно встречал, многие самодеятельные сканы зачастую начинаются сразу с содержания (иногда с вотермарка), а обложка, аннотация и введение идут в конце

mkevac Mar 26 2009 at 22:42

Спасибо. Учту.

Правда скрипт всё равно не будет работать для нераспознанных сканов…

WebSinner Mar 26 2009 at 17:13

А можно узнать, для чего этот номер нужен и как его можно будет использовать на практике (для чего) и вообще что он из себя предстовляет в кореном смысле?

Breads Mar 26 2009 at 17:18

По нему можно найти любую книгу :) А если точнее, то почитайте википедию, там каждая циферка расписана :)

seiros Mar 26 2009 at 17:19

в общем для систематизации, каталогизации и упрощения поиска книги в Интернете

-1

mkevac Mar 26 2009 at 17:32

Уникальный идентификатор книги. По нему можно найти любую книгу и, что важнее, найти её подробное описание. С полным списком авторов, годом издания, полным названием и т.п. Более того, существуют сайты, который предоставляют API для этого.

Я собираюсь написать программу каталогизатор книг. Аналог calibre, который мне не нравится.

Так вот, в программе достаточно будет указать на книгу, а информация о ней будет получена полностью автоматически.

slider Mar 26 2009 at 17:44

когда напишите — не забудте поделится ;)

Zharskiy Mar 26 2009 at 19:33

прокаталогизируем 3000 книг :-)

mkevac Mar 26 2009 at 22:43

Почему именно 3000? :-)

Zharskiy Mar 26 2009 at 23:06

больше нет

atomicxp Mar 26 2009 at 23:20

Вообще-то есть (http://extracoder.com/genesis/index.html). Можете скачать этот индекс кинг (http://extracoder.com/SharedFilesDownload.aspx?pageid=25&fileid=8&mid=37), он не содержит рекламы и прочего хламья и поставить на свой сайт.

А на форуме (http://gen.lib.rus.ec) есть так же битторрент файлы для скачивания всех эти книг. И это не считая того, что можно качать по прямым ссылкам.

Локальный API пока в разработке, есть только пробные версии, там на форуме всё написано.

mkevac Mar 26 2009 at 22:43

Обязательно. GNU GPL.

TDz Mar 26 2009 at 18:45

А на чём намерены писать? У меня уже есть каталогизатор с импортом данных из амазона и планирую его расширять, всё на пхп.

mkevac Mar 26 2009 at 18:49

Python, C, GTK+
По Unix традиции функционал и интерфейс будут отделены.
Web-морда тоже планируется, но не в первую очередь.

А что за катогизатор у вас? Он выложен в интернет?

TDz Mar 26 2009 at 19:29

У меня была цель быстрой каталогизации существующей базы книг — был сделан краулер, который индексировал базу книг, по имени папки пытался логически определить всё что мог, потом пытался вычитать ISBN из файлов в папке и если удавалось тянул с амазона всю информацию о книге + категории по версии амазона. Ну и предоставлял вебморду для сотрудников библиотеки которые далее вручную разбирали книги которые не удалось опознать автоматически. В открытом доступе его нету, если интересно могу поискать скринкаст

mkevac Mar 26 2009 at 22:44

Да. Интересно. Буду благодарен.

Эта программа использовалась именно в библиотеке? Что за библиотеки у нас держат электронные книги?

atomicxp Mar 26 2009 at 23:27

ebdb.ru
lib.rus.ec
gen.lib.rus.ec

и т.д.

mkevac Mar 27 2009 at 00:28

Из-за «сотрудников библиотеки» я подумал что речь о реальных библиотеках.

TDz Mar 27 2009 at 02:20

Прошу прощения, неудачно выразился. Имелась в виду электронная библиотека, не публичная. Я попробую выдернуть оттуда что-то наглядное

cosmobot Apr 8 2009 at 15:07

Отличная идея.

cry_san Mar 27 2009 at 07:32

Есть поиск по ISBN и добавление книг в базу с ozon.ru, shop.top-kniga.ru, kniga.ru и knigainfo.ru.
Меняемся?

deltafix Mar 26 2009 at 17:17

Международный стандартный номер книги или ISBN (англ. International Standard Book Number) — уникальный номер книжного издания, необходимый для распространения книги в торговых сетях и автоматизации работы с изданием. Наряду с индексами ББК, УДК и авторским знаком, ISBN является частью так называемого издательского пакета… © Wikipedia.org ;)

TDz Mar 26 2009 at 18:42

Есть аналогичная софтина для виндовс и если не ошибаюсь линукс от активистов RuBoard
Что касается скрипта он не полностью соответствует стандарту ISBN и не опознаёт символ X в нём.

mkevac Mar 26 2009 at 18:46

Спасибо. Учту про символ X.

А что за программа от активистов RuBoard не подскажете? Версии чисто под Windows\MacOS меня не интересуют.

TDz Mar 26 2009 at 19:23

Я не уверен предоставляется ли исходный код, но бесплатно распостранялась собранная версия командлайновая которая получая параметром путь к PDF книге сканировала её на предмет нахождения петтерна ISBN-10 и возвращала в случае нахождения. Собственно ничего особенного, но для конечного пользователя проще в использовании. Для проф. пользования я бы рекомендовал сделать собственный парсер с учётом различного написания ISBN кода и исправленным определением X

Zharskiy Mar 26 2009 at 20:04

forum.ru-board.com/topic.cgi?forum=31&topic=5629&glp
может понадобиться регистрация

а также

torrents.ru/forum/viewtopic.php?t=693551
творчество в этой теме вылилось сюда: Library Genesis gen.lib.rus.ec

Вы не можете комментировать чаще, чем 1 раз в 5 минут
очень даже могу

Zharskiy Mar 26 2009 at 20:16

gen.lib.rus.ec/

карма кагбэ номекает мне, что пора валить с хабра?
;-D

Zharskiy Mar 26 2009 at 21:27

gen.lib.rus.ec/forum/viewtopic.php?f=1&t=4

mkevac Mar 26 2009 at 22:47

Спасибо. Много полезной информации.

cblp Mar 26 2009 at 20:05

Результат специально сделан YAML-совместимым? Если да, то почему бы не упомянуть об этом?

mkevac Mar 26 2009 at 22:50

Нет. Это банально распечатка Python-овского массива. Про YAML я узнал только что от вас.

cblp Mar 26 2009 at 23:01

И префиксы перед массивами. Видите, как здорово получилось!

atomicxp Mar 26 2009 at 23:48

На gen.lib.rus.ec вот это советуют rulib.narod.ru/findisbn.html

TDz Mar 27 2009 at 08:01

Вот пример работы с системой (внутреннее название BookDozer). Основная масса книг распознаются и каталогизируются автоматически. Но для особых случаев предусмотрена и ручная обработка:
www.youtube.com/watch?v=-dGIvOUYI6o
Альтернативно — полуавтоматическая обработка книги, для которой ISBN не нашёлся ни в самой ебуке ни в сопутствующих файлах:
www.youtube.com/watch?v=zD1akDx19zY

Show the best of all time