20 June 2019

Электронные книги и их форматы: говорим про EPUB — его историю, плюсы и минусы

МакЦентр corporate blogIT StandardsReading roomGadgetsSoftware
Ранее в блоге мы писали о том, как появились форматы электронных книг DjVu и FB2.

Тема сегодняшней статьи — EPUB.


Изображение: Nathan Oakley / CC BY

История формата


В 90-е на рынке электронных книг господствовали проприетарные решения. И у многих производителей читалок был собственный формат. К примеру, в NuvoMedia использовали файлы с расширением .rb. Это были контейнеры с HTML-файлом и файлом .info, содержащем метаданные. Такое положение вещей усложняло работу издателей — им приходилось верстать книги под каждый формат по-отдельности. Исправить положение вещей взялась группа инженеров из Microsoft, уже упомянутой NuvoMedia и SoftBook Press.

В то время Microsoft собиралась завоевывать рынок электронных книг и занималась разработкой приложения-читалки для Windows 95. Можно сказать, что создание нового формата являлось частью бизнес-стратегии ИТ-гиганта.

Если говорить о NuvoMedia, то эта компания считается производителем первой массовой электронной читалки Rocket eBook. Внутренняя память устройства составляла всего восемь мегабайт, а время автономной работы не превышало 40 часов. Что касается SoftBook Press, они также занимались разработкой электронных читалок. Но их девайсы имели отличительную особенность — встроенный модем — он позволял скачивать цифровую литературу напрямую из магазина SoftBookstore.

В начале нулевых обе компании — NuvoMedia и SoftBook — были куплены медиакомпанией Gemstar и объединены в Gemstar eBook Group. Эта организация еще несколько лет занималась продажей ридеров (например, RCA REB 1100) и цифровых книг, однако в 2003 году вышла из бизнеса.

Но вернемся к разработке единого стандарта. В 1999 году Microsoft, NuvoMedia и SoftBook Press основали организацию Open eBook Forum, в составе которой стали работать над черновиком документа, положившим начало EPUB. Изначально стандарт назывался OEBPS (расшифровывается как Open EBook Publication Structure). Он позволил распространять цифровую публикацию в одном файле (ZIP-архиве) и упростил перенос книг между различными аппаратными платформами.

Позже к Open eBook Forum присоединились ИТ-компании Adobe, IBM, HP, Nokia, Xerox и издатели McGraw Hill и Time Warner. Все вместе они продолжили разработку OEBPS и занимались развитием экосистемы цифровой литературы в целом. В 2005 году организацию переименовали в Международный форум по цифровым публикациям, или IDPF.

В 2007 году IDPF сменили название формата OEBPS на EPUB и начали разработку его второй версии. Её представили широкой публике в 2010 году. Новинка почти не отличалась от своего предшественника, однако получила поддержку векторной графики и встроенных шрифтов.

К этому времени EPUB завоевывал рынок и стал стандартом по умолчанию для многих издателей и производителей электронных гаджетов. Форматом уже пользовались O’Reilly и Cisco Press, плюс его поддерживали устройства Apple, Sony, Barnes & Noble, ONYX BOOX.

В 2009 году проект Google Books объявил о поддержке EPUB — его использовали для распространения более миллиона бесплатных книг. Популярность формат начал приобретать и у писателей. В 2011 году Джоан Роулинг рассказала о планах запустить сайт Pottermore и сделать его единственной точкой продаж книг Поттерианы в цифровом виде.

Стандартом для распространения литературы был выбран EPUB, в первую очередь из-за его возможности реализовать защиту от копирования (DRM). Все книги в онлайн-магазине писательницы до сих пор доступны только в этом в формате.

Третья версия формата EPUB вышла в 2011 году. Разработчики добавили возможность работать с аудио- и видеофайлами и сносками. Сегодня стандарт продолжает развиваться — в 2017 году IDPF даже вошла в состав консорциума W3C, который внедряет технологические стандарты для Всемирной паутины.

Как устроен EPUB


Книга в формате EPUB представляет собой ZIP-архив. В нем хранится текст публикации в виде XHTML- или HTML-страниц или файлов PDF. Также в архиве лежит медиаконтент (аудио, видео или изображения), шрифты и метаданные. Еще в нем могут находиться дополнительные файлы со стилями CSS или PLS-документы с информацией для сервисов генерации речи.

За отображение контента отвечает XML-разметка. Фрагмент книги со встроенной аудиозаписью и изображением может выглядеть следующим образом:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops"
    xmlns:ev="http://www.w3.org/2001/xml-events"
    epub:prefix="media: http://idpf.org/epub/vocab/media/#">
    <head>
        <meta charset="utf-8" />
        <link rel="stylesheet" type="text/css" href="../css/shared-culture.css" />
    </head>
    <body>
        <section class="base">
            <h1>the entire transcript</h1>
            <audio id="bgsound" epub:type="media:soundtrack media:background"
                src="../audio/asharedculture_soundtrack.mp3" autoplay="" loop="">
                <div class="errmsg">
                    <p>Your Reading System does not support (this) audio</p>
                </div>
            </audio>

            <p>What does it mean to be human if we don't have a shared culture? What
 does a shared culture mean if we can't share it? It's only in the last
 100, or 150 years or so, that we started tightly restricting how that
 culture gets used.</p>

            <img class="left" src="../images/326261902_3fa36f548d.jpg"
                alt="child against a wall" />
        </section>
    </body>
</html>

Помимо контентных файлов в архиве находится специальный навигационный документ (Navigation Document). Он описывает расположение текста и изображений в книге. Приложения-ридеры обращаются к нему в том случае, если читатель желает «перескочить» через несколько страниц.

Еще один обязательный файл в архиве — package. Он включает в себя метаданные — информацию об авторе, издателе, языке, названии и так далее. Туда же входит перечень (spine) подразделов книги. Пример package-документа можно посмотреть в репозитории IDPF на GitHub.

Достоинства


Преимущество формата — его гибкость. EPUB позволяет создавать динамическую разметку документа, адаптирующуюся под размеры экрана устройства. Это одна из главных причин, почему формат поддерживает большое количество читалок (и других электронных устройств). К примеру, с EPUB работают «из коробки» все ридеры ONYX BOOX: от базовой и 6-дюймовой Caesar 3 до премиальной и 9,7-дюймовой Euclid.


/ ONYX BOOX Caesar 3

Так как формат построен на основе популярных стандартов (XML), его легко конвертировать для чтения в интернете. Также EPUB поддерживает интерактивные элементы. Да, подобные элементы они есть и в PDF, однако добавить их в PDF-документ можно только c помощью проприетарного программного обеспечения. В случае с EPUB они добавляются в книгу разметкой и тегами XML в любом текстовом редакторе.

Другим достоинством EPUB являются функции для людей, испытывающих проблемы со зрением или страдающих дислексией. Стандарт дает модифицировать отображение текста на экране — например, подсветить определённые буквосочетания.

Еще EPUB, как мы уже отметили, дает издателю возможность установить защиту от копирования. При желании продавцы электронных книг могут использовать свои механизмы, ограничивающие доступ к документу. Для этого нужно модифицировать файл rights.xml в архиве.

Недостатки


Для создания EPUB-публикации необходимо разбираться в синтаксисе XML, XHTML и CSS. При этом приходится работать с большим количеством меток-идентификаторов. Для сравнения, тот же стандарт FB2 включает в себя лишь минимально необходимый набор тегов — достаточный для верстки художественной литературы. А для создания PDF-документов вообще не требуются особые знания — за все отвечает специализированное ПО.

Также EPUB критикуют за сложность оформления комиксов и других книг со множеством иллюстраций. В этом случае издателю приходится создавать статичный макет с фиксированными координатами для каждой картинки — на это может уходить много сил и времени.

Что дальше


Сейчас IDPF работает над новыми спецификациями для формата. Например, одна из них поможет создавать интерактивные учебные пособия со скрытыми разделами. Одна и та же книга будет по-разному выглядеть для преподавателя и студента — во втором случае окажутся скрыты, например, ответы на тесты или контрольные вопросы.


Изображение: Guian Bolisay / CC BY-SA

Ожидается, что новая функция поможет реорганизовать образовательный процесс. Сегодня EPUB довольно активно используется крупными вузами, например Оксфордским университетом. Несколько лет назад они добавили в свое приложение с цифровой библиотекой поддержку EPUB 3.0.

Также IDPF создает спецификацию для внедрения в EPUB сносок Open Annotation. Этот стандарт разработали в W3C в 2013 году — он упрощает работу со сложными видами аннотаций. Например, с его помощью можно поставить примечание к определенному участку JPEG-изображения. Дополнительно стандарт реализует механизм синхронизации изменений в аннотациях между копиями одного EPUB-документа. Примечания формата Open Annotation можно добавлять в EPUB-файлы и сейчас, однако формальная спецификация для них пока не принята.

Также ведется работа над новой версией стандарта — EPUB 3.2. В ней появятся форматы WOFF 2.0 и SFNT, которые используются для сжатия шрифтов (в некоторых случаях они позволяют сократить размеры файла на 30%). Также разработчики заменят некоторые устаревшие атрибуты HTML. Например, вместо отдельного элемента trigger для активации аудио- и видеофайлов в новом стандарте будут нативные HTML-элементы audio и video.

Черновик спецификации и список изменений уже доступны в GitHub-репозитории W3C.



Обзоры читалок ONYX-BOOX:

Tags:макцентрEPUBчиталкиридерыONYX-BOOX
Hubs: МакЦентр corporate blog IT Standards Reading room Gadgets Software
+27
15.3k 89
Comments 16
Information
Founded

1 January 1991

Location

Россия

Employees

31–50 employees

Registered

4 July 2016