PDF

Межплатформенный формат электронных документов

Статьи Посты Новости Авторы Компании

itGuevara 4 дек 2022 в 20:20

Открытый проект Электронного подписания внутренних документов компании на примере кадровых

15 мин

4.3K

Анализ и проектирование систем*PDFECM/СЭД*Бизнес-модели*

По мотивам Социальный труд и открытое проектирование. Введение

предлагается организовать открытый проект «Электронное подписание внутренних документов компании». Интерес к электронной подписи большой (МЧД и т.п.), но простых решений нет.

В целом подписание внутренних документов компании несложно расширить на «внешнее»: для этого достаточно с контрагентами заключить регламент, который «узаконит» применение подписи. Внутренние документы компании – разнообразны, распорядительные (приказы, распоряжения, служебные записки), бухгалтерские и управленческие отчеты и другие документы.

В целом «Электронное подписание внутренних документов компании» можно распространить на очень широкую отраслевую специфику, например, банковскую – подписание первичных документов и бухгалтерских отчетов (балансы, книга открытых \ закрытых счетов и т.п.) по 2346-У.

Недавно обновился Трудовой кодекс (Статьи 21.1 – 22.3 введенные ФЗ от 22.11.2021 N 377) в части электронной подписи, что резко повысило интерес к подписанию кадровых документов. Предлагается в рамках проекта научиться подписывать кадровые документы, т.к. если это получится, то остальное будет реализовать еще проще. Важно не столько услужение задачи – сколько то, что электронный документооборот хоть как-то начали регламентировать законодательно (криво, но хоть как-то).

Как вариант: у компании уже есть HR-система, но без кнопки «подписать». Проект КЭДО позволит добавить эту кнопку (включая маршруты согласования и подписания) и организовать долговременный архив с электронной подписью документов в рамках юридически значимого документооборота.

alex_29 7 окт 2022 в 11:52

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт

8 мин

3.8K

PDFR*

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт.

Сегодня я хочу рассказать о том, как я писал отчеты на R, с чем сталкивался и как решал проблемы, которые возникали по ходу разработки. Отчеты были в формате PDF и запускались из Python в Camunda.

VlaSard 22 сен 2022 в 00:52

Работаем с pdf из контекстного меню файлового менеджера

4 мин

5.4K

Программирование*PDFРазработка под Linux*

Туториал

Замечательный файловый менеджер Dolphin всем хорош. И две панели, и разнообразные контекстные меню ускоряющие обработку всевозможных команд и заданий. Но что делать если нужно простенько и быстро собрать несколько одностраничных pdf-файлов?

Узнать больше

cbibop 13 апр 2022 в 11:00

Мечтают ли алгоритмы о финансовой отчётности: новый способ работы с ФО в ВТБ

13 мин

Блог компании ВТБPython*PDF

Финансовая отчетность (ФО) — штука предельно ответственная. Получаемая от бизнеса ФО постоянно нужна банку для организации повседневной деятельности. Но процесс получения важной для нас отчётности омрачается тем, что работа с ФО — это монотонный неэффективный конвейер, на поддержание которого банковские служащие тратят тысячи человекочасов. ВТБ использует электронные инструменты получения ФО, такие как: ФНС, 1С, Коробочное решение распознавания. Это основные направления развития, но сегодня они не покрывают всю потребность в клиентской ФО.

Меня зовут Андрей Ходяков, я работаю с неструктурированными данными в управлении моделирования КИБ СМБ в банке ВТБ. И в этом материале я расскажу, как мы искали и нашли собственное решение для борьбы с рутиной ФО.

Взглянуть на ФО под новым углом

Braincom 26 сен 2021 в 11:45

Разделение, объединение и поворот PDF-документов на Python с помощью borb

5 мин

9.2K

Python*PDF

Формат переносимых документов (PDF) не является форматом WYSIWYG (What You See is What You Get (То, Что Вы Видите, это То, Что Вы Получаете)). Он был разработан, чтобы быть независимым от платформы, независимым от базовой операционной системы и механизмов рендеринга.

Для достижения этой цели PDF был создан для взаимодействия с помощью чего-то более похожего на язык программирования, и для достижения результата полагается ряд инструкций и операций. Фактически, PDF основан на языке сценариев - PostScript, который был первым независимым от устройства языком описания страниц.

В этом руководстве мы будем использовать borb - библиотеку Python, предназначенную для чтения, манипулирования и генерации PDF-документов. Он предлагает как низкоуровневую модель (что позволяет получить доступ к точным координатам и макету), так и высокоуровневую модель (где вы можете делегировать точные расчеты полей, позиций и т. д.).

yaAubakirov 14 сен 2021 в 10:31

Работа с pdf-файлами с помощью библиотеки fitz

4 мин

19K

Python*PDF

Возникла идея создать небольшую утилиту на Python, которая будет парсить PDF и сверять со списком швов, взятых из BIM модели. Изначально я обратился к библиотеке pdfminer, вернее к ее форку pdfminer.six. Но скорость работы меня совершенно не устраивала. Вот, например, загрузка файла в 10 страниц и парой картинок.

+16

ru_vds 22 авг 2021 в 13:00

Как сравнить два PDF-документа

4 мин

23K

Блог компании RUVDS.comPDFЧитальный зал

Перевод

Существует несколько фундаментальных задач, которые встречаются при работе с большинством, а то и со всеми документами. Одна из них — сравнить две версии одного и того же документа. Это могут быть юридические соглашения или исправления в отчёте, которые, скорее всего, в наши дни будут представлены в формате PDF. В этой статье рассказывается, как можно сравнить содержимое двух файлов PDF или почему у вас не получится этого сделать.

Читать дальше →

+32

ru_vds 2 авг 2021 в 16:01

Кунг-фу стиля Linux: PDF для пингвинов

7 мин

19K

Блог компании RUVDS.comНастройка Linux**nix*PDF

Перевод

Вначале PostScript представлял собой язык программирования для принтеров. И хотя PostScript-принтеры всё ещё не потеряли актуальности, существует и множество других форматов, в которых можно отправлять данные на печать. Но благодаря PostScript появился Portable Document Format — PDF, который стал невообразимо популярным. Пожалуй, не проходит и дня, чтобы каждый из нас не просмотрел бы какой-нибудь PDF-документ на своём компьютере. Конечно, есть и форматы, конкурирующие с PDF, но им, в сравнении с PDF, принадлежит лишь небольшая доля рынка. Просмотр PDF-файлов в Linux — это не проблема. А как насчёт их редактирования? Как оказалось, это тоже несложно, правда, только если знать о том, как именно это делается.

Читать дальше →

+31

omprussia 21 июл 2021 в 12:20

Linux на мобилках, PDFium и как рендерить PDF в 2 раза быстрее

5 мин

5.7K

Блог компании Открытая мобильная платформаC++*Qt*PDFРазработка под Linux*

Привет, Хабр! В этой статье хотим рассказать о том, как мы протестировали три основные открытые библиотеки для работы с PDF-документами: Poppler, PDFium и MuPDF. Сравнили скорость рендера документов разного объёма, качество рендера, требования к технологиям разработки и условия лицензий для коммерческих продуктов на базе этих библиотек. Спойлер: победителем стала библиотека PDFium, но, как всегда, есть нюансы. Под катом обо всём по порядку.

itsoft 5 июл 2021 в 07:00

Счёт может быть красивым и в HTML, а не в PDF

3 мин

10K

Блог компании ITSOFTВеб-дизайн*HTML*PDFФинансы в IT

В статье “Что должно быть в счёте на оплату, чего быть не должно и что дико бесит” мы разбирали содержимое счёта. По результатам той работы возникло желание оформить счёт стильно ибо стандартный вариант бухгалтерских программ вроде 1С какой-то страшный.

В статье разберём плюсы генерации счетов в HTML-формате по сравнению с генерацией PDF и тюнинг версии для печати, добавим 5 копеек про ЭЦП (УКЭП).

Итак, погнали...

eny01 1 июл 2021 в 00:45

Tesseract OCR, выделение распознанного текста на изображении

2 мин

14K

Python*PDF

Из песочницы

Прочитать картинку, сохранить текст, обработать текст, получить результат довольно просто. Хочу рассказать как этот результат отобразить для пользователя на ранее прочитанной картинке, например выделить кусочек текста содержащий целевое предложение. Такая задача будет полезна при выделении важной части текста и демонстрации её руководству в виде картинки.

Hasselhoff 19 мая 2021 в 18:18

Создание PDF-документа на Python с помощью pText

9 мин

28K

Блог компании SkillfactoryOpen source*Python*Программирование*PDF

Туториал

Перевод

Один из самых гибких и привычных способов сгенерировать pdf — написать код на LaTeX и воспользоваться соответствующей программой. Но есть и другие способы, которые могут оказаться проще и понятнее, чем LaTeX. Специально к старту курса Fullstack-разработчик на Python представляем перевод статьи о том, как для генерации PDF можно воспользоваться библиотекой pText; эта статья написана Йорисом Схеллекенсом — разработчиком pText.

+11

Osiris74 25 апр 2021 в 11:28

Даешь свободную литературу! Или как я с политикой вуза боролся

5 мин

9.2K

Программирование*Delphi*Алгоритмы*HTML*PDF

Из песочницы

Технотекст 2021

Доброго времени суток, хабровчане! Это мой первый пост на форуме, так что прошу строго не судить.

Как и полагается любому техническому вузу – в нашем есть куча интернет ресурсов, которыми вуз чрезмерно гордится. Однако есть оборотная сторона медали – качество этих сервисов. А именно, если говорить про электронную библиотеку, о коей и пойдет речь в данной статье, то в ней напрочь отсутствует возможность скачивания pdf-версии нужной тебе методички, точнее она есть, но за это придется заплатить немало денЯк. Деньги далеко не маленькие (если говорить именно про цену за вузовские методички). Если же такой формат не устраивает, то можешь пользоваться онлайн библиотекой.

В онлайн библиотеке есть просмотрщик книг, через который можно читать литературу. Просмотрщик оформлен максимально неудобно: долгое время не работал переход на определенную страницу книги, и книгу в 700 страниц приходилось перелистывать по страничке, что превращалось в адскую муку. Но самое ужасное в этом сайте то, что каждые 20 минут он просит авторизоваться по новой…

И теперь представьте картину: человек пытается подготовиться к контрольной по квантовой механике по методичкам преподавателя, объемом 700 страниц, где необходимый материал находится на 500, и может перелистывать по 5 страничек в минуту, и каждые 20 минут, его попытки приходится возобновлять.… В общем, жесть…. И вот после очередной неудачной попытки прочитать нужную главу, я решил, что пришло время положить конец данному произволу.

+17

anegrey 18 апр 2021 в 20:04

Шаблонизация PDF

6 мин

23K

Веб-разработка*Python*PDFGitHub*

Хабрахабр, уважаемые коллеги!

Проблема впечатывания данных в PDF документ не нова, не я первый и не я последний кто с ней сталкивается, поэтому решил поделиться опытом решения и заодно представить вашему вниманию небольшое веб приложение по этой теме.

1. PDF формат хорош тем, что он не редактируемый. Во всяком случае рядовой пользователь вряд-ли будет заниматься внесением правок в документ PDF. И значит формат PDF хорошо подходит для обмена важными документами.

2. PDF формат плох тем, что он нередактируемый ) Т.к. шаблонизация, заполнение набором данных бланка документа PDF в автоматическом режиме затруднена, а в ручном режиме требуется установка платных, тяжеловесных приложений.

Меня, как программиста, беспокоит прежде всего 2-й пункт. Как в программном приложении впечатать необходимый набор данных в документ PDF?

host_m 6 янв 2021 в 11:03

Пугающие эксперименты с PDF: запускаем «Арканоид» в документе

5 мин

12K

Блог компании VDSina.ruНенормальное программирование*JavaScript*Google ChromePDF

Перевод

Подробнее об этом хаке и особенностях его работы можно узнать из доклада на !!con 2020 «Playing Breakout… inside a PDF!!»

Если вы его не смотрели, то попробуйте открыть файл breakout.pdf в Chrome.

Как и многие из вас, я всегда считал PDF довольно безопасным форматом: автор создаёт текст и графику, после чего он открывается в программе просмотра PDF, больше ничего не делая. Несколько лет назад я мимоходом слышал об уязвимостях Adobe Reader, но особо не задумывался о том, как они могут возникать.

Изначально Adobe сделала PDF именно для этого, но мы уже выяснили, что сегодня это совсем не так. В 1310-страничной спецификации PDF (на самом деле довольно понятном и интересном чтиве) описывается безумное количество возможностей, в том числе:

Встроенный Flash
Аннотации в виде звука и видео
Аннотации в виде 3D-объектов (!)
Метаданные Web capture
Произвольные математические функции (в том числе и Тьюринг-неполное подмножество PostScript)
Формы с поддержкой Rich text, использующие подмножество XHTML и CSS
Вложения в виде файлов и коллекций файлов

но самое интересное для нас…

Это скрипты JavaScript на основе стандартной библиотеки, совершенно отличающейся от библиотеки браузера

Читать дальше →

+54

SLY_G 13 окт 2020 в 15:29

Почему так сложно извлекать текст из PDF?

7 мин

28K

Программирование*PDF

Перевод

Перевод статьи с сайта компании FilingDB, составляющей базу данных из документации европейских компаний

Согласно распространённым представлениям, извлечение текста из PDF не должно быть такой уж сложной задачей. Ведь вот он, текст, прямо у нас перед глазами, и люди постоянно и с большим успехом воспринимают содержимое PDF. Откуда взяться трудностям в автоматическом извлечении текста?

Оказывается, точно так же, как работа с именами людей сложна для алгоритмов из-за множества пограничных случаев и неправильных предположений, так и работа с PDF сложна из-за чрезвычайной гибкости PDF-формата.

Основная проблема в том, что PDF не предполагался как формат для ввода данных – его разрабатывали, как канал вывода, дающий возможность тонкой подстройки вида итогового документа.

Читать дальше →

+48

mikolaschka 29 авг 2020 в 10:22

Lorem Ipsum: пишем от руки

6 мин

6.6K

PHP*PDF

Из песочницы

Предисловие

Занимаюсь развитием образовательного проекта. И в этом году для ребят потребовались прописи на английском языке.

Несмотря на то, что мы все чаще печатаем тексты в электронном формате, написание их от руки остаётся ещё популярным в повседневной и профессиональной жизни.

Прописи — вещь полезная как и для детей, так и для взрослых. Одни еще учатся писать, другие — тренируются.

Нам было важно создать систему быстрого и удобного подбора прописей. Поэтому решили сделать свой генератор.

Тема интересная, но информации в интернете оказалось очень мало. Так возникла идея написать инструкцию создания своих прописей.

Читать дальше →

+19

ContentAI_Team 18 июн 2020 в 16:58

Как создавать и изменять интерактивные PDF-формы, или новый скилл ABBYY FineReader PDF

7 мин

43K

Блог компании Content AIОбработка изображений*PDFУправление продуктом*Софт

Мы регулярно обучаем ABBYY FineReader PDF новым навыкам. Две недели назад мы рассказали на Хабре, как научили ABBYY FineReader PDF редактировать целые абзацы. Этот пост — о еще одном продвижении нашего продукта на пути к совершенству: программа теперь умеет создавать и редактировать интерактивные PDF-формы.

Раньше ABBYY FineReader PDF мог только заполнять такие формы – заявления на отпуск или визу, резюме, согласие на обработку персональных данных, исследования, опросы и т.д. Но что если компании нужно создать в формате PDF анкету, разработать шаблон документа или отредактировать в готовом бланке несколько полей, чтобы затем отправить его сотрудникам или клиентам? Теперь все это можно сделать в одной программе. О том, как это работает, для чего и кому может понадобиться такая функциональность, мы сегодня и расскажем. Поехали!

Читать дальше →

+19

shibaev 18 июн 2020 в 14:36

OCR для PDF в среде .NET — как извлечь текст из недоступных для поиска PDF документов

19 мин

20K

.NET*PDFC#*

Туториал

Перевод

Извлечение текста — одна из популярных задач обработки PDF документов. Вам потребуется извлечь текст из PDF, чтобы:

проиндексировать документ для полнотекстового поиска
распарсить некоторые данные (например, названия и цены товаров в прайс-листе)
выделить, удалить или заменить некоторое слово или фразу

Извлечь текст вручную можно так: откройте документ в любом PDF просмотрщике, выделите и скопируйте текст. В большинстве документов это сработает. Такие документы называются "доступные для поиска PDF" или "searchable PDF". Текст в них выводится с помощью специальных PDF операторов, а связанные объекты шрифтов содержат правильную информация о соответствии глифов значениям Unicode.

Многие PDF библиотеки умеют извлекать текст из доступных для поиска PDF.

Однако, часто встречаются и недоступные для поиска PDF ("non-searchable PDF") документы. В них текст обычно выводится как растровое изображение. Типичный пример — сканированный PDF документ. Также текст в недоступных для поиска PDF может выводиться векторными путями без использования шрифтов и специальных PDF операторов.

Для извлечения текста из недоступных для поиска PDF выполняйте оптическое распознавание текста (OCR). Оптическое распознавание не гарантирует правильного извлечения текста в 100% случаев. Результат зависит от качества документа и алгоритма распознавания. Также OCR существенно медленней, чем извлечение текста из доступных для поиска PDF.

Посмотрим, как выполнить оптическое распознавание и извлечь текст из PDF документов в программе для платформы .NET.

Читать дальше →

ContentAI_Team 4 июн 2020 в 15:55

Как мы научили ABBYY FineReader PDF редактировать целые абзацы

6 мин

17K

Блог компании Content AIОбработка изображений*PDFУправление продуктом*Софт

Сегодня мы обновили ABBYY FineReader 15 и выпустили его под брендом ABBYY FineReader PDF, потому что он объединяет все инструменты для работы с PDF. По этому поводу публикуем первый пост из серии материалов о фичах программы. В нем мы расскажем об одной интересной возможности, которая не первый месяц есть в программе, но, возможно, не все о ней знали.

Давно ли вы открывали PDF-файлы? Готовы поспорить, что совсем недавно. Скорее всего, на вашем компьютере точно найдется пара сканов, а может, еще и макет презентации, аналитическое исследование или техническая инструкция. Для каких задач обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят в файл правки, исправляют ошибки и опечатки.

Даже сейчас не все знают, что можно редактировать текст в PDF. Да, изменение таких файлов устроено не так, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро внести изменения прямо в PDF, без утомительной конвертации файла в другие форматы. При редактировании текст в PDF плавно перетекает со строчки на строчку, как в MS Word. Можно добавить или удалить несколько слов, изменить целые абзацы или даже поменять их местами.

В этом посте мы раскроем технические подробности редактирования многострочных фрагментов текста в FineReader: как мы изменили движок программы, как редактирование устроено изнутри и как оно выглядит для пользователя. Поехали!

Читать дальше →

+19

3 4 5

PDF

Открытый проект Электронного подписания внутренних документов компании на примере кадровых

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт

Работаем с pdf из контекстного меню файлового менеджера

Мечтают ли алгоритмы о финансовой отчётности: новый способ работы с ФО в ВТБ

Истории

Разделение, объединение и поворот PDF-документов на Python с помощью borb

Работа с pdf-файлами с помощью библиотеки fitz

Как сравнить два PDF-документа

Кунг-фу стиля Linux: PDF для пингвинов

Linux на мобилках, PDFium и как рендерить PDF в 2 раза быстрее

Счёт может быть красивым и в HTML, а не в PDF

Tesseract OCR, выделение распознанного текста на изображении

Создание PDF-документа на Python с помощью pText

Даешь свободную литературу! Или как я с политикой вуза боролся

Ближайшие события

Шаблонизация PDF

Пугающие эксперименты с PDF: запускаем «Арканоид» в документе

Почему так сложно извлекать текст из PDF?

Lorem Ipsum: пишем от руки

Предисловие

Как создавать и изменять интерактивные PDF-формы, или новый скилл ABBYY FineReader PDF

OCR для PDF в среде .NET — как извлечь текст из недоступных для поиска PDF документов

Как мы научили ABBYY FineReader PDF редактировать целые абзацы

Вклад авторов