Как стать автором
Обновить
0.2

PDF

Межплатформенный формат электронных документов

Сначала показывать
Порог рейтинга
Уровень сложности

Пишем чат-бот для работы с PDF

Время на прочтение7 мин
Количество просмотров6.6K

Популярность языковых моделей, в частности ChatGPT, растет в геометрической прогрессии, но многие из нас все еще сталкивается с определенными ограничениями, такими как устаревшая информация, которые OpenAI пока что не смогла преодолеть.

Но задумывались вы над тем, чтобы задавать вопросы непосредственно из своих документов, хранящихся в облаке? Сохраните своё время, которое уходило бы на поиски и ручной мониторинг сайтов, и задействуйте автоматизацию при работе с PDF-документами. Если вас занимает такая перспектива, эта статья окажется для вас ценным ресурсом.

Мы можем избежать риска недостоверных данных в ChatGPT, внедрив работу модели через RAG. В нашем материале мы подробно объясним, как создать чат-бота для взаимодействия с документами из вашего хранилища с помощью LangChain.

Приступим (:

Читать далее
Всего голосов 15: ↑14 и ↓1+13
Комментарии7

Новости

Автоматизируем проверку содержимого PDF-файлов с помощью pdf-test

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.6K

Многие сервисы в различных отраслях генерируют печатные формы счетов, отчётов и прочего в формате PDF. И, конечно, перед специалистами тестирования встаёт вопрос о проверке этих документов.

Обычно получается так, что сам факт генерации документа достаточно несложно покрыть автотестами, а вот проверку содержимого оставляют для ручного тестирования. Однако в подобных документах может быть много незаметных мест, различий и неточностей, которые человек может просто не заметить. Поэтому появляется необходимость проверку этих документов автоматизировать.

В этой статье мы познакомим вас с инструментом, который достаточно просто может закрыть потребность в проверке содержания PDF-файлов. Это инструмент с открытым исходным кодом — pdf-test. Он по сути является обёрткой pdfbox и позволяет из коробки использовать основные мэтчеры, не задумываясь о том, чтобы писать свои или о том, как именно парсить документ. Рассмотрим далее его применение на языке Java.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Создание PDF размером с Германию

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров24K

Сегодня утром, пролистывая ленты социальных сетей, я уже в который раз встретила утверждение, что у PDF-документа есть максимально допустимый размер.

Подобное утверждение появилось на просторах интернета ещё в 2007 году. Этот твит является характерным примером постов с аналогичным заявлением, в которых оно преподносится как твёрдый факт без каких-либо подтверждающих свидетельств или объяснений. То есть мы должны просто принять, что один PDF может покрыть лишь около половины площади Германии, и нам никак не объясняют, почему его магический предел составляет 381 километр.

Тут мне стало интересно – а создавал ли кто-нибудь такой большой PDF? Насколько это сложно? А можно ли сделать документ ещё больше?

Несколько лет назад я из праздного любопытства немного поигралась с PostScript, предшественником PDF, и это оказалось очень увлекательным! Ранее мне не доводилось изучать внутреннее устройство PDF, так что здесь у меня возник для этого хороший повод.

Приступим!
Читать дальше →
Всего голосов 126: ↑123 и ↓3+120
Комментарии57

Dedoc: как автоматически извлечь из текстового документа всё и даже немного больше

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров4.2K

Привет, Хабр! 

Мы команда разработчиков Института Системного Программирования РАН, занимаемся Computer Vision в обработке электронных документов. Мы разработали open-source библиотеку dedoc, которая помогает разработчикам и дата-сайентистам в пару строк кода читать различные форматы текстовых документов и изображений с текстом, и далее приводить информацию к единой аккуратной структуре.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии6

Акробата нет, но вы держитесь. Чем редактировать PDF?

Время на прочтение7 мин
Количество просмотров54K

Компания Adobe покинула российский рынок в марте 2022 года, лишив пользователей привычных инструментов для графического дизайна, редактирования фото и видео, веб-разработки. Одной из крупных потерь стал пакет программ для работы с документами формата PDF — Adobe Acrobat, поскольку, в отличие от программ для дизайна, они затрагивают максимально широкий круг пользователей. Это студенты и преподаватели, использующие учебные материалы, офисные работники из разных направлений бизнеса, сотрудники государственных организаций, работающие с документами, и обычные люди, которые оцифровывают личные бумаги для домашнего архива. Одним словом, трудно найти человека, который бы никогда не работал с файлами PDF.

C 2022 года все они оказались в ситуации, когда установить дистрибутив с официального сайта Adobe было невозможно, оплатить лицензию —  нельзя, продлить ее — тоже. Выход оставался один — искать альтернативы на российском рынке. Хорошая новость — такие варианты есть. И они ничуть не уступают международным продуктам — ни по качеству, ни по функциональности.

Читать далее
Всего голосов 51: ↑21 и ↓30-9
Комментарии57

Как добавить фон в PDF-документ на языке C#

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.8K

Фон отображается под текстом или изображениями на странице. Фон может быть как сплошным цветом, так и изображением. Фон можно выборочно применять к определенным страницам, диапазонам страниц или ко всем страницам документа. В этой статье я расскажу о том, как программно добавить цвет фона или изображение в PDF-документ на языке C# с помощью Free Spire.PDF for .NET.

Читать далее
Всего голосов 6: ↑2 и ↓4-2
Комментарии0

Извлечение текста из файлов PDF при помощи Python

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров30K

▍ Введение


В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать дальше →
Всего голосов 55: ↑54 и ↓1+53
Комментарии10

Преобразование markdown в pdf на Python

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров4.8K

Каждому, кто ходил извилистой тропкой автоматической генерации pdf из markdown файлов ведомы связанные с этой задачей пеньки решения: Pandoc, LaTex, wkhtmltopdf и т.п.

Хочу поделиться с сообществом новым (по крайней мере для меня) вариантом решения этой задачи в Python.

Этот вариант имеет следующие плюсы.

Читать далее
Всего голосов 9: ↑6 и ↓3+3
Комментарии11

История FineReader: так создавалась легенда (часть II)

Время на прочтение10 мин
Количество просмотров2.7K

Мы продолжаем изучать летопись функционального развития легендарного редактора FineReader PDF. Первую часть 30-летней истории можно прочитать здесь. А сейчас перенесемся в середину нулевых. 

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии6

История FineReader: так создавалась легенда (часть I)

Время на прочтение9 мин
Количество просмотров5K

Не секрет, что многофункциональный редактор ContentReader PDF является технологическим наследником популярного решения компании ABBYY – FineReader PDF. После модификации исходного продукта его новую историю на российском рынке пишет Content AI. Между тем, легендарному редактору PDF в этом году исполнилось 30 лет. И это достойный повод, чтобы вспомнить, как все начиналось и как развивался продукт, ставший незаменимым инструментом для всех, кто работает с документами. 

Для полного погружения мы смогли найти ноутбук IBM ThinkPad T61 c Windows XP, установили на него все версии FineReader с 1 по 13 и сделали аутентичные скриншоты. Пристегнитесь, запускаем машину времени через три…два…один. 

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии9

Альтернативные утилиты для PDF

Время на прочтение4 мин
Количество просмотров11K


Помимо программ от Adobe есть много альтернативных специализированных библиотек и утилит для работы с PDF. Что характерно, зачастую опенсорсные инструменты даже удобнее, чем официальный* софт. Альтернативные ридеры/редакторы по функциональности сильно отличаются от Adobe. В свою очередь, программы Adobe сами отличаются от официальных спецификаций PDF.

*Примечание: программы Adobe не «официальные» в прямом смысле слова, потому что PDF является открытым и бесплатным стандартом ИСО.
Читать дальше →
Всего голосов 9: ↑7 и ↓2+5
Комментарии25

Человек, который создал Adobe

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров7.3K


19 августа 2023 года ушёл из жизни Джон Уорнок — ученый, который стал успешным бизнесменом и основал IT-компанию, завоевавшую известность во всём мире. Выручка корпорации Adobe в 2022 году составила 17,6 млрд. долларов США, а с ее продуктами работают десятки миллионов пользователей в разных уголках земного шара. Причем название одного из этих продуктов уже давно стало нарицательным, по крайней мере, глагол «отфотошопить» можно без труда отыскать в некоторых современных словарях.
Читать дальше →
Всего голосов 33: ↑32 и ↓1+31
Комментарии14

Как PDF изменил мир

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров10K

Нам сейчас трудно представить, но было время, когда документы для печати нельзя было создать и подготовить за считанные секунды. И вообще, раньше обмен документами был громоздким процессом, который включал в себя распечатку и физическую передачу из рук в руки. Но всё изменилось в 1993 году, когда Adobe Systems представила миру PDF (Portable Document Format) — революционно новый формат файлов, он упростил обмен документами и их архивирование.

Тридцать лет спустя PDF — популярный формат документов для всего: от налоговых форм до электронных книг и руководств пользователя. PDF изменило то, как пользователи создают, делятся и получают доступ к цифровым документам. Только в прошлом году пользователи открыли более 400 миллиардов PDF-файлов в продуктах Acrobat, а Adobe обработала более 8 миллиардов транзакций с электронными и цифровыми подписями. PDF стал неотъемлемой частью современного мира, оказав фундаментальное влияние на появление онлайн-печати.
Читать дальше →
Всего голосов 48: ↑48 и ↓0+48
Комментарии62

Ближайшие события

Как использовать C# для разделения PDF документа

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.6K

PDF является широко используемым форматом электронных документов, но иногда мы хотим разделить большой PDF файл на несколько отдельных файлов для более удобного управления и обработки. В этой статье мы расскажем, как с помощью языка C# и Free Spire.PDF for .NET разбить PDF документ.

Читать далее
Всего голосов 7: ↑1 и ↓6-5
Комментарии5

Работа с файлами в приложениях: как уйти от зарубежных .NET-библиотек

Время на прочтение11 мин
Количество просмотров8.1K

Когда в разрабатываемом приложении нужно конвертировать, создавать или изменять файлы, приходится подключать для этого готовые решения — чтобы не погружаться в спецификации форматов. Таких решений много, в том числе для С#, но вот незадача: все они зарубежные. В нынешних условиях применять их может быть неудобно, а кому-то даже нельзя.

Я Максим Саутин из компании SautinSoft. Хочу порассуждать, почему в России не было собственных разработок в этом направлении, и рассказать, как работают наши .NET-библиотеки, которые используются на российском рынке. 

Читать далее
Всего голосов 39: ↑8 и ↓31-23
Комментарии85

Как убрать пустые оборотные страницы из PDF после двухстороннего сканирования

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.1K

Около двух месяцев назад я написал статью как сканировать многостраничные двухсторонние документы, если под рукой только обычный сканер с автоподачей, в которой затронул проблему того, что МФУ часто имеют дуплексную двустороннюю печать, но односторонний сканер.

Однако после решения проблемы быстрого сканирования больших двухсторонних документов, была обнаружена ещё одна проблема — некоторое количество страниц могут оказаться односторонними. И это означает, что PDF будет иметь белые страницы, например, со сканами перфораций или отверстий под кольца.

Конечно, можно удалить несколько страниц из PDF вручную, но что если таких файлов сотни, а сами документы имеют несколько десятков или даже сотен страниц как на фотографии?

Используем bash-скрипт
Всего голосов 10: ↑10 и ↓0+10
Комментарии10

Бесплатный доступ к PDF 2.0

Время на прочтение5 мин
Количество просмотров6.7K


В начале года мы задавались вопросом, почему стандарты ИСО не публикуют в открытом доступе, хотя эти знания нужны и полезны для человечества? По мнению некоторых представителей IT-индустрии, платный доступ к документам — не самая эффективная политика. Особенно когда дело касается общественно важных стандартов, таких как ISO 8601 — Представление дат и времени (в интернет-магазине первая часть продаётся за 166 франков) или ISO 639 — Коды для представления названий языков (тоже две части по 166 CHF). Платный доступ — искусственный барьер, который только мешает.

Для отдельных стандартов находятся спонсоры, которые оплачивают организации ИСО расходы, чтобы выложить документы в открытом доступе для всех. Это относится и к новому пакету стандартов PDF 2.0, принятому в 2017–2022 гг (разные части), который пришёл на смену прежним версиям PDF 1.0–1.7.
Читать дальше →
Всего голосов 16: ↑15 и ↓1+14
Комментарии5

Встраиваем JS- скрипты в PDF для социальной инженерии — пошаговое руководство

Время на прочтение7 мин
Количество просмотров13K

Введение

Согласно статистике, большинство всех атак совершается с использованием вредоносного программного обеспечения, а половина от всех атак проводится с использованием методов социальной инженерии.

Таким образом, для проведения проверок с использованием методов социальной инженерии полезно научиться отслеживать реакцию пользователей, что они будут делать с полученным документом. Причём делать это необходимо штатными средствами, никого не взламывая. JavaScript идеально подходит для этих целей.

Мы, Маргарита Белоусова, аналитик аналитического центра и Анастасия Прядко, специалист по анализу защищенности компании УЦСБ написали пошаговую инструкцию, как сделать фишинговый документ: детали и примеры кода. Кроме того, мы кратко рассмотрели структуру PDF-файла, как и куда в него внедрять JavaScript, а также способы маскировки факта внедрения скрипта. Наш опыт пригодится безопасникам, системным администраторам и всем, кто связан с ИБ.

Структура PDF

Организация данных в памяти

PDF способен на большее, чем просто отображать текст. Он может также включать в себя изображения и другие мультимедийные элементы, может быть защищён паролем, выполнять JavaScript и многое другое. Вне зависимости от версии структура PDF документа неизменна:

Читать далее
Всего голосов 17: ↑16 и ↓1+15
Комментарии7

Как сканировать многостраничные двухсторонние документы, если под рукой только обычный сканер с автоподачей

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров18K

Нет проблемы быстро сканировать документы с любым количеством страниц, если под рукой есть сканер с устройством автоматической подачи. Однако часто МФУ имеют дуплексную двустороннюю печать и сканер, который умеет сканировать только с одной стороны, но имеет устройство автоматической подачи документов.

При этом сканирование больших двухсторонних документов выглядит проблемой, которая поедает большое количество времени.

Ведь если документ состоит всего из нескольких страниц, то нет необходимости связываться с командной строкой, потому что можно вручную склеить сканы в любой программе, которая работает с PDF, просто переставив местами страницы или даже вручную перевернув их на сканере.

Но что если документ А4 формата имеет несколько десятков или даже сотен страниц как на фотографии?

Используем консольную программу pdftk
Всего голосов 33: ↑31 и ↓2+29
Комментарии31

Самый простой способ редактировать PDF

Время на прочтение3 мин
Количество просмотров93K


История сложилась так, что в 80-е годы именно PostScript стал стандартом для цифровых документов, а из него появился «портативный» PDF. Вероятно, нам ещё долго придётся жить с этим наследием типографской индустрии 20 века.

Быстро поставить подпись/печать на полученный PDF и отправить его адресату — самый типичный сценарий в современном документообороте. Практика показывает, что некоторые офисные сотрудники предпочитают распечатать PDF, расписаться от руки — и отсканировать распечатку с подписью, сводя к нулю логику электронного документооборота. Если бумажная копия нужно только для сканирования, то это совершенно бесполезная трата бумаги и времени.

Посмотрим, какие есть варианты для быстрого редактирования PDF с сохранением правок в цифровом виде.
Читать дальше →
Всего голосов 41: ↑38 и ↓3+35
Комментарии157