Pull to refresh

Comments 2

Уважаемый автор, спасибо за статью! Возможно некоторые аспекты помогут — как знания, а может быть и как элемент технологии.

Для понимания целесообразности предложенного подхода — только для конвертации в docx:
1) — вопрос по фразе «Неопределенное множество файлов в формате .doc,» — что это означает:
— неопределенное — это всё-таки сколько — сотни, тысячи, десятки тысяч?
— кол-во файлов *.doc является конечным (например — ориентировочно «предварительно вычислимым») или этот массив файлов постоянно (периодически) пополняется или файлы изменяются?
2) — насколько различными являются исходные файлы — по количеству страниц, языкам текста, иным параметрам или большинство файлов более-менее сходные — это, в частности, необходимо для ориентировочной оценки затрат времени на обработку;
3) — в части функциональности xtranslator — про списки и таблицы Вы написали, хотелось бы уточнить насчёт корректности отработки следующих элементов — колонтитулы, в т.ч. со вставленными рисунками -логотипами, разделы (наиболее актуально — если в док-те до более 10 разделов, со сменой ориентации страниц); про таблицы — были ли многостраничные таблицы и таблицы с очень мелким (6-7) размером шрифта, а так же, если исходно текст не отображался полностью в ячейке, то что было в сконвертированном документе — например, не увеличивалась ли высота строк; объединенные ячейки в таблицах, таблички, вставленные в ячейки таблиц; что с рисунками — сохранение размера и расположения, корректность «обтекания» — за текстом, в тексте и прочее; что с автофигурами, в т.ч. объединенными в группы — сохранение взаимного расположения и т.п.
Спасибо!

Спасибо за вопрос!


  1. В данной статье под неопределенным количеством файлов понимается неизвестное количество документов, которые нужно преобразовать, в самом прямом смысле. Например, один источник может потребовать от нас преобразование 2-3 файлов, а другой — несколько сотен. Опираясь на собственный опыт, могу сказать, что еще не было ситуации, при которой приходилось конвертировать сильно больше 100 документов для одного из источников. В целом, каких-то проблем это не вызывало.
  2. В моем кейсе, документы сильно отличались по количеству страниц: от 1 до 100 страниц. Языки документов: русский и английский — других не встречали.
  3. Я не готов дать ответ на этот вопрос. Так как моей задачей являлось подготовка текста для последующего парсинга, то вопросами обработки графики, сохранения колонтитулов и иными вопросами оформлениями я не занимался. Однако, вы сами можете попробовать поиграться с b2xtranslator.
    Спасибо!
Sign up to leave a comment.