Pull to refresh

Comments 4

На чём основывался выбор «Для DOC файлов — catdoc. Для считывания текста из DOCX файлов используется Zend.»

phpword.codeplex.com/ для их считывания смотрели?
Почему-то пропустил эту либу. Спасибо за ссылку!
phpword.codeplex.com делает вот что:

$word_file = JPATH_COMPONENT.DS.DS.'PHPWord_Docs.docx';

$objZip = new ZipArchive();
$objZip->open($word_file);

// Opening .docx files
$result = $objZip->getFromName('word/document.xml');

В переменную $result записывается в xml формате структура документа.
Если сделать
$result = strip_tags($result);

то получим текст, хотя со всяким мусором.
Zend делает тоже самое только обрабатывает лучше, мусора почти нет.
Only those users with full accounts are able to leave comments. Log in, please.