Rembish Oct 18 2009 at 21:21

Текст любой ценой: WCBFF и DOC

9 min

28K

PHP*

+62

Comments 25

Slivus Oct 18 2009 at 21:31

Отличный пост! Спасибо!

Fesor Oct 18 2009 at 21:38

Windows Подворье двоичных файлов формата

Смешно)

Fesor Oct 18 2009 at 21:39

была бы библиотека которая из DOC файлов и форматирование некоторое вырывала бы… для DOCX не так уж и сложно сделать…

nsinreal Oct 18 2009 at 21:46

WCBFF — это не «Windows Подворье двоичных файлов формата», а «Смешанный Бинарный Файловый Формат».

Wott Oct 18 2009 at 21:53

А в каком переводчике этот вариант? :)

PS. Compound — скорее «составной» а не «смешаный» в данном контексте.

nsinreal Oct 18 2009 at 22:55

В том же google, но если переводить слово отдельно. Составной — не звучит. А смешанный — подходящий синоним. ИМХО.

Rembish Oct 18 2009 at 23:02

Ну что Вы в самом деле — чтобы получить только текст в doc и cfb нужно прочитать порядка 100 страниц документации на неродном языке. Чтобы не делать текст совсем сухим и техническим, я и разбавил его маленькой, возможно плоской шуткой.

Я бы название формата вообще расшифровал, как «структурированный бинарный файловый формат».

Rembish Oct 18 2009 at 21:57

Месьё, где Ваше чувство юмора?

lashtal Oct 18 2009 at 23:05

А из PSD не планируется текст вытягивать?
Мнение гуглоразработчика по поводу этого формата есть:
code.google.com/p/xee/source/browse/trunk/XeePhotoshopLoader.m?spec=svn28&r=11#107
интересно будет почитать комменты хабровчанина ;)

Fesor Oct 18 2009 at 23:17

Мне кажется вот это уже лишее.

Rembish Oct 18 2009 at 23:17

Скажем так (без оглядки на структуру формата, его сложность и добрые слова разработчика) этот формат мне в данный момент не интересен. Более того, я могу сказать, что я не считаю DOC или CFB плохими форматами, в то время когда они были изобретены, они здорово увеличивали скорость работы с документами на нешибко скорых компьютерах. Вполне возможно, что PSD шёл по тому же пути.

jonijones Oct 18 2009 at 23:15

Оказывается не так всё просто =(

Rembish Oct 18 2009 at 23:19

Ага, совсем чуть-чуть непросто. Следующая цель — текст из PPT.

Prapor Oct 19 2009 at 12:55

Эта статья то, за что я люблю Хабрахабр! Спасибо.

not_ice Oct 19 2009 at 16:10

Круто. вот уж не думал, что микрософт изобретут файловую систему внутри файла )
а вообще вопрос — какой может быть профит от фрагментирования?

Rembish Oct 19 2009 at 16:41

А смысл избавляться от фрагментирования? Можно сохранить файл под другим именем из MS Word'а, скорее всего внутренняя фрагментация уменьшится.

murphy Oct 20 2009 at 12:28

Очень познавательно, читается на одном дыхании, спасибо

myem Nov 5 2009 at 12:09

По идее везде в тексте стоит заменить CFB на CBF. Немного бросается в глаза.

bolk Nov 23 2009 at 00:27

А почему вы функцию unpack не используете?

Rembish Nov 23 2009 at 00:52

Я тоже задавался этим вопросом, уже пост фактум :) Вообще, это скорее лень пролистать лишний раз документацию, чтобы найти правильный велосипед… Скажем так, каюсь — не прав :)

Ar2r Sep 23 2012 at 22:32

Проблема… функция unicode_to_utf8 работает странно…

прогоняю через mb_strtolower($text, 'UTF-8'); и текст в нижний регистр не переводится.

Через вашу функцию, которая docx конвертит в текст — текст нормально в нижний регистр переводится. mb_* функции не понимают, что это UTf-8 и отказыаются работать с такими текстами.

Ar2r Sep 23 2012 at 22:50

Вот одну строчку заменил на Iconv. помогло.

 if (!$isANSI)
                $part = iconv("UTF-16","CP1251", $part); //$part = $this->unicode_to_utf8($part);

Ar2r Sep 23 2012 at 22:53

т.е. вот правильная строка: $part = iconv('Windows-1251','UTF-8', iconv(«UTF-16»,«CP1251», $part));

Ar2r Sep 24 2012 at 10:58

+ Добавил обработчик на случай зацикленности. Число можно подобрать из рассчета максимального размера файла, который придется обрабатывать.

Таким образом тот файл просто не будет обработан.

        while (($cp[] = $this->getLong($i, $pieceTable)) != $lastCP){
            $i += 4;
            if($i>=200000)return '';
        }

rootkit Oct 7 2013 at 14:19

спасибо!

Show the best of all time