surkova Jan 30 2007 at 10:12

Encoding

1 min

Lumber room

+10

Comments 42

NaFigator Jan 30 2007 at 10:33

Кстати, а в Vista кодировка по-умолчанию всё ещё не UTF-8?

surkova Jan 30 2007 at 10:34

на сколько я знаю, все еще нет. будем мучаться и дальше.

UFO just landed and posted this here

MaximG Jan 30 2007 at 10:45

простой пользователь вообще не должен задумываться о кодировках, для этого UTF и нужен.

UFO just landed and posted this here

MaximG Jan 30 2007 at 10:54

имею в виду, что простой пользователь даже знать не будет ничего о кодировках, и никогда не увидит "крякозябр" на экране, если все будут корректно поддерживать UTF

UFO just landed and posted this here

Gluek Jan 30 2007 at 11:04

Простой китайский пользователь - еще как увидит!

MaximG Jan 30 2007 at 11:05

это справедливо только если все будут использовать cp1251. А как же наши китайские друзья и прочие пользователи иероглифов да умляутов :) ?

UFO just landed and posted this here

Gluek Jan 30 2007 at 11:16

> тогда уж кодировка, в которой ведется беседа в мессанжере. нет?
А почему это вдруг эта кодировка должна отличаться от системной?

Gluek Jan 30 2007 at 11:17

"не, чуваки, простые пользователи не общаются с китайцами ;)"

Пропустил фразу. Все, понял что дальнейшее обсуждение бесполезно.

Lynn Jan 30 2007 at 11:30

Вон, внизу ещё один перл:

когда нашим европейским друзьям надо посещать наш сайт

surkova Jan 30 2007 at 10:49

По-моему Интернет — дело международное, и даже не смотря на явное преимущество по числу пользователей Windows, не стоит забывать про тех, кто ее не использует. И я не считаю, что при нынешних скоростях интернета стоит заботиться о том, что текст, набитый в UTF "весит" в два раза больше.
А у вас не возникало вопроса: почему CMS делают преимущественно (за все не скажу, конечно) на UTF? Тот же WordPress или, например, Drupal.
А проблема на ftp-серверах есть. Названия файлов, написанные по-русски (дада, очень много людей предпочитают кириллицу в названиях) в Windows, не каждый не-windows клиент способен отобразить корректно.

UFO just landed and posted this here

surkova Jan 30 2007 at 11:03

так, извините, и технологии на месте не стоят. многие себе на домашние машины ставят винты по четверть Тб, а вы про сервера, где винты и так в рейдах стоят.

MaximG Jan 30 2007 at 11:03

сегодня ты что-то делаешь для России, а завтра то же надо вывести на Китайский рынок. Получится дороже, чем если бы спроектировал заранее грамотно.

UFO just landed and posted this here

Gluek Jan 30 2007 at 11:15

> нет, извини, конвертирование — дело не такое сложное и длительное.

Ха, а если: "1 миллион байт в cp1251 и 2 — в UTF-8. разница действительно маленькая. а когда данных действительно много?"

Веселенькая задача, конвертировать "действительно много" данных ;)

UFO just landed and posted this here

Gluek Jan 30 2007 at 11:07

Когда данных действительно много — покупается действительно большой диск, достаточный для этих данных. И все, не надо искать проблему там, где ее нет.

aruseni Jul 11 2007 at 22:03

Поэтому я просто обожаю, люблю до глубины души прекрасный FTP-сервер «Extended vsFTPd builds». После передачи команды «OPTS UTF8 ON» сервер приветливо отвечает «OK, UTF-8 enabled» и дальше всё общение с ним происходит именно в юникоде. Такой сервер стоит, например, на главном файловом ресурсе в моей локальной сети.

Lynn Jan 30 2007 at 11:15

каждый символ в UTF в два раза больше символа в cp1251.

Не каждый, а только русские.

Вот пока мы будем писать в windows-1251, наши европейские друзья в iso-8859-1, а наши японские друзья в Shift-JIS, мы будем иметь «Alizйe» вместо «Alizée» и «Ŕëčńŕ» вместо «Алиса». :(

UFO just landed and posted this here

Lynn Jan 30 2007 at 11:26

Эх… это вы учите матчасть.
И учитесь отличать UTF-8 от UTF-16/UCS-2.

UFO just landed and posted this here

zoi Feb 1 2007 at 10:39

Именно каждый — это вам в UTF-16. А в UTF-8 лично для вас некоторые символы тяжелее одного байта даже в три раза!

zoi Feb 1 2007 at 10:37

Очень плохо, что не заметили. Нужно обязательно взять авторов тех патчей, которыми было изуродовано правильное поведение плееров, и сделать им строгий выговор. MP3-теги не могут иметь кодировку CP-1251. Latin1 могут, UTF-16 могут (с BO и без), даже UTF-8 могут, а CP-1251 — не могут и всё тут. К сожалению, авторам винампа об этом рассказать забыли, поэтому они пишут теги в CP-1251 и помечают их, как теги в Latin1.

Lynn Feb 1 2007 at 11:10

JFY, в тегах ID3v1 вообше нет понятия кодировки.

zoi Feb 1 2007 at 11:13

JFYI, сейчас не 1996 год.

Lynn Feb 1 2007 at 11:22

И что? От этого в id3 информации о кодировке не появилось.
Всё равно винамп пишет id3v1.
А id3v2.x три штуки и все несовместимы между собой… Причём только во последнем их них можно наконец писать в UTF-8.

Вообще-то в данном случае это проблема не винды, а авторов id3…

zoi Feb 1 2007 at 11:29

Всё равно винамп пишет id3v1.

И это вовсе не то, чем стоит хвастаться!

В плане UTF-16BE/LE все три версии ID3v2 между собой совместимы. Для полноценных коммерческих решений это стандарт, а не UTF-8. Но заметьте общее: 8 или 16, но UTF, а никак не CP-1251.

aruseni Jul 11 2007 at 22:06

Опять же, справедливости ради, надо отметить, что в Ogg всё хранится в UTF-8. Хотя около половины музыки у меня до сих пор в MP3 (ох уж мне этот гниющий, но всё ещё популярный формат) — её заголовки я просто EasyTAG'ом быстренько перегоняю в UTF-8 при каждом новом таком поступлении.

UFO just landed and posted this here

surkova Jan 30 2007 at 15:09

Русские песни я лично всегда называю по-русски, а английски - по-английский, а испанские - хотел бы по-испански, но не всегда получается
в Windows?

UFO just landed and posted this here

EvilShadow Jan 30 2007 at 15:17

Страницы чего? Базы какой? :-\
УТФ-8 предоставляет от 1го до 4 байт на символ, то есть совмещает лаконичность 8мибитных кодировок и глобальность UCS-4. На самом деле, массовый переход на УТФ-8 позволит без лишних сложностей унифицировать обмен данными и избавиться от перекодировок. В УТФ-8 Вы можете использовать все существующие наборы символов - хоть кириллицу, хоть испанские, хоть китайские, вплоть до самых редких знаков, причем одновременно и совершенно не беспокоясь о корректном их отображении.
А насчет распознавания... Если у меня определенный алфавит помещается в некоторый набор символов, а кодировки различаются только местоположением символов в этом наборе, как определить верную кодировку?

UFO just landed and posted this here

EvilShadow Feb 1 2007 at 10:30

Испанское слово, конечно, китайскими буквами не напишешь, а вот польское латиницей - запросто. Можно, конечно, отталкиваться от словоформ (прошу прощения за кривость, я не филолог :)), но это, как мне кажется, очень уж сложная система должна быть. Хотя не невозможная, конечно :)

EvilShadow Jan 30 2007 at 11:37

> если бы CMS разрабатывалась только для России, ясен перец, ее сделали именно в cp1251
Правда? А почему не в кои8? Или iso8859-5? Или IBM866? Большое число виндузятников - это не довод.
> та же CMS любая будет хранить данные в UTF-8, и не важно на каких языках ты пишешь.
> 1 миллион байт в cp1251 и 2 — в UTF-8.
Вот именно, что ВАЖНО, на каких языках пишешь. UTF-8 потому и 8, что _базовый_ набор символов помещается в 8 бит и совпадает с ASCII. Поэтому для любого языка, использующего латиницу, UTF-8 является однобайтной кодировкой. А если нужно использовать однобайтную кодировку и для кириллицы, то есть варианты куда лучше бестолковой cp1251. В них, по крайней мере, алфавитные символы не совпадают с управляющими.
ЗЫ. А те же Винды, начиная с NT и выше, используют UTF2, также известную как UTF-16. Вот там действительно на все символы отводится по 2 байта, кириллица это, латиница или еще что-то.

ivanov Jul 11 2007 at 22:40

Классный пост =)
Сегодня как раз обсуждали тему про людей, которые всегда винят окружающих в чём бы то ни было, а не себя =)
В нашем случае это были способности пользоваться текстовым процессором OO Writer вместо MS Word, здесь же рассуждения про кодировки =) В Windows unicode используется уже больше десяти лет, в то время как у "остальных систем" она только-только появилась =)

Неумно ругать Билла Гейтса за то, что под Windows пишет очень много недопрограммистов.

zoi Jul 16 2007 at 19:06

В ньютоне юникод был в 93 году. :)

Show the best of all time