Comments 42
UFO landed and left these words here
простой пользователь вообще не должен задумываться о кодировках, для этого UTF и нужен.
UFO landed and left these words here
имею в виду, что простой пользователь даже знать не будет ничего о кодировках, и никогда не увидит "крякозябр" на экране, если все будут корректно поддерживать UTF
UFO landed and left these words here
это справедливо только если все будут использовать cp1251. А как же наши китайские друзья и прочие пользователи иероглифов да умляутов :) ?
UFO landed and left these words here
> тогда уж кодировка, в которой ведется беседа в мессанжере. нет?
А почему это вдруг эта кодировка должна отличаться от системной?
"не, чуваки, простые пользователи не общаются с китайцами ;)"

Пропустил фразу. Все, понял что дальнейшее обсуждение бесполезно.
По-моему Интернет — дело международное, и даже не смотря на явное преимущество по числу пользователей Windows, не стоит забывать про тех, кто ее не использует. И я не считаю, что при нынешних скоростях интернета стоит заботиться о том, что текст, набитый в UTF "весит" в два раза больше.
А у вас не возникало вопроса: почему CMS делают преимущественно (за все не скажу, конечно) на UTF? Тот же WordPress или, например, Drupal.
А проблема на ftp-серверах есть. Названия файлов, написанные по-русски (дада, очень много людей предпочитают кириллицу в названиях) в Windows, не каждый не-windows клиент способен отобразить корректно.
UFO landed and left these words here
так, извините, и технологии на месте не стоят. многие себе на домашние машины ставят винты по четверть Тб, а вы про сервера, где винты и так в рейдах стоят.
сегодня ты что-то делаешь для России, а завтра то же надо вывести на Китайский рынок. Получится дороже, чем если бы спроектировал заранее грамотно.
UFO landed and left these words here
> нет, извини, конвертирование — дело не такое сложное и длительное.

Ха, а если: "1 миллион байт в cp1251 и 2 — в UTF-8. разница действительно маленькая. а когда данных действительно много?"

Веселенькая задача, конвертировать "действительно много" данных ;)
UFO landed and left these words here
Когда данных действительно много — покупается действительно большой диск, достаточный для этих данных. И все, не надо искать проблему там, где ее нет.
Поэтому я просто обожаю, люблю до глубины души прекрасный FTP-сервер «Extended vsFTPd builds». После передачи команды «OPTS UTF8 ON» сервер приветливо отвечает «OK, UTF-8 enabled» и дальше всё общение с ним происходит именно в юникоде. Такой сервер стоит, например, на главном файловом ресурсе в моей локальной сети.
каждый символ в UTF в два раза больше символа в cp1251.

Не каждый, а только русские.

Вот пока мы будем писать в windows-1251, наши европейские друзья в iso-8859-1, а наши японские друзья в Shift-JIS, мы будем иметь «Alizйe» вместо «Alizée» и «Ŕëčńŕ» вместо «Алиса». :(
UFO landed and left these words here
UFO landed and left these words here
Именно каждый — это вам в UTF-16. А в UTF-8 лично для вас некоторые символы тяжелее одного байта даже в три раза!
Очень плохо, что не заметили. Нужно обязательно взять авторов тех патчей, которыми было изуродовано правильное поведение плееров, и сделать им строгий выговор. MP3-теги не могут иметь кодировку CP-1251. Latin1 могут, UTF-16 могут (с BO и без), даже UTF-8 могут, а CP-1251 — не могут и всё тут. К сожалению, авторам винампа об этом рассказать забыли, поэтому они пишут теги в CP-1251 и помечают их, как теги в Latin1.
И что? От этого в id3 информации о кодировке не появилось.
Всё равно винамп пишет id3v1.
А id3v2.x три штуки и все несовместимы между собой… Причём только во последнем их них можно наконец писать в UTF-8.

Вообще-то в данном случае это проблема не винды, а авторов id3…
Всё равно винамп пишет id3v1.

И это вовсе не то, чем стоит хвастаться!

В плане UTF-16BE/LE все три версии ID3v2 между собой совместимы. Для полноценных коммерческих решений это стандарт, а не UTF-8. Но заметьте общее: 8 или 16, но UTF, а никак не CP-1251.
Опять же, справедливости ради, надо отметить, что в Ogg всё хранится в UTF-8. Хотя около половины музыки у меня до сих пор в MP3 (ох уж мне этот гниющий, но всё ещё популярный формат) — её заголовки я просто EasyTAG'ом быстренько перегоняю в UTF-8 при каждом новом таком поступлении.
UFO landed and left these words here
Русские песни я лично всегда называю по-русски, а английски - по-английский, а испанские - хотел бы по-испански, но не всегда получается
в Windows?
UFO landed and left these words here
Страницы чего? Базы какой? :-\
УТФ-8 предоставляет от 1го до 4 байт на символ, то есть совмещает лаконичность 8мибитных кодировок и глобальность UCS-4. На самом деле, массовый переход на УТФ-8 позволит без лишних сложностей унифицировать обмен данными и избавиться от перекодировок. В УТФ-8 Вы можете использовать все существующие наборы символов - хоть кириллицу, хоть испанские, хоть китайские, вплоть до самых редких знаков, причем одновременно и совершенно не беспокоясь о корректном их отображении.
А насчет распознавания... Если у меня определенный алфавит помещается в некоторый набор символов, а кодировки различаются только местоположением символов в этом наборе, как определить верную кодировку?
UFO landed and left these words here
Испанское слово, конечно, китайскими буквами не напишешь, а вот польское латиницей - запросто. Можно, конечно, отталкиваться от словоформ (прошу прощения за кривость, я не филолог :)), но это, как мне кажется, очень уж сложная система должна быть. Хотя не невозможная, конечно :)
> если бы CMS разрабатывалась только для России, ясен перец, ее сделали именно в cp1251
Правда? А почему не в кои8? Или iso8859-5? Или IBM866? Большое число виндузятников - это не довод.
> та же CMS любая будет хранить данные в UTF-8, и не важно на каких языках ты пишешь.
> 1 миллион байт в cp1251 и 2 — в UTF-8.
Вот именно, что ВАЖНО, на каких языках пишешь. UTF-8 потому и 8, что _базовый_ набор символов помещается в 8 бит и совпадает с ASCII. Поэтому для любого языка, использующего латиницу, UTF-8 является однобайтной кодировкой. А если нужно использовать однобайтную кодировку и для кириллицы, то есть варианты куда лучше бестолковой cp1251. В них, по крайней мере, алфавитные символы не совпадают с управляющими.
ЗЫ. А те же Винды, начиная с NT и выше, используют UTF2, также известную как UTF-16. Вот там действительно на все символы отводится по 2 байта, кириллица это, латиница или еще что-то.
Классный пост =)
Сегодня как раз обсуждали тему про людей, которые всегда винят окружающих в чём бы то ни было, а не себя =)
В нашем случае это были способности пользоваться текстовым процессором OO Writer вместо MS Word, здесь же рассуждения про кодировки =) В Windows unicode используется уже больше десяти лет, в то время как у "остальных систем" она только-только появилась =)

Неумно ругать Билла Гейтса за то, что под Windows пишет очень много недопрограммистов.
Only those users with full accounts are able to leave comments. Log in, please.