Comments 12
Статья изобилует неточностями ошибками и противоречиями.
По порядку:
Заголовок
Как Linux'овский sort сортирует строки
противоречит тексту
Для объединения файлы были отсортированы юниксовской командой sort и поданы на вход юниксовской программе join, которая ...
так юниксовое у вас хозяйство или линуксовое?
далее
или однобайтовая KOI8-R (если нужно ограниченное подмножестве Юникода)
это с каких это пор KOI8-R имеет какое-то отношение к Unicode и каким именно подмножеством его является?
это с каких это пор KOI8-R имеет какое-то отношение к Unicode и каким именно подмножеством его является?


В unicode есть и 1-байтные символы. Латинская часть koi8-r совпадает с unicode :)

Unicode это не кодировка, а таблица поименованных символов. С этой точки зрения и UTF-8 и KOI-8 кодируют символы Unicode последовательностями битов. UTF-8 кодирует любые символы, а KOI-8 — ограниченное подмножество. И уж совершенно точно, что в KOI-8 нельзя закодировать символ, который бы отсутствовал в Unicode.

так юниксовое у вас хозяйство или линуксовое?

Ни то и не другое, а GNU sort и GNU join, а всё хозяйство, используемое автором, целиком: GNU/Linux. Удивительно, что к этому никто не придрался, но вы-то в след. раз будете знать, как правильно придираться.


А про подмножество — в математическом смысле.

Потрясающе. Просто потрясающая работа.
От прочтения осталось впечатление "кино и немцы", "так вот ты какой, серверный олень...", "о сколько нам открытий чудных" и вообще детектив.
Спасибо.

UFO landed and left these words here
А не надо ли принципиально исправить дистрибутивы, чтоб учитывались эти тонкости касательно русской сортировки или я что-то не понял?

Возможно, надо поднимать этот вопрос в списке рассылки glibc. Разработчики стандарта ISO в базовой таблице выбрали абсолютно мультикультурный подход — буквы сортируются, небуквы — нет. А вот в национальных таблицах glibc должны быть внесены изменения (если там нет неочевидных проблем)

Only those users with full accounts are able to leave comments. Log in, please.