Обновить
Комментарии 85
Спасибо огромное за статью. Но увы для меня вы опоздали на 3 кода. Сейчас я уже не пишу на с++. К счастью или к сожалению, я не сталкиваюсь больше с такими заморочками. Но кто знает, где еще могут пригодится знания с++. Так что еще раз спасибо. Кстати. Кто мне может объяснить, зачем нужны такие свистопляски? Почему не унифицировали типы, связанные со строками?
Вот нафига приходить в хаб по С++ с комментарием «я уже 3 года не пишу на С++ и не сталкиваюсь с такими заморочками»?
А на счёт унификации — это, конечно, огромный провтык С++ (еще со времен языка С) — общего удобного строкового типа в этих языках нет. Массивы char — неудобны, строки stl чуть получше, но по удобству до строк из Qt или там ATL не дотягивают, а удобные строки из вышеуказанных (или других) библиотек, к сожалению, ни разу не стандартны. Вот поэтому и свистопляски с типами.
Уважаемый. Пришел я сюда потому, что мне данная тема до сих пор интересна, пусть я и не использую с++. За объяснение спасибо:-)
>> Кто мне может объяснить, зачем нужны такие свистопляски

Дополню. Win API складывалось, когда в ходу были 486-е/Пентиумы. Типичной конфигурацией машины с Win95 был Pentium-100 / 16 Mb RAM.

Для полноценной обработки unicode нужны многомегабайтные таблицы (to upper case, to lower case, сортировка, например чтобы «Fü» шло после «Fu», а не по unicode-значению, функции классификатора символа (буква/цифра/пробел/знак пунктуации). Современная библиотека International Components for Unicode весит около 20Мб в DLL. Не говоря уже о шрифтах, содержащих все unicode-знаки (от 16 Мб и выше). В-общем рановато было в домашнюю Win95 делать unicode, но в корпоративную WinNT сделали.

Затем был переход с ANSI-программ на UNICODE. Мне это сильно напоминает переход с x86 на x64: заявлено, что «если всё написано правильно, достаточно простого #define», но на самом деле работа по портированию была сложна. Да и мало кто сейчас пишет int _tmain(int argc, _TCHAR* argv[]) вместо привычного int main(int argc, char* argv[]), как и не все программы создаются с возможностью собрать в x64.

Чтобы два раза не вставать, напомню про ещё одно legacy: LP = long pointer — наследие win3.11 и 16-битного компилятора, когда указатели были короткие (16 бит) и длинные (far, 32-bit) :)

Если кому-то статья нужна для практических целей, нужно обязательно прочитать о различии символов препроцессора UNICODE и _UNICODE.
насчет LP согласен, просто так не выпилишь историю… Кому нужны проблемы с портированием ??

Да в любом случае UNICODE и _UNICODE это препроцесорная тема, в каждой платформе по разному ))).
>а и мало кто сейчас пишет int _tmain(int argc, _TCHAR* argv[]) вместо привычного int main(int argc, char* argv[]), как и не все программы создаются с возможностью собрать в x64.

И правильно делают. Это стандарт, если в винде не смогли в рамках стандарта осилить поддержку юникода, то это исключительно их половые трудности. Не нужно ими захламлять стандарт. Код должен быть переносимым, это один из критериев хорошего кода.
Эээхххх… Жестокие вы, друзья. Впредь буду аккуратнее с комментариями.
потому что очень много Операционных систем, и компиляторов, freepascal например не юникодный, а в нем используется библиотека LCL. И не все поддерживают идеологию Microsoft для работы с TCHAR.
>А 2-х байтовый символ это кодировка UNICODE
Это, строго говоря, неверно.

Вообще, распространёнными заблуждениями являются 2 мифа: «любой Юникодный символ можно хранить в двухбайтовом wchar_t/CHAR16/etc» и (следствие) «к любому символу внутри Юникодной строки можно обратиться по индексу».
На дворе 2002 год? Мне казалось, что вот-вот наступит 2013, а оно вона как оказывается.
НЛО прилетело и опубликовало эту надпись здесь
Еще у Рихтера лет 6 назад читал об этом. Наверно лучшее описание Win API именно у него.
Всех с наступающим! Как большой специалист по С++, с позволения автора, немного дополню:

В общем, символ строки может быть представлен в виде 1-го байта и 2-х байтов.


От 1-го до 4-х, конечно. UCS-4 и китайские иероглифы пока никто не отменил :)

Обычно одно-байтовый символ это символ кодировки ANSI-


Нет такой кодировки «ANSI». Вы, скорее всего, имеете в виду кодировку «latin-1». По поводу кодировок рекомендую всем легендарный труд Джоэла: www.joelonsoftware.com/articles/Unicode.html

А 2-х байтовый символ это кодировка UNICODE


Опять же, нет такой кодировки как UNICODE, см. выше. Авторы Microsoft утверждают, что у них кодировка UTF-16, но до недавнего времени попытка использовать 4-х байтовые символы из этого набора приводила к access violation. Так что по факту у них все же UCS-2 :).

Для представления 2-х байтовой кодировки Юникод Microsoft Windows использует UTF16-кодирование.


UTF-16 — кодировка с плавающим количеством байт на символ, от 2 до 4, в зависимости от символа. См. выше.

Строка Unicode длиной 7 символов будет занимать 14 байтов. Если строка Unicode занимает 15 байтов то это не правильная строка, и она не будет работать в любом контексте.
Также, строка будет кратна размеру sizeof(TCHAR) в байтах.


Может быть sizeof(WCHAR)? :)
с такой формулировкой («будет кратна»), она будет кратна и sizeof(char), и sizeof(TCHAR), и sizeof(wchar_t) =)
Я так понимаю, все вопросы к тов. Ajay Vijayvargiya (Индия), с 96 года все не может разобраться с кодировками, но уже гордо именуется «Senior».
Вообще в связи с тем что профессия «программист» становится все попсовее, то участились резко случаи появления статей которые больше вредят, нежели помогают.
Хех, автор оригинальной статьи еще гордо заявляет, что весь гуй пишет на MFC o___O
Индусы такие индусы, и советы у них индуские…
Вы путаете кодировку UTF-16, в которой каждый символ 2 байта, с UTF-8, где символ занимает от 1 до 4х байт. И в windows под UNICODE понимается UTF-16.
В UTF-16 символ занимает либо 2, либо 4 байта. Инфа 146% :). А строго 2 байта — это UCS-2 O_O.
И вас с наступающим :).
В API Win32, распространённом в современных версиях операционной системы Microsoft Windows, имеется два способа представления текста: в форме традиционных 8-битных кодовых страниц и в виде UTF-16.
В файловых системах NTFS, а также FAT с поддержкой длинных имён, имена файлов записываются в UTF-16LE.

ПРУФ ЛИНК
И вас с наступающим. А как это коррелирует с тем, что я утверждаю что в UTF-16 либо 2 либо 4 байта на символ, а RubtsovAV — что 2 байта?
Let us HOLLY WAR begin. Извините не думал что будет такой холивар… Прошло 2 часа после НГ, и комменты посыпались…
Остролистная война — это круто
Все же вы правы. До сего момента не знал про 4байта, спасибо.
ORLY?

Вы путаете кодировку UTF-16, в которой каждый символ 2 байта, с UTF-8, где символ занимает от 1 до 4х байт.

www.unicode.org/faq/utf_bom.html

И в windows под UNICODE понимается UTF-16

Во первый unicode это unicode, тут нечего «подразумевать». Во вторых, windows до какой-то версии использовали в качестве кодировки UCS-2, поддержку UTF-16 добавили позже.
Про 4 байта, все верно — я не знал, про такую особенность.
Слово Unicode контекстно зависимое, и, на сколько я знаю это сокращение слово сочетания «Universal Code», что переводится как «универсальное кодирование». Линуксоид услышав юникод первым делом поймет как UTF8, а поклонник мелкомягких как UTF16. Если же взять во внимание, что в статье много раз говориться про windows, то не должно остаться сомнений про какой юникод речь.
С новым годом!
TCHAR, LP©TSTR — не нужно. Их нужно закопать, глубоко и надолго. Поддержка вин98 нынче никому не нужна, поэтому включаем режим UNICODE всегда.
И предпочтительно использовать стандартные типы char*, std:string или wchar_t*,std:wstring.

А вообще, С++ без фреймворков не юзабелен. Используя стандартные библиотеки С++, вы даже не сможете открыть файл с юникодным именем под виндой.
вы даже не сможете открыть файл с юникодным именем под виндой.


Я тоже думал нельзя. Оказывается можно
//Юникод включен
TCHAR* FileName;

USES_CONVERSION;
char* FNAME = T2A( FileName);
ifstream TargetFile(FNAME,ios::in | ios::binary);
Речь шла о стандартных библиотеках С++.
В каком хидере объявлен T2A?
basic_filebuf<Elem, Tr> *open(
    const char *_Filename,
    ios_base::openmode _Mode,
    int _Prot = (int)ios_base::_Openprot
);
basic_filebuf<Elem, Tr> *open(
    const char *_Filename,
    ios_base::openmode _Mode
);
basic_filebuf<Elem, Tr> *open(
    const wchar_t *_Filename,
    ios_base::openmode _Mode,
    int _Prot = (int)ios_base::_Openprot
);
basic_filebuf<Elem, Tr> *open(
    const wchar_t *_Filename,
    ios_base::openmode _Mode
);



Header: "<«fstream»>"
Namespace: std
1. Так в каком хидере объявлен T2A? (правильный ответ — atlconv.h)
2. процитированы нестандартные хидеры, стандарт с++ читайте
www.cplusplus.com/reference/fstream/ofstream/open/

Если речь о венде, лучше сразу CreateFileW, т.к. у меня негативный опыт от использования unicode в c/c++ stdlib.
Например, спецификатор %S в форматке печатает unicode-символы, если они стандартные ASCII и не печатает русские и т.п. Не удивлюсь, если вышенаписанный пример будетт создавать файл только c ascii-знаками в названии
// char TYPEDEFS
typedef basic_ifstream<char, char_traits > ifstream;
// wchat_t TYPEDEFS
typedef basic_ifstream<wchar_t, char_traits<wchar_t> > wifstream;

ПРУФ ЛИНК

1.Забавно другое, когда утверждали стандарт С++, то они куда нибудь выкладывали его например на DROPBOX ??
2.Где лежат принятые стандарты по С++ по хронологии ???
Последний draft стандарта здесь:
www.open-std.org/jtc1/sc22/wg21/docs/papers/2011/n3242.pdf

На странице 1060 мы видим, что функция open, а также explicit-конструктор basic_ofstream принимает либо string&, либо char* в качестве имени файла.

Остальное — выдумки Microsoft ))
Тогда вопрос как такие умные люди сидят там ???
Если даже для стандарта С++ не могу реализовать открытие файлов с Юникод именами ??

Получается есть С++ стандарт и Есть С++ стандарт от каждой компании которая делает свой компилятор ???

а по поводу wchar_t вы не много загнули он входит в стандарт!!!
В Стандарте (в версиях разных лет) присутствуют места с плохим дизайном, либо просто вообще никак не сделанных. «Переносимо открыть файл с именем в std::wstring» — одно из таких.
Наверное они там все линуксоиды.
В современном *nix принято общаться с файловой системой в кодировке utf-8. Соответственно, всё системные функции принимают имена файлов в char*
Не выдумки wchar_t на 1051 странице!!! Что то Сер вы путаете.

template <class charT, class traits = char_traits<charT> >
class basic_ofstream;
typedef basic_ofstream<char> ofstream;
typedef basic_ofstream<wchar_t> wofstream;
wofstream — «для чтения/записи wchar_t данных». Имя файла в std::wstring задать (по Стандарту не самому последнему) нельзя.
Это кодировка данных внутри файла, если режим i/o текстовый (не бинарный).
Кодировка имени файла — это совсем другое дело.
А что такое T2A? Впервые вижу
>Используя стандартные библиотеки С++, вы даже не сможете открыть файл с юникодным именем под виндой.

Что за сказки?
wchar_t name[] = L"Гав-Гав.txt";
std::fstream file(name); //ну флаги там по вкусу
Приведите компилятор и платформу где не реально будет юникод имена использовать для стандартной библиотеки ??? в частности для ifstream!!!

Теперь я понимаю почему МС начинает выдумывать Юникод течение под свою платформу. Потому что стандарт это чисто теоретическая тема для обсуждения…
И напрашивается вопрос «А как же великий и могучий С++ ?? со своей стандартной библиотекой».
Хотя наверное было бы бы еще мусора и хаоса без STL… По правде говоря я немного огорчился…
Приведите компилятор и платформу где не реально будет юникод имена использовать для стандартной библиотеки ??? в частности для ifstream!!!


Канонический, сверхпопулярный GCC. Вот ссылка хидер-файл в SVN разработчиков:
gcc.gnu.org/svn/gcc/trunk/libstdc++-v3/include/std/fstream
Ты смотри как выкрутилось всё — начали с наезда на винду, дескать не открыть там файлик юникодный, а закончилось пенянием на то что канонически GCC такого не умеет.
По этому хабр и авторитетный ресурс, тут только специалисты, и могут обсудить очень глубокие темы… Даже теперь не знаю какую статью писать ((
Ты смотри как выкрутилось всё — начали с наезда на винду, дескать не открыть там файлик юникодный, а закончилось пенянием на то что канонически GCC такого не умеет.


Тут нужно дать уточнение к ответу на вопрос «Приведите компилятор и платформу где не реально будет юникод имена использовать для стандартной библиотеки».

Не реально использовать юникод при использовании GCC под Windows.
Потому что стандартная библиотека GCC передаёт операционной системе имена файлов только в char*, а файловые АПИ Windows не умеют использовать unicode в char*

В Линукс этой проблемы нет, там принято передавать имена файлов юникодом в char* в кодировке uft-8.
И Вы считаете это типа нормальным — функция, получающая char* и не имеющая понятия, что вызывающий её захочет туда положить — ANSI, UTF-8, UTF-16 или что-то еще? Т.е. соглашение не на уровне интерфейсов и типов данных, а просто на словах — «так принято»?
Вполне логично — stdlib без перекодировок передаёт системе имя файла как null-terminated строку, тащить кодировки в стандарт языка было бы странно. Кто же знал, что винда не справится с utf-8 ))

Ведь когда мы выводим символы в cout, в стандарте не указано, в какой кодировке они должны быть. Работа stdlib — передать их в системный stdout без изменений.
В общем-то, да. И это хорошо: все эти кодировки и прочая — они на уровне процессов остались, в ядро не тянутся.
Пффф, отличный гайд как писать платформо-зависимый непереносимый код. У нас какой год на дворе, что что-то не припомню...?
Кстати по поводу какой год на дворе. Плагины для Тотала пишутся либо АНСИ либо Юникод. Так что статья имхо будет полезна писателям плагинов тотал командера!!! Сам недавно кодил плагин с юникодом…
Затем что юникод версия не работает без Анси версии в плагинах тотал командера
А что им мешает сделать pure unicode версию? Зачем вообще анси в прикладном программировании? Я не говорю про микроконтроллеры и подобную периферию, тотал явно не к ним относится.
для поддержки win98 например
Работает. Достаточно экспортировать набор обязательных ANSI-интерфейсов, чтобы Тотал подцепил плагин, но реализовывать их не нужно, хватит какого-нибудь return 0. Вызываться Тоталом они всё равно не будут.
TCHAR, WCHAR, LPSTR, LPWSTR,LPCTSTR.


А я всегда думал, что здесь все понятно! LP — знач указатель, W значит Wide TCHAR, для всех кому пофиг, ну и так далее)))) Проще быть, проше)))
> Символ ## это ключ(token) вставки оператора
Пфф… это обозначение операции конкатенации для макросов, не более того.

> Я не хотел бы вызывать инсульт вашего интеллекта и объяснять почему это не работает.
Несколько оскорбительно звучит для сишника. Определение макроса есть, вопросов быть не должно.
Достаточно специфический перевод «инсульт вашего интеллекта». Я так понял это прямая калька с «insult your intellect», и «insult» в данном контексте лучше перевести как «оскорблять» или хотя бы «недооценивать ваши умственные способности».
Индусский перевод индусской статьи с индусскими советами как писать индусский код? :)
Автор обещал указать макросы для преобразования, но так и не указал:
CW2CT, CA2CT и пр. для преобразования из одного вида строк в другие:
CSourceType2[C]DestinationType[EX], где C — признак константности, а тип назначения/источника определяется следующим образом
  • A — ANSI character string.
  • W — Unicode character string.
  • T — Generic character string (equivalent to W when _UNICODE is defined, equivalent to A otherwise).
  • OLE — OLE character string (equivalent to W).
Эххх жалко Плюсик немогу поставить…
>Многие C++ программисты, пишущие под Windows
Да, кстати. А под Windows неужели до сих пор пишут на WinAPI да на MFC? Это ж было принято в прошлом веке так делать, сейчас то зачем?
Игры, системные утилиты, драйвера уже не в счет? Или Вы думаете .net/vcl в полной мере может это предоставить?
Есть стандартная библиотека C++, есть кроссплатформенные обертки над этим мраком, вы их разрабатываете или же всё-таки приложения?
По мне так эта статья может быть интересна только тем, кто таки пытается обернуть всё это «наследие бурной молодости» во что-то приятное и переносимое.
Но зачем на этом аду в 2013 году писать?
Упомянутое Вами уже не годится для реализации упомянутого мной, кроме, разумеется, игр. Например, если взять типичный случай для «системного» windows-программиста: разработка usermode-драйвера. Я например не видел «кросслпатформенных оберток». Если есть ссылки, то действительно было бы интересно ознакомиться. Или копнуть глубже: kernel-mode.
Конечно, для прикладного софта лучшим решением будет с этим не заморачиваться. Я, например, стараюсь все прикладное реализовывать на C#, но статья ведь не о том, что лучше и для каких целей это «лучше» применять. А статья вполне о конкретных вещах, оне ни к чему не принуждает, больше просто описание. А что и когда лучше использовать тема уже отдельной и весьма спорной статьи.
В свое время я изучил пасакль, потом дельфи, ну а потом Visual C++. изучая Winapi итд стало интересно как же апи работает на под винду. Так или иначе если пишешь на WINAPI используй VC++.
Зуб даю на отсечение 30 процентов только знает кто такой Джефри Рихтер. Немногие читали его книгу…
Игры сейчас как раз стараются кроссплатформенными делать, платформ то много. Прикладуха прекрасно на плюсах пишется без глупого запудривания себе мозгов вот этим кошмаром.
Kernel development это отдельная стезя, там уже тяжелее в разы кроссплатформенность делать. Но хотя и там это возможно, видео драйверы имеют общую часть кода и платформозависимые части и спокойно собираются и работают на Windows, Linux и Macos X.
А в usermode драйверах лучше таки использовать кроссплатформенные обертки типа libusb и тоже не заморачиваться с этими кишками винды, выглядят они некрасиво.
И что ж в «играх» такого, что на WinAPI или MFC писать надо? Там наоборот платформно-зависимый код минимизируют.

И как это получается, что «утилиты и драйвера» приходится писать «многим C++ программистам, пишущих под Windows»? Вот прям каждый второй Windows-программист свой рабочий день с этого начинает — очередной драйвер пишет. Или утилиту.
Не мешайте человеку быть уверенным в том, что сейчас 2001ый год и только только вышла свежая Windows XP Whistler.
Зачем сводить все к абсолюту и видеть только то, что хочется?
Я не говорю, что «каждый второй Windows-программист свой рабочий день с этого начинает», но иногда встает необходимость. Я просо говорю, что такое явление еще не исчезло, а значит информация статьи все же кому-то может быть полезна.
Ну, например, мы пишем потому что нам сейчас так проще:
  1. Тонны уже существующего кода, который надо поддерживать.
  2. Унификация кодовой базы, что уменьшает количество сюрпризов на стыке подходов, а также проще поддерживать.
1 спасибо кэп.
всё это знал и раньше, другие наверное не знали.
не понимаю только, почему статья такая длинная.

я вышеуказанными макросами не пользуюсь, вместо этого явно использую либо wchar_t, либо char, где как нужно.
то есть если нужно например ссчитать файл с диска, то юзаю wchar_t, если нужно написать тупую программку, вывод которой чисто латиницей, то юзаю char, а если нужно считать сырые данные, то юзаю BYTE
также использую UINT, и INT, иногда с 64, вообще не понимаю, почему в си(++) эти обозначения не вошли в стандарт, удобно же.

также недолюбливаю макросы за их неинтегрированность в си/си++.
в смысле что препроцессор — отдельный язык, не имеющий с си ничего общего.

в большинстве случаев без макросов можно обойтись с помошью typedef, inline, __forceinline (в g++ немного по-другому) и прочего
Спасибо за статью. Познавательно. Когда-то именно из-за типизации строк в родном Visual-C++ 6 перешел на php.

Сейчас собираюсь вернутся к C++ и QT для расширения кругозора, так что спасибо за материал.
Интересно каков процент тех людей которые действительно полностью разобрались в каждой мелочи которую используют в своем проекте? Я думаю очень мал)
Раз такие статьи пишутся и раз уж она вызывает такое бурное обсуждение. Значит положение практически любого программиста очень шатко. Шатко до степени вероятности появления следующего бага в одном из его проектов.
Обычно пишется как? Да просто: «О заработало», «Проверено на большой выборке», «Вывод — программа стабильна».
А стабильна — не значит исправна!
Автору большой респект за перевод. Работаю на Java. Но к С и C++ питаю интерес (есть даже желание пересесть). Сталкивался с подобными трудностями при экспериментах, но чтоб в одном месте всё было описано и по делу — это редкость. Спасибо!
О я тоже запитал интерес к Cи пару дней как..)) Если честно от такой каши как в Winapi под C/C++, после современного JS и PHP на котором я пишу, у меня дергается правый глаз, причем буквально. Такое ощущение что все это родом из прошлого века и msdn тоже, найти вменяемые доки это что-то с чем-то.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.