C++宽字符深度解析：编码、本地化与硬编码策略

需积分: 9 191 浏览量更新于2024-07-27 收藏 185KB PDF 举报

"彻底解密C++宽字符"这篇文章深入探讨了C++中的宽字符特性，旨在帮助程序员解决与宽字符处理相关的复杂问题。作者龙飞在2010年6月26日撰文，首先指出从char到wchar_t类型的转换并非简单地映射ASCII值。尽管char通常占用8位并对应ASCII范围，但C/C++并未强制规定这一点，而是允许根据具体的系统和编译器实现不同的本地化策略集（locale），这包括字符编码转换和多字节字符的支持。在C/C++中，字符的处理策略是硬编码的，即字符在源代码中的表示形式直接反映在程序的二进制表示中。例如，当写入`char c = 'a';`时，编译器会直接识别'a'的ASCII值。然而，对于像`const char* s = "中文abc";`这样的字符串，其在不同编码（如GB2312或UTF-8）下的实际存储值会有所差异。在这种情况下，编译器需要根据源文件的编码来解析字符。宽字符（wchar_t）的概念引入是为了处理多字节字符集和国际化需求，它通常占用更多的比特空间，例如16位或32位。宽字符在C++中用于支持不同语言的字符集，比如在Windows平台上的Unicode，它可以更方便地处理如中文等非ASCII字符。理解C++宽字符的关键在于认识到字符编码的灵活性和编译器的行为，以及如何在跨平台和本地化环境中正确处理字符和字符串。为了编写健壮的代码，开发者需要熟知字符编码标准、locale和宽字符的使用规则，以便在编写程序时避免潜在的问题和错误。通过遵循这些原则，编程过程可以变得更加自然，减少因宽字符处理不当导致的困扰。

是

0x00 0x00

）等价于

UTF-16BE

也就等价于

UCS-2BE

BOM

为了说明一个文件采用的是什么编码，在文件最开始的部分，可以有

BOM

，比如

0xFE 0xFF

表示

UTF-16BE

，

0xFF 0xFE 0x00 0x00

表示

UTF-32LE

。

UTF-8

原本是不需要

BOM

的，因为其

自我同步的特性，但是为了明确说明这是

UTF-8

（而不是让文本编辑器去猜），也可以加

上

UTF-8

的

BOM

：

0xEF 0xBB 0xBF

。

以上内容都讲述得很概略，详细信息请查阅维基百科相关内容。

、利用

运行时库函数转换

std::locale

通过前面两节的知识，我们知道了在

C/C++

中，字符（串）和宽字符（串）之间的转换不

是简单的，固定的数学关系，宽窄转换依赖于本地化策略集（

locale

）。换句话说，一个程

序在运行之前并不知道系统的本地化策略集是什么，程序只有在运行之后才通过

locale

获

得当时的本地化策略集。

有自己的

locale

函数，我们这里直接介绍

C++

的

locale

类。

先讨论

locale

的构造函数：

locale() throw();

这个构造函数是获得当前程序的

locale

，用法如下：

std::locale app_loc = std::locale();

或者

std::locale app_loc;

（这是构造对象的两种表示方式，后同）

另外一个构造函数是：

explicit locale(const char* name);

这个构造函数以

name

的名字创建新的

locale

。重要的

locale

对象有：

std::locale sys_loc("");

获得当前系统环境的

locale

std::locale C_loc("C");

或者

std::locale C_loc = std::locale::classic();

获得

定义

locale

std::locale old_loc = std::locale::global(new_loc);

将

new_loc

设置为当前全局

locale

，并将原来的

locale

返回给

old_loc

除了这些，其它的

name

具体名字依赖于

C++

编译器和操作系统，比如

Linux

下

gcc

中文系

统的

locale

名字为

"zh_CN.UTF-8"

，中文

Windows

可以用

"chs"

（更加完整的名字可以用

name()

函数查看）。

mbstowcs()

和

wcstombs()

这两个

运行时库函数依赖于全局

locale

进行转换，所以，使用前必须先设置全局

locale

。

std::locale

已经包含在

中了，再加上我们需要用到的

C++

字符串，所以包含

。

剩余19页未读，继续阅读

jackery2008

粉丝: 2
资源: 15

C++宽字符深度解析：编码、本地化与硬编码策略

彻底解密 C++宽字符 -.rar_change7dm_宽字符

c++字符串加密解密

C++宽字符详解：字符集与本地化技术探究

位运算加密解密算法：C++实现字符串加密与解密

c++builder字符串加密与解密

C++字符简单加密解密

RSA.rar_RSA算法 c++_rsa_rsa c++_字符串 加密 解密_解密

RC4.rar_RC4 加解密 C++_RC4 界面_字符串 加解密

rsa.rar_RSA C语言_RSA 字符_c++ rsa_rsa_rsa加密解密C++

C++ DES加密解密string字符串

最新资源

RSA.rar_RSA算法 c++_rsa_rsa c++_字符串加密解密_解密

RC4.rar_RC4 加解密 C++_RC4 界面_字符串加解密