没有合适的资源?快使用搜索试试~ 我知道了~
首页C++11 Unicode编码转换
C++11 Unicode编码转换
731 浏览量
更新于2023-05-24
评论
收藏 84KB PDF 举报
主要介绍了C++11 Unicode编码转换的相关资料,帮助大家更好的理解和学习c++11,感兴趣的朋友可以了解下
资源详情
资源评论
资源推荐

C++11 Unicode编码转换编码转换
主要介绍了C++11 Unicode编码转换的相关资料,帮助大家更好的理解和学习c++11,感兴趣的朋友可以了解下
1.char16_t与与char32_t
在C++98中,为了支持Unicode字符,使用wchar_t类型来表示“宽字符”,但并没有严格规定位宽,而是让wchar_t的宽度由编
译器实现,因此不同的编译器有着不同的实现方式,GNU C++规定wchar_t为32位,Visual C++规定为16位。由于wchar_t宽
度没有一个统规定,导致使用wchar_t的代码在不同平台间移植时,可能出现问题。这一状况在C++11中得到了一定的改善,
从此Unicode字符的存储有了统一类型:
(1)char16_t:用于存储UTF-16编码的Unicode字符。
(2)char32_t:用于存储UTF-32编码的Unicode字符。
至于UTF-8编码的Unicode数据,C++11还是使用了8bits宽度的char类型数组来表示,而char16_t和char32_t的宽度由其名称
可以看出,char16_t为16bits,char32_t为32bits。
2.定义字符串的定义字符串的5种方式种方式
除了使用新类型char16_t与char32_t来表示Unicode字符,此外,C++11还新增了三种前缀来定义不同编码的字符串,新增前
缀如下:
(1)u8表示为UTF-8编码;
(2)u表示为UTF-16编码;
(3)U表示为UTF-32编码。
C++98中有两种定义字符串的方式,一是直接使用双引号定义多字节字符串,二是通过前缀“L”表示wchar_t字符串(宽字符
串)。至此,C++中共有5种定义字符串的方式。
3.影响字符串正确处理的因素影响字符串正确处理的因素
在使用不同方式定义不同编码的字符串时,我们需要注意影响字符串处理和显示的几个因素有编辑器、编译器和输出环境。
代码编辑器采用何种编码方式决定了字符串最初的编码,比如编辑器如果采用GBK,那么代码文件中的所有字符都是以GBK
编码存储。当编译器处理字符串时,可以通过前缀来判断字符串的编码类型,如果目标编码与原编码不同,则编译器会进行转
换,比如C++11中的前缀u8表示目标编码为UTF-8的字符,如果代码文件采用的是GBK,编译器按照UTF-8去解析字符串常
量,则可能会出现错误。
//代码文件为GBK编码
#include <iomanip>
#include <iostream>
using namespace std;
int main()
{
const char* sTest = u8"你好";
for(int i=0;sTest[i]!=0;++i)
{
cout<<setiosflags(ios::uppercase)<<hex<<(uint32_t)(uint8_t)sTest[i]<<" ";
}
return 0;
}
//编译选项:g++ -std=c++0x -finput-charset=utf-8 test.cpp
程序输出结果:C4 E3 BA C3。这个码值是GBK的码值,因为“你”的GBK码值是0xC4E3,“好”的GBK码值是0xBAC3。可见,
编译器未成功地将GBK编码的“你好”转换为UTF-8的码值“你”(E4 BD A0)“好”(E5 A5 BD),原因是使用编译选项-finput-
charset=utf-8指定代码文件编码为UTF-8,而实际上代码文件编码为GBK,导致编译器出现错误的认知。如果使用-finput-
charset=gbk,那么编译器在编译时会将GBK编码的“你好”转换为UTF-8编码,正确输出E4 BD A0 E5 A5 BD。
代码编辑器和编译器这两个环节在处理字符串如果没有问题,那么最后就是显示环节。字符串的正确显示依赖于输出环境。
C++输出流对象cout能够保证的是将数据以二进制输出到输出设备,但输出设备(比如Linux shell或者Windows console)是
否能够支持特定的编码类型的输出,则取决于输出环境。比如Linux虚拟终端XShell,配置终端编码类型为GBK,则无法显示
输出的UTF-8编码字符串。
一个字符串从定义到处理再到输出,涉及到编辑器、编译器和输出环境三个因素,正确的处理和显示需要三个因素的共同保
障,每一个环节都不能出错。一个字符串的处理流程与因素如下图所示:
当然如果想避开编辑器编码对字符串的影响,可以使用Unicode码值来定义字符串常量,参看如下代码:
//代码文件为GBK编码
#include <iomanip>
#include <iostream>
using namespace std;

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0