C++utf8转uint8数组
时间: 2023-03-10 11:21:51 浏览: 287
utf8 转换为 uint8 数组可以使用 JavaScript 的 TextEncoder 对象,它可以将字符串转换为字节数组:var uint8Array = new TextEncoder().encode(utf8String);
相关问题
C++ UTF16BE编码的char数组转成UTF8,代码展示
下面是将UTF16BE编码的char数组转换成UTF8的示例代码:
```c++
#include <iostream>
#include <string>
using namespace std;
string utf16be_to_utf8(const char* utf16be, size_t len) {
string utf8;
uint32_t codepoint;
for (size_t i = 0; i < len; i += 2) {
codepoint = (utf16be[i] << 8) | utf16be[i+1];
if (codepoint <= 0x7F) {
utf8 += static_cast<char>(codepoint);
} else if (codepoint <= 0x7FF) {
utf8 += static_cast<char>(0xC0 | ((codepoint >> 6) & 0x1F));
utf8 += static_cast<char>(0x80 | (codepoint & 0x3F));
} else if (codepoint <= 0xFFFF) {
utf8 += static_cast<char>(0xE0 | ((codepoint >> 12) & 0x0F));
utf8 += static_cast<char>(0x80 | ((codepoint >> 6) & 0x3F));
utf8 += static_cast<char>(0x80 | (codepoint & 0x3F));
} else {
utf8 += static_cast<char>(0xF0 | ((codepoint >> 18) & 0x07));
utf8 += static_cast<char>(0x80 | ((codepoint >> 12) & 0x3F));
utf8 += static_cast<char>(0x80 | ((codepoint >> 6) & 0x3F));
utf8 += static_cast<char>(0x80 | (codepoint & 0x3F));
}
}
return utf8;
}
int main() {
// 示例输入为 "你好"
char utf16be[] = {0x4F, 0x60, 0x59, 0x6D}; // UTF16BE编码的char数组
size_t len = sizeof(utf16be) / sizeof(char);
string utf8 = utf16be_to_utf8(utf16be, len);
cout << "UTF8编码的字符串为: " << utf8 << endl;
return 0;
}
```
在上面的代码中,我们定义了一个 `utf16be_to_utf8` 函数,它的作用是将UTF16BE编码的char数组转换成UTF8编码的字符串。接着在 `main` 函数中,我们定义了一个UTF16BE编码的char数组 `utf16be`,并将其传递给 `utf16be_to_utf8` 函数进行转换。最后输出转换后的UTF8编码的字符串。
需要注意的是,UTF16BE编码中,每个字符占用两个字节,因此在 `utf16be_to_utf8` 函数中,我们每次读取两个字节,并将其转换成一个Unicode码点。在将Unicode码点转换成UTF8编码时,我们采用了UTF8的标准转换方式,即:
- 如果码点小于等于0x7F,则转换成一个字节的UTF8编码;
- 如果码点小于等于0x7FF,则转换成两个字节的UTF8编码;
- 如果码点小于等于0xFFFF,则转换成三个字节的UTF8编码;
- 如果码点小于等于0x10FFFF,则转换成四个字节的UTF8编码。
最后,我们将每个Unicode码点转换成的UTF8编码拼接成一个完整的UTF8编码的字符串。
c++用iconv将utf-8转成unicode类型,string类型转成字节数组
可以使用iconv库中的iconv函数将UTF-8编码的string类型转换成Unicode编码的字节数组。具体步骤如下:
1. 引入iconv库头文件:
```c++
#include <iconv.h>
```
2. 创建iconv_t类型的句柄:
```c++
iconv_t conv = iconv_open("UTF-32LE", "UTF-8");
```
其中,第一个参数是目标编码格式,第二个参数是源编码格式。本例中将UTF-8编码的string类型转换成UTF-32LE编码的字节数组。
3. 定义源字符串和目标缓冲区:
```c++
std::string str = "Hello, 世界!";
char* src = const_cast<char*>(str.c_str());
size_t srclen = str.length();
char* dst = new char[srclen * 4]; // 缓冲区大小为源字符串长度的四倍(UTF-32编码下每个字符占4个字节)
size_t dstlen = srclen * 4;
```
4. 调用iconv函数进行转换:
```c++
size_t res = iconv(conv, &src, &srclen, &dst, &dstlen);
```
其中,第一个参数是iconv_t类型的句柄,第二个参数是源字符串的指针,第三个参数是源字符串的长度,第四个参数是目标缓冲区的指针,第五个参数是目标缓冲区的长度。
5. 关闭iconv句柄并释放资源:
```c++
iconv_close(conv);
```
完整示例代码:
```c++
#include <iostream>
#include <iconv.h>
int main()
{
std::string str = "Hello, 世界!";
char* src = const_cast<char*>(str.c_str());
size_t srclen = str.length();
char* dst = new char[srclen * 4]; // 缓冲区大小为源字符串长度的四倍(UTF-32编码下每个字符占4个字节)
size_t dstlen = srclen * 4;
iconv_t conv = iconv_open("UTF-32LE", "UTF-8");
size_t res = iconv(conv, &src, &srclen, &dst, &dstlen);
iconv_close(conv);
std::cout << "转换结果:" << std::endl;
for (size_t i = 0; i < srclen * 4 - dstlen; i += 4)
{
uint32_t ch = *(reinterpret_cast<uint32_t*>(dst + i));
std::cout << std::hex << ch << " ";
}
std::cout << std::endl;
delete[] dst;
return 0;
}
```
注意:上述代码中的转换结果是以16进制形式输出的字节数组,如果需要以Unicode字符串形式输出,可以在输出时将字节转换成Unicode字符,或者使用std::wstring类型存储转换结果。
阅读全文