MTK编码转换揭秘：Unicode、UTF与字节序详解

需积分: 34 16 浏览量更新于2024-09-16 收藏 47KB DOC 举报

本文主要探讨的是MTK编码转换中的关键概念，特别是针对Unicode编码及其变体的理解。首先，文章从Unicode编码系统谈起，介绍了UCS（统一字符集）、UTF（可变长度Unicode编码）、BMP（基本多文种平面）、BOM（字节顺序标记）等术语。UTF是一种广泛使用的Unicode编码方案，支持不同语言的字符表示，BMP包含了大部分常用字符，而BOM用于标识文本文件的编码类型，如在Windows中常见的是UTF-8的EF BB BF、Unicode的FF FE或FE FF。接下来，文章聚焦于Windows记事本中的编码选择和识别机制。Windows通过查看文件头部的特定字节序列来识别不同的编码，如UTF-8的三个字节标志和Unicode编码的两个字节标志。bigendian和littleendian概念在此处也起到关键作用，它们描述了多字节数据在存储和传输时字节的排列顺序，与编码方式的选择有关。问题二中提到的ConvertUTF.c程序涉及到UTF-16（通常与Unicode(UCS2)混淆）与UTF-8之间的转换。UTF-16是一种变长编码，使用16位表示一个字符，而UCS2则是早期对Unicode的固定长度表示，每字符占用16位。两者的主要区别在于UTF-16可能使用两个、四个甚至更多的字节来表示一个字符，而UCS2仅用16位。ConvertUTF.c的作用是确保在不同编码格式之间无缝转换，这对于处理国际化文本至关重要。最后，文章强调了字符编码和内码的基本概念，指出计算机内部处理文本的方式依赖于内码，早期的ASCII编码主要用于英文，而汉字编码则引入了如GBK这样的扩展，以适应中文字符。理解这些编码原理有助于程序员在实际工作中准确处理各种文本格式和编码问题。本文深入浅出地解析了MTK编码转换中的Unicode编码体系、Windows记事本的编码识别、bigendian/littleendian的区别以及UTF-16与UCS2、UTF-8的关系，为遇到同样问题的程序员提供了一个清晰的指南。

谈谈 Unicode 编码，简要解释 UCS、UTF、BMP、BOM 等名词

这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清

楚的概念，增进知识，类似于打 RPG 游戏的升级。整理这篇文章的动机是两个问题：

问题一：

使用 Windows 记事本的“另存为”，可以在 GBK、Unicode、Unicode big endian 和 UTF-8 这

几种编码方式间相互转换。同样是 txt 文件，Windows 是怎样识别编码方式的呢？

我很早前就发现 Unicode、Unicode big endian 和 UTF-8 编码的 txt 文件的开头会多出几个字

节，分别是 FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。

但这些标记是基于什么标准呢？

问题二：

最近在网上看到一个 ConvertUTF.c，实现了 UTF-32、UTF-16 和 UTF-8 这三种编码方式的

相互转换。对于 Unicode(UCS2)、GBK、UTF-8 这些编码方式，我原来就了解。但这个程

序让我有些糊涂，想不起来 UTF-16 和 UCS2 有什么关系。

查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些 Unicode 的细节。写成一

篇文章，送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂，但要求读者知道什

么是字节，什么是十六进制。

0、big endian 和 little endian

big endian 和 little endian 是 CPU 处理多字节数的不同方式。例如“汉”字的 Unicode 编码是

6C49。那么写到文件里时，究竟是将 6C 写在前面，还是将 49 写在前面？如果将 6C 写在

前面，就是 big endian。如果将 49 写在前面，就是 little endian。

“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-

Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，一个皇帝送了命，另

一个丢了王位。

我们一般将 endian 翻译成“字节序”，将 big endian 和 little endian 称作“大尾”和“小尾”。

1、字符编码、内码，顺带介绍汉字编码

字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期

的计算机使用 7 位的 ASCII 编码，为了处理汉字，程序员设计了用于简体中文的 GB2312

和用于繁体中文的 big5。

GB2312(1980 年)一共收录了 7445 个字符，包括 6763 个汉字和 682 个其它符号。汉字区的

内码范围高字节从 B0-F7，低字节从 A1-FE，占用的码位是 72*94=6768。其中有 5 个空位

下载后可阅读完整内容，剩余6页未读，立即下载

ayyyya

粉丝: 0
资源: 8

MTK编码转换揭秘：Unicode、UTF与字节序详解

MTK编码转换，解决乱码的问题

MTK短信编码.docx

MTK开发JPEG编码详细介绍.rar

视频帧 图像压缩编码详解 MTK

MTK开发 MP3音频DSP编码原理.

mtk的图片铃声转换成数组工具bin2txt

MTK_TTS_pcm.zip_PCM播放_mtk_mtk pcm_mtk 播放url_tts

MTK1.zip_MTK1_mtk_site:www.pudn.com

mtk messages 详解

MTK平台驱动

最新资源

视频帧图像压缩编码详解 MTK