Java中文编码详解：从unicode到ByteToCharConverter

需积分: 9 22 浏览量更新于2024-11-02 收藏 7KB TXT 举报

"Java中文问题详解(高手必读）"这篇文章深入探讨了Java中处理中文字符编码的问题，特别是在与JSP（Java Server Pages）集成时遇到的具体挑战。文章重点介绍了两个主要的编码格式：Unicode和8859_1，以及如何在Java中进行转换。 1. **Unicode与Java**： Unicode是用于表示所有字符的标准，包括中文字符，它采用16位或32位的编码方式。在Java中，虽然基本类型char实际上存储的是16位的Unicode代码点，但处理字符串时可能需要将其转换为byte数组，这是因为byte是Java中的原始数据类型，用于网络传输和文件存储。例如，通过`sun.io.InputStreamReader`和`sun.io.OutputStreamWriter`的`ByteToCharConverter`类，可以实现从byte到char的转换，如`ByteToCharConverter.getDefault()`和`getConverter(String encoding)`方法，这里的encoding参数可以指定字符集，如GB2312、GBK或UTF-8。 2. **GB2312和GBK编码**： GB2312和GBK是中国常见的中文字符编码，它们支持简体中文字符。文章提到，对于GB2312编码，字符'你'的十六进制表示为0x4F60，而对应的字节序列是{(byte)'\u00C4',(byte)'\u00E3'}。在使用`ByteToCharConverter`时，需要确保设置正确的编码，以便正确解析和转换。 3. **8859_1编码**： 8859_1是ISO Latin-1编码，主要用于西欧语言，对于中文字符，它通常会用问号（?）替换。当尝试用8859_1解码包含中文字符的数据时，会显示乱码。这提示我们在处理跨语言环境时，选择适当的字符集至关重要。 4. **UTF-8编码与Unicode的兼容性**： UTF-8是一种变长的Unicode编码格式，能够高效地存储各种语言的字符，特别适合互联网和现代编程。Java的默认字符集通常是UTF-8，这意味着它可以自动处理大部分Unicode字符，包括中文。UTF-8编码下的中文字符占用1到4个字节，例如字符'你'在UTF-8中可能表示为0xC4 0xE3，转换回byte数组后，这两个字节即为0x00C4,0x00E3。 5. **处理不同编码的转换示例**：文章提供了一些实例代码，展示了如何在Java中将GB2312编码的字节数组转换回字符数组，反之亦然。这表明在处理用户输入、数据库查询结果或其他来源的文本时，编码转换是必不可少的步骤，以确保正确显示和处理中文字符。 Java中文问题详解文档涵盖了Java处理中文字符编码的关键知识点，包括Unicode的基本概念、常见编码格式（如GB2312、GBK、UTF-8和8859_1）及其在实际开发中的应用，以及如何通过`ByteToCharConverter`进行编码转换。对于任何想要在Java环境中处理多语言文本，特别是中文的开发者来说，这是非常重要的参考材料。

作者：blackwhites
日期：2000-10-18 17:26:02
我来说一下tomcat如何实现JSP的你就明白了。
预备知识：
　1.字节和unicode
　　Java内核是unicode的，就连class文件也是，但是很多媒体，包括文件/流的保存方式
　　是使用字节流的。因此Java要对这些字节流经行转化。char是unicode的，而byte是字节.
　　Java中byte/char互转的函数在sun.io的包中间有。其中ByteToCharConverter类是中调度，
　　可以用来告诉你，你用的Convertor。其中两个很常用的静态函数是
　　 public static ByteToCharConverter getDefault() ;
　　 public static ByteToCharConverter getConverter(String encoding);
　　如果你不指定converter，则系统会自动使用当前的Encoding,GB平台上用GBK,EN平台上用
　　8859_1
　　
　　我们来就一个简单的例子：
　　　　　"你"的gb码是：0xC4E3 ,unicode是0x4F60
　　　　　你用:
　　　　　--encoding="gb2312";
　　　　　--byte b[]={(byte)'\u00c4',(byte)'\u00E3'};
　　　　　--convertor=ByteToCharConverter.getConverter(encoding);
　　　　　--char [] c=converter.convertAll(b);
　　　　　--for(int i=0;i<c.length;c++)
　　　　　--{
　　　　　-- System.out.println(Integer.toHexString(c[i]));
　　　　　--}
　　　　　--打印出来是0x4F60
　　　　　--但是如果使用8859_1的编码，打印出来是
　　　　　--0x00C4,0x00E3
　　　　　----例１
　　　　反过来：

剩余5页未读，继续阅读

jesse_HF

粉丝: 0
资源: 3

Java中文编码详解：从unicode到ByteToCharConverter

java中文乱码问题详解--- java中文乱码问题详解

张孝祥Java邮件开发详解

java学习必读很好的指导资源（适用于java新手和java高手）

java邮件开发详解

java2编程详解

java设计模式详解

Java正则表达式详解

Java 2编程详解

Java reflect 机制详解

java选择排序详解

最新资源