Java Unicode与编码解析

需积分: 4 164 浏览量更新于2024-09-12 收藏 26KB DOCX 举报

"Java编程中的Unicode编码和字符集转换理解" 在编程领域，尤其是在Java中，理解Unicode编码和各种字符集转换至关重要。Unicode是一个全球通用的字符编码标准，旨在涵盖世界上的所有字符，确保每种语言的文字都能被计算机正确识别和处理。Java选择Unicode作为其基础，使得它成为一种高度兼容的国际化编程语言。 Java类文件是以UTF-8编码存储的，这是一种变长的Unicode编码方式，它可以高效地表示不同长度的字符。然而，当这些类文件在JVM（Java虚拟机）中运行时，JVM内部使用UTF-16编码，因为UTF-16为每个字符提供固定2个字节的空间，方便内存管理和处理。在Java中，`String`类的每个实例都代表一个不可变的Unicode字符串，这意味着每个字符都对应一个Unicode代码点。编码（encode）和解码（decode）在Java中扮演着核心角色。`String`的`getBytes()`方法将Unicode字符串转换为指定编码的字节数组，而`new String(byte[])`则将字节数组还原为Unicode字符串。这个过程是相对Unicode进行的，也就是说，编码是将Unicode的`char[]`转换为其他编码的`byte[]`，解码则是反过来。网页内容的处理也是一个常见的编码问题。HTML表单提交时，数据会根据页面`Content-Type`头部设置的字符集进行编码，这些数据到达服务器后，需要通过`HttpServletRequest`的`setCharacterEncoding()`方法指定正确的编码，以便服务器端能够正确解码并处理参数。当我们谈论将一种编码的字符串转换为另一种编码时，例如"将GBK编码转换为UTF-8编码"，实际上我们指的是将已经编码为GBK的字节数组转换为UTF-8编码的字节数组。这个过程发生在字节层面，而不是在Java的`String`对象之间，因为`String`对象始终是Unicode编码的。理解Unicode以及Java中的编码和解码机制对于解决字符显示乱码问题、实现跨语言平台的数据交换以及确保程序的国际化兼容性具有深远的意义。正确处理字符编码转换是开发过程中不容忽视的一部分，特别是在处理多语言用户界面和网络通信时。

对  中 、编码的理解

 号称国际化的语言，是因为它的  文件采用 ，而  运行时使用 。因

此  用的都是 。

的目标就是能支持世界上所有的字符集，也就是说几乎所有的字符集包含的字符在

 中都有对应的编码。在  中，字符与代码的映射关系，就是  字符集，

称为 ，每个  字符编码称为 （代码点？）。

 和  是不同的  编码方法， 就是  !"!。#

在 中，$ 的 $%&方法就是对特定的字符串按照给定的字符集进行编

码（  ）， '  $ 则可以按照某个字符集将字节流转换回

（）。 里面的每一个 $ 都是  编码。

再来看页面，如果不做特殊处理，! 的提交就按照页面的 & 设置中的字符集

进行编码转换，发送到后台，后台必须利用 ()*$ 来指定参数的编码格

式不同的应用服务器应有不同的指定方式，才能正确解码。

里面的  和  都是相对于  而言的， 的意思是将 +,-...

*$/&+,， 就是由 ...*$/&+,-+,。平常，当我们说“将 0%1 编码

转换为  编码”的时候，实际的意思就是： 0%1*$/&+,-*$

/&+,，这种转换只有在需要用 /&+,传输数据的时候才有意义，否则便是毫无意义的。

首先要说明的一点是： 中的 $ 对象就是一个  编码的字符串。

但是，我们通常会听到有人说：“我们需要将 $ 由 2345 转换为 0%1 编码”，这又是

怎么回事呢？实际上，我们并不是要“将一个由 2345 编码的 $ 转换为 0%1 编码的

$6，反复说明的是，77 中的 $ 都是  编码的，所以不存在“2345 编

码的 $6或“0%1 编码的 $6这样的说法。而需要转换的唯一的原因是 $ 进行了错

误的编码。我们经常会碰到由 2345 转换为诸如 0%18 等等这样的需求。所谓的

转换过程是：$-/&+,-$。

也许你非常清楚这个过程的代码：'$9)$%&:2345:;:0%1:。但是，要

真正理解起来并不是那么简单。表面上看似乎很容易理解，不就是将 9$ 对象按照

2345 的方式编码为 /&+,然后再把它按照 0%1 的方式转换为 $ 吗？但是这句代码

很容易会被误解为： “将 9$ 由 2345 转换为 0%1 编码”，这种说法是错误的。

难道你见过用这样的代码：'$9)$%&:0%1:;::来对 $ 进行编码转

换的吗？

之所以你会经常看到 '$9)$%&:2345:;:0%1:这句代码，是因为一个

0%1 的字节流被错误地以 2345 的方式转换为 $（）了！发生这种情况最

普遍的地方是一个 0%1 编码的网页向后台提交数据的时候，就有可能会看到这句代码的出

现。0%1 的流被错误的当成 2345 的流，所以便得到了一个错误的 $ 。由于

2345 是单字节编码，所以每个字节被按照原样转换为 $，也就是说，虽然这是一

个错误的转换，但编码没有改变，所以我们仍然有机会把编码转换回来！所以那句经典的

'$9)$%&:2345:;:0%1:便出现了。

下载后可阅读完整内容，剩余8页未读，立即下载

lvzhenson

粉丝: 0
资源: 1

Java Unicode与编码解析

GB2312编码对照表

js出现乱码问题介绍大全

最全的编码问题，乱码问题，uft-8

彻底解决页面文字编码乱码问题

mysql字符集乱码问题解决方法介绍

字符，字节和编码.中文问题”，“乱码问题”。

jsp传值中文乱码问题解决方法示例介绍

网页语言编码及asp乱码问题解决方案

深入jaxb xjc编码问题的详细介绍

深入理解字符编码（字符集 字符编码 字符显示 乱码问题）

最新资源

深入理解字符编码（字符集字符编码字符显示乱码问题）