woaidongmao

文章均收录自他人博客，但不喜标题前加-[转贴]，因其丑陋，见谅！~

随笔 - 1469, 文章 - 0, 评论 - 661, 引用 - 0

数据加载中……

深入理解 Java 的 char

char 是 Java 的八大基本数据类型之一，字长 16 bit。

Java 的字符编码标准是 Unicode。如今 Unicode 的字符数已经超过了2¹⁶（65536），一个 char 类型不能直接表示所有的字符。为了解决这个问题，Java 采用了如下的机制。

1. 定义了“代码点（code point）”。这实际上就是编码表中的码值。用U+XXXX的方式表示。

2. 定义了“代码单元（code unit）”。每 16 个 bit 就是一个代码单元（一个 char 变量就可以装下了）。

3. 通过一个算法，将代码单元映射到代码点。由于有些字符的编码范围大于65536，因此，会使用两个代码单元来表示一个代码点。

具体是这样的：

Unicode 的代码点被分为 17 个代码级别：

1. 基本的多语言级别（basic multilingual plane，共 1 个级别）。范围是 U+0000 ~ U+FFFF。位于基本多语言级别中的字符被称为基本字符。在 Java 中，基本字符采用一个代码单元进行编码。

2. 附加级别（supplymental plane，共 16 个级别）。范围是 U+10000 ~ U+10FFFF。位于附加级别中的字符被称为辅助字符。在 Java 中，它采用一对连续的代码单元进行编码。

3. 在基本的多语言级别中，有2048个特殊的编码（也占用一个代码单元）。它们不表示任何字符，而是用于两两组，以产生附加级别的代码点。也就是2种用到的代码单元编码。（如果不单独使用特殊编码，程序又如何能够区分何时使用基本字符，何时使用附加字符？）

4. U+D800 ~ U+DBFF用于第一个代码单元，U+DC00 ~ U+DFFF用于第二个代码单元。

例：U+D835和U+DD6B表示U+1D56B

posted on 2009-08-10 11:25 肥仔阅读(172) 评论(0) 编辑收藏引用所属分类: Web-后台

只有注册用户登录后才能发表评论。


相关文章: Godaddy的DNS被屏蔽的解决办法浅谈URL最后带斜杠对SEO优化的影响 URL 重定向. HTTP 301 理解HTTP协议中的"Transfer-Encoding: chunked" Nginx 源码分析 ---- Fastcgi 模块(上)/(下) FastCGI中文规范 Fastcgi协议定义解释与说明 FastCGI协议报文的分析从 RoR部署看缓冲原理及fastcgi解析 Fast CGI 工作原理

网站导航: 博客园博客园最新博文博问管理