字符编码笔记－unicode & utf-8

2026年3月

日

一

二

三

四

五

六

常用链接

留言簿(2)

随笔分类

随笔档案

相册

友情链接

不会飞的鸟(老婆今年24)

搜索

阅读排行榜

评论排行榜

Posted on 2010-07-29 17:17 杨书童阅读(414) 评论(1) 编辑收藏引用所属分类: 基础知识-经验之谈

首先说说ASCII码吧，计算机在外国诞生后，大家要想怎么吧characters input给计算机，他们就定了ASCII，现在有人抱怨老美太小气，只设计了128个，其实不然。试想想当时的环境，一是他们无法预料计算机能像现在这样普及，二是存储设备还都不成熟，成本爆高。所以导致后来的局面，也就是ISO和unicode两种字符集，分别是UCS-4(4个字节)和unicode 1.0(2个字节)，但这种定长的导致英语国家不答应了，平时字符都是一个byte，现在突然编程2个甚至是4个，还有后来加入新的字符后就更乱了，最后两个组织整合了，整个世界终于安静了。

        在这我想澄清个概念，就是大家不要把unicode和utf－8， utf-16, utf-32搞乱了，首先unicode是一套标准的字符集，基本包括了大多数的文字了，可以在这个路径下载最新的字符表http://www.unicode.org/ ，utf-7,8等都是基于这个字符集的一些编码算法。在unicode设计的时候把ASCII码的128个作为unicode的前128个。那么现在最最最流行的也就是UTF-8的编码了，它的算法思想是：
        U-00000000 - U-0000007F:  0xxxxxxx               ASCII码
        U-00000080 - U-000007FF:  110xxxxx 10xxxxxx
        U-00000800 - U-0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx
        U-00010000 - U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
        U-00200000 - U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

比如我在codeCharts里面找到这个字符Ď(010e)，那么它的UTF-8结果是：

1 0000 1110 -------> 110 00 100 10 001110 C48E 就这么简单了，有没有。

这里我还想引入一个库libiconv，可以说是一个万能的转换编码的工具把，去网站http://www.gnu.org/software/libiconv/ 了解详情，它目前支持的字符编码不下30种，常用的都有了。那么有了这个库以后呢，大家可以在遇到已知输入多种编码时，可以用它来转成一种类型的编码(utf-8)，然后做处理。VCard的解析我就是就是这样解决的。

Feedback

# re: 字符编码笔记－unicode & utf-8 回复 更多评论

2010-07-30 03:04 by buy essays uk

The the greatest problem of papers writing market. Qulified essay writing service uk must give you guarantee that its customized essays are 100% original.

刷新评论列表

只有注册用户登录后才能发表评论。


相关文章: Linux下JNI接口生成以及调用举例，完成Java通过JNI调用C生成的DLL库 Linux下安装JDK，编译JNI程序 linux和windows下用setsockopt设置send(), recv() 超时的参数的一点区别 Linux下创建静态、动态库 VS编译动态库无法直接运行，所需的其他文件说明(Visual C++ Libraries as Shared Side-by-Side Assemblies) error LNK2001: unresolved external symbol mysql创建支持UTF-8编码的数据库 GBK和BIG5中汉字编码的第一位和第二位的范围字符编码笔记－unicode & utf-8 字符编码笔记：ASCII，Unicode和UTF-8

网站导航: 博客园博客园最新博文博问管理

不会游泳的鱼