sunrise

每天不断学习，才能不断提升自己。

:: 管理 ::

64 随笔 :: 0 文章 :: 92 评论 :: 0 Trackbacks

参见：http://www.pythonclub.org/python-basic/codec

主要介绍了python的编码机制，unicode, utf-8, utf-16, GBK, GB2312,ISO-8859-1 等编码之间的转换。

常见的编码转换分为以下几种情况：
1.自动识别字符串编码：

#coding:utf8

#chartdet官方下载网站http://pypi.python.org/pypi/chardet

import urllib

import chardet

rawdata = urllib.urlopen('http://www.google.cn/').read()

print chardet.detect(rawdata)

输出：

#confidence是可信度，encoding是编码

{'confidence': 0.99, 'encoding': 'utf-8'}

2.unicode转换为其他编码

#coding:utf8

a = u'中文'

a_gb2312 = a.encode('gb2312')

print a_gb2312

输出：

中文

3.其他编码转换为unicode

#coding:utf8

a = u'中文'

a_gb2312 = a.encode('gb2312')

print a_gb2312

#a为gb2312编码，要转为unicode. unicode(a, 'gb2312')或a.decode('gb2312')

print [unicode(a_gb2312,'gb2312')]

print [a_gb2312.decode('gb2312')]

输出：

中文

[u'\u4e2d\u6587']

4.非unicode编码之间的相互转化

#coding:utf8

a = u'中文'

a_gb2312 = a.encode('gb2312')

print a_gb2312

#编码1转换为编码2可以先转为unicode再转为编码2

a_unicode = a_gb2312.decode('gb2312')

print [a_unicode]

a_utf8 = a_unicode.encode('utf8')

#dos不识别utf8编码，直接输出会是乱码

print [a_utf8]

输出：

中文

[u'\u4e2d\u6587']

['\xe4\xb8\xad\xe6\x96\x87']

5.判断字符串编码

#coding:utf8

#isinstance(s, str) 用来判断是否为一般字符串

#isinstance(s, unicode) 用来判断是否为unicode 3

#如果一个字符串已经是unicode了，再执行unicode转换有时会出错(并不都出错)

def u(s,encoding):

if isinstance(s,unicode):

return s

else:

return unicode(s,encoding)

6.汉字转化为unicode编码

#coding:utf8

#该方法没看懂，先留下了

name = '中国'

name = name.decode('utf8')

print name

tmpname = ""

for c in name:

c = "%%u%04X" % ord(c)

tmpname += c

print tmpname

输出结果：

中国

%u4E2D%u56FD

posted on 2012-12-27 16:11 SunRise_at 阅读(4216) 评论(0) 编辑收藏引用所属分类: 可爱的python

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！

相关文章: turbogear2上传文件功能关于PIL库的一些概念 python的默认参数 Google Translate API json的编码和解析 python多线程 python编码转换 Python yield 用法 python enumerate用法 python之Queue

网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理

sunrise

常用链接

留言簿(12)

随笔分类(63)

随笔档案(64)

收藏夹

ACMer

技术联盟

可爱的python

数据挖掘

算法之道

友情链接

最新随笔

搜索

积分与排名

最新随笔

最新评论

阅读排行榜

评论排行榜