熵的概念最先在1864年首先由鲁道夫·克劳修斯提出,并应用在热力学中。后来在1948年由克劳德·艾尔伍德·香农第一次引入到信息论中来。
熵在信息论的定义如下:
如果有一个系统S内存在多个事件S = {E1,...,En}, 每个事件的概率分布 P = {p1, ..., pn},则每个事件本身的信息为
Ie = − log2pi
(对数以2为底,单位是比特(bit))
Ie = − lnpi
(对数以e为底,单位是纳特/nats)
如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为
而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为
整个系统的平均信息量为
这个平均信息量就是信息熵。因为和热力学中描述热力学熵的玻耳兹曼公式形式一样,所以也称为“熵”。
如果两个系统具有同样大的信息量,如一篇用不同文字写的同一文章,由于是所有元素信息量的加和,那么中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的信息量越大。
- 熵均大于等于零,即,。
- 设N是系统S内的事件总数,则熵。当且仅当p1=p2=...=pn时,等号成立,此时系统S的熵最大。
- 联合熵:,当且仅当X,Y在统计学上相互独立时等号成立。
- 条件熵:,当且仅当X,Y在统计学上相互独立时等号成立。
posted on 2008-11-22 20:22
Benson 阅读(457)
评论(0) 编辑 收藏 引用 所属分类:
信息科学