i = 1
这是一个再简单不过的赋值语句,即便是才开始学习编程的新手也能脱口而出它的含义 -- “设置变量i的值为1”。
i = 2
“将变量i的值改为2”,当看到接下来这行代码时,你脑海中肯定会立即浮现这样的念头。
这难道会有问题嘛?这简简单单的一行赋值语句其实包含了python中的三个重要概念:名字、绑定和对象。
python对赋值语句作出了自己的定义:
“符值语句是用来将名字绑定(或重新绑定)到某个对象的操作,而且它也可用来修改可变对象的属性或
对象中所包含的成员。”
名字绑定到对象这个概念在python中随处可见,可以说是python的最基本而且最重要的概念之一。如果
没有很好理解这一点,一些意想不到的结果就会在您的代码中悄然出现。
先来看一个简单例子:
>>> a = {'g':1}
>>> b = a*4
>>> print b
[{'g': 1}, {'g': 1}, {'g': 1}, {'g': 1}]
>>> b[0]['g'] = 2
>>> print b
出乎意料嘛?请慢慢看完这篇文章。
1. 对象
“万物皆对象”(Everything is object),这是python这种面向对象语言所倡导的理念。在我们熟悉的C++中,1只是一个整型数,而不是一个对象。但在python中,1却是一个实实在在的对象,您可以用dir(1)来显示它的属性。
在python中,所有对象都有下面三个特征:
* 唯一的标识码(identity)
* 类型
* 内容(或称为值)
一旦对象被创建,它的标识码就不允许更改。对象的标识码可以有内建函数id()获取,它是一个整型数。您可以将它想象为该对象在内存中的地址,其实在目前的实现中标识码也就是该对象的内存地址。
>>> class c1:
pass
...
>>> obj = c1()
>>> obj
<__main__.c1 instance at 0x00AC0738>
>>> id(obj)
11274040
换算一下,11274040就是十六进制的0x00AC0738。
>>> id(1)
7957136
这就是前面提到的1这个对象的标识码,也就是它在内存中的地址。
当用is操作符比较两个对象时,就是在比较它们的标识码。更确切地说,is操作符是在判断两个对象是否是同一个对象。
>>> [1] is [1]
其结果是False,是因为这是两个不同的对象,存储在内存中的不同地方。
>>> [1] == [1]
其结果是True,是因为这两个不同的对象有着相同的值。
与对象的标识码类似,对象的类型也是不可更改的。可以用内建函数type()取得对象的类型。
有的对象的值是可以改变的,这类对象叫作可变对象;而另外一些对象在创建后其值是不可改变的(如1这个对象),这类对象叫作恒定对象。对象的可变性是由它的类型决定的,比如数值型(number)、字符串型(string)以及序列型(tuple)的对象是恒定对象;而字典型(dictionary)和列表型(list)的对象是可变对象。
除了上面提到的三个特征外,一个对象可能:
* 没有或者拥有多个方法
* 没有或者有多个名字
2. 名字
名字是对一个对象的称呼,一个对象可以只有一个名字,也可以没有名字或取多个名字。但对象自己却不知道有多少名字,叫什么,只有名字本身知道它所指向的是个什么对象。给对象取一个名字的操作叫作命名,python将赋值语句认为是一个命名操作(或者称为名字绑定)。
名字在一定的名字空间内有效,而且唯一,不可能在同一个名字空间内有两个或更多的对象取同一名字。
让我们再来看看本篇的第一个例子:i = 1。在python中,它有如下两个含义:
* 创建一个值为1的整型对象
* "i"是指向该整型对象的名字(而且它是一个引用)
3. 绑定
如上所讲的,绑定就是将一个对象与一个名字联系起来。更确切地讲,就是增加该对象的引用计数。众所周知,C++中一大问题就是内存泄漏 -- 即动态分配的内存没有能够回收,而解决这一问题的利器之一就是引用计数。python就采用了这一技术实现其垃圾回收机制。
python中的所有对象都有引用计数。
i=i+1
* 这创建了一个新的对象,其值为i+1。
* "i"这个名字指向了该新建的对象,该对象的引用计数加一,而"i"以前所指向的老对象的
引用计数减一。
* "i"所指向的老对象的值并没有改变。
* 这就是为什么在python中没有++、--这样的单目运算符的一个原因。
3.1 引用计数
对象的引用计数在下列情况下会增加:
* 赋值操作
* 在一个容器(列表,序列,字典等等)中包含该对象
对象的引用计数在下列情况下会减少:
* 离开了当前的名字空间(该名字空间中的本地名字都会被销毁)
* 对象的一个名字被绑定到另外一个对象
* 对象从包含它的容器中移除
* 名字被显示地用del销毁(如:del i)
当对象的引用计数降到0后,该对象就会被销毁,其所占的内存也就得以回收。
4. 名字绑定所带来的一些奇特现象
例4.1:
>>> li1 = [7, 8, 9, 10]
>>> li2 = li1
>>> li1[1] = 16
>>> print li2
[7, 16, 9, 10]
注解:这里li1与li2都指向同一个列表对象[7, 8, 9, 10],“li[1] = 16”是改变该列表中的第2个元素,所以通过li2时同样会看到这一改动。
例4.2:
>>> b = [{'g':1}]*4
>>> print b
[{'g': 1}, {'g': 1}, {'g': 1}, {'g': 1}]
>>> b[0]['g'] = 2
>>> print b
[{'g': 2}, {'g': 2}, {'g': 2}, {'g': 2}]
例4.3:
>>> b = [{'g':1}] + [{'g':1}] + [{'g':1}] + [{'g':1}]
>>> print b
[{'g': 1}, {'g': 1}, {'g': 1}, {'g': 1}]
>>> b[0]['g'] = 2
>>> print b
[{'g': 2}, {'g': 1}, {'g': 1}, {'g': 1}]
注解:在有的python书中讲到乘法符号(*)就相当于几个加法的重复,即认为例4.2应该与4.3的结果一致。
其实不然。例4.2中的b这个列表中的每一个元素{'g': 1}其实都是同一个对象,可以用id(b[n])进行验证。而例4.3中则是四个不同的对象。我们可以采用名字绑定的方法消除这一歧义:
>>> a = {'g' : 1}
>>> b = [a]*4
>>> b[0]['g'] = 2
>>> print b
[{'g': 2}, {'g': 2}, {'g': 2}, {'g': 2}]
>>> print a
{'g': 2}
>>> a = {'g' : 1}
>>> b = [a] + [a] + [a] + [a]
>>> b[0]['g'] = 2
>>> print b
[{'g': 2}, {'g': 2}, {'g': 2}, {'g': 2}]
>>> print a
{'g': 2}
不过对于恒定对象而言,“*”和连续加法的效果一样。比如,b=[1] * 4 就等同于 b=[1]+[1]+[1]+[1]。
5. 函数的传参问题
函数的参数传递也是一个名字与对象的绑定过程,而且是绑定到另外一个名字空间(即函数体内部的名字空间)。python对赋值语句的独特看法又会对函数的传递造成什么影响呢?
5.1 传值?传址?
在学习C++的时候我们都知道有两种参数传递方式:传值和传址。而在python中所有的参数传递都是引用传递(pass reference),也就是传址。这是由于名字是对象的一个引用这一python的特性而自然得来的,在函数体内部对某一外部可变对象作了修改肯定会将其改变带到函数以外。让我们来看看下面
这个例子:
例5.1
>>> a = [1, 2, 3]
>>> def foo(par):
... par[1] = 10
...
>>> foo(a)
>>> print a
[1, 10, 3]
因此,在python中,我们应该抛开传递参数这种概念,时刻牢记函数的调用参数是将对象用另外一个名字空间的名字绑定。在函数中,不过是用了另外一个名字,但还是对这同一个对象进行操作。
5.2 缺省参数
使用缺省参数,是我们喜爱的一种作法。这可以在调用该函数时节省不少的击键次数,而且代码也显得更加简洁。更重要的是它从某种意义上体现了这个函数设计的初衷。
但是python中的缺省参数,却隐藏着一个玄机,初学者肯定会在上面栽跟头,而且这个错误非常隐秘。先看看下面这个例子:
例5.2
>>> def foo(par=[]):
... par.append(0)
... print par
...
>>> foo() # 第一次调用
[0]
>>> foo() # 第二次调用
[0, 0]
出了什么问题?这个参数par好像类似与C中的静态变量,累计了以前的结果。是这样吗?当然不是,这都是“对象、名字、绑定”这些思想惹的“祸”。“万物皆对象”,还记得吗?这里,函数foo当然也是一个对象,可以称之为函数对象(与一般的对象没什么不同)。先来看看这个对象有些什么属性。
>>> dir(foo)
['__call__', '__class__', '__delattr__', '__dict__', '__doc__', '__get__', '__getattribute__', '__hash__', '__init__', '__module__', '__name__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__str__', 'func_closure', 'func_code', 'func_defaults', 'func_dict', 'func_doc', 'func_globals', 'func_name']
单从名字上看,“func_defaults”很可能与缺省参数有关,看看它的值。
>>> foo.func_defaults # 显示这个属性的内容
([0, 0],)
>>> foo() # 第三次调用
[0, 0, 0]
>>> foo.func_defaults # 再来看看这个属性
([0, 0, 0],)
果不其然,就是这个序列对象(tuple)包含了所有的缺省参数。验证一下:
>>> def fooM(par1, def1=1, def2=[], def3='str'): # 定义一个有多个缺省参数的函数
... def2.append(0)
... print par1, def1, def2, def3
...
>>> fooM.func_defaults
(1, [], 'str')
在函数定义中有几个缺省参数,func_defaults中就会包括几个对象,暂且称之为缺省参数对象(如上列中的1,[]和'str')。这些缺省参数对象的生命周期与函数对象相同,从函数使用def定义开始,直到其消亡(如用del)。所以即便是在这些函数没有被调用的时候,但只要定义了,缺省参数对象就会一直存在。
前面讲过,函数调用的过程就是对象在另外一个名字空间的绑定过程。当在每次函数调用时,如果没有传递任何参数给这个缺省参数,那么这个缺省参数的名字就会绑定到在func_defaults中一个对应的缺省参数对象上。
>>> fooM(2)
函数fooM内的名字def1就会绑定到func_defaults中的第一个对象,def2绑定到第二个,def3则是第三个。
所以我们看到在函数foo中出现的累加现象,就是由于par绑定到缺省参数对象上,而且它是一个可变对象(列表),par.append(0)就会每次改变这个缺省参数对象的内容。
将函数foo改进一下,可能会更容易帮助理解:
>>> def foo(par=[]):
... print id(par) # 查看该对象的标识码
... par.append(0)
... print par
...
>>> foo.func_defaults # 缺省参数对象的初始值
([],)
>>> id(foo.func_defaults[0]) # 查看第一个缺省参数对象的标识码
11279792 # 你的结果可能会不同
>>> foo()
11279792 # 证明par绑定的对象就是第一个缺省参数对象
[0]
>>> foo()
11279792 # 依旧绑定到第一个缺省参数对象
[0, 0] # 该对象的值发生了变化
>>> b=[1]
>>> id(b)
11279952
>>> foo(b) # 不使用缺省参数
11279952 # 名字par所绑定的对象与外部名字b所绑定的是同一个对象
[1, 0]
>>> foo.func_defaults
([0, 0],) # 缺省参数对象还在那里,而且值并没有发生变化
>>> foo()
11279792 # 名字par又绑定到缺省参数对象上
([0, 0, 0],)
为了预防此类“问题”的发生,python建议采用下列方法:
>>> def foo(par=[]):
... if par is None:
... par = []
... par.append(0)
... print par
使用None作为哨兵,以判断是否有参数传入,如果没有,就新创建一个新的列表对象,而不是绑定到缺省
参数对象上。
6.总结
* python是一种纯粹的面向对象语言。
* 赋值语句是名字和对象的绑定过程。
* 函数的传参是对象到不同名字空间的绑定。
7.参考资料
* 《Dive Into Python》,Mark Pilgrim,http://diveintopython.org, 2003。
* 《Python Objects》,Fredrik Lundh,http://www.effbot.org/zone/python-objects.htm。
* 《An Introduction to Python》,David M. Beazley,http://systems.cs.uchicago.edu/~beazley/tutorial/beazley_intro_python/intropy.pdf。
* 从Python官方网站(http://www.python.org)上可以了解到所有关于Python的知识。