现代生物遗传学中描述的生物进化理论:
遗传物质的主要载体是染色体(chromsome),染色体主要由DNA和蛋白质组成。其中DNA为最主要的遗传物质。
基因(gene)是有遗传效应的片断,它存储着遗传信息,可以准确地复制,也能发生突变,并可通过控制蛋白质的合成而控制生物的状态.生物自身通过对基因的复制(reproduction)和交叉(crossover,即基因分离,基因组合和基因连锁互换)的操作时其性状的遗传得到选择和控制。生物的遗传特性,使生物界的物种能保持相对的稳定;生物的变异特性,使生物个体产生新的性状,以至于形成了新的物种(量变积累为质变),推动了生物的进化和发展。
遗传学算法和遗传学中的基础术语比较
染色体(chromosome) |
数据,数组,序列 |
基因(gene) |
单个元素,位 |
等位基因(allele) |
数据值,属性,值 |
基因座(locus) |
位置,iterator位置 |
表现型(phenotype) |
参数集,解码结构,候选解 |
遗传隐匿(epistasis) |
非线性 |
染色体又可以叫做基因型个体(individuals),一定数量的个体组成了群体(population),群体中个体的数量叫做群体大小。各个个体对环境的适应程度叫做适应度(fitness)
遗传算法的准备工作:
1)数据转换操作,包括表现型到基因型的转换和基因型到表现型的转换。前者是把求解空间中的参数转化成遗传空间中的染色体或者个体(encoding),后者是它的逆操作(decoding)
2)确定适应度计算函数,可以将个体值经过该函数转换为该个体的适应度,该适应度的高低要能充分反映该个体对于解得优秀程度。非常重要的过程!
遗传算法的基本步骤
遗传算法是具有"生成+检测"(generate-and-test)的迭代过程的搜索算法。
基本过程为:
1)编码,创建初始集团
2)集团中个体适应度计算
3)评估适应度
4)根据适应度选择个体
5)被选择个体进行交叉繁殖,
6)在繁殖的过程中引入变异机制
7)繁殖出新的集团,回到第二步
一个简单的遗传算法的例子:求 [0,31]范围内的y=(x-10)^2的最小值
1)编码算法选择为"将x转化为2进制的串",串的长度为5位。(等位基因的值为0 or 1)
2)计算适应度的方法是:先将个体串进行解码,转化为int型的x值,然后使用y=(x-10)^2作为其适应度计算合适(由于是最小值,所以结果越小,适应度也越好)
3)正式开始,先设置群体大小为4,然后初始化群体 => (在[0,31]范围内随机选取4个整数就可以,编码)
4)计算适应度Fi(由于是最小值,可以选取一个大的基准线1000,Fi = 1000 - (x-10)^2)
5)计算每个个体的选择概率.选择概率要能够反映个体的优秀程度.这里用一个很简单的方法来确定选择概率
P=Fi / TOTAL(Fi).
6)选择.
根据所有个体的选择概率进行淘汰选择.这里使用的是一个赌轮的方式进行淘汰选择.先按照每个个体的选择概率创建一个赌轮,然后选取4次,每次先产生一个0-1的随机小数,然后判断该随机数落在那个段内就选取相对应的个体.这个过程中,选取概率P高的个体将可能被多次选择,而概率低的就可能被淘汰.
下面是一个简单的赌轮的例子
13% 35% 15% 37%
----------|----------------------------|------------|-*-------------------------|
个体1 个体2 个体3 ^0.67 个体4
随机数为0.67落在了个体4的端内.本次选择了个体4.
被选中的个体将进入配对库(mating pool,配对集团)准备开始繁殖.
7)简单交叉
先对配对库中的个体进行随机配对.然后在配对的2个个体中设置交叉点,交换2个个体的信息后产生下一代.
比如( | 代表简单串的交叉位置)
( 0110|1, 1100|0 ) --交叉--> (01100,11001)
( 01|000, 11|011 ) --交叉--> (01011,11000)
2个父代的个体在交叉后繁殖出了下一代的同样数量的个体.
复杂的交叉在交叉的位置,交叉的方法,双亲的数量上都可以选择.其目的都在于尽可能的培育出更优秀的后
代
8)变异
变异操作时按照基因座来的.比如说没计算2万个基因座就发生一个变异(我们现在的每个个体有5个基因座.也就是说要进化1000代后才会在其中的某个基因座发生一次变异.)变异的结果是基因座上的等位基因发生了变化.我们这里的例子就是把0变成1或则1变成0.
至此,我们已经产生了一个新的(下一代)集团.然后回到第4步,周而复始,生生不息下去:)
伪代码实例(适合爱看代码的朋友~):
//Init population
foreach individual in population
{
individual = Encode(Random(0,31));
}
while (App.IsRun)
{
//计算个体适应度
int TotalF = 0;
foreach individual in population
{
individual.F = 1000 - (Decode(individual)-10)^2;
TotalF += individual.F;
}
//------选择过程,计算个体选择概率-----------
foreach individual in population
{
individual.P = individual.F / TotalF;
}
//选择
for(int i=0;i<4;i++)
{
//SelectIndividual(float p)是根据随机数落在段落计算选取哪个个体的函数
MatingPool[i] = population[SelectIndividual(Random(0,1))];
}
//-------简单交叉---------------------------
//由于只有4个个体,配对2次
for(int i=0;i<2;i++)
{
MatingPool.Parents[i].Mother = MatingPool.RandomPop();
MatingPool.Parents[i].Father = MatingPool.RandomPop();
}
//交叉后创建新的集团
population.Clean();
foreach Parent in MatingPool.Parents
{
//注意在copy 双亲的染色体时在某个基因座上发生的变异未表现.
child1 = Parent.Mother.DivHeader + Parent.Father.DivEnd;
child2 = Parent.Father.DivHeader + Parent.Mother.DivEnd;
population.push(child1);
population.push(child2);
}
}
小结:
遗传算法中最重要的过程就是选择和交叉。
选择要能够合理的反映"适者生存"的自然法则,而交叉必须将由利的基因尽量遗传给下一代(这个算法很关键!)
还有就是编码的过程要能够使编码后的染色体能充分反映个体的特征并且能够方便计算。
这篇文章是原来学习的一些回忆的整理,因为最近要实用了.不正确的地方还希望大家多多指出~