今天六一,C小加不在身边,混球啊。任务需要在看曼宁的《统计自然语言处理基础》。然后用到互信息,每次我觉得好高深的名字,做下去的时候就发现没有那么难。
搭配
搭配由有限的复合构词法所描述。
识别搭配对的方法有三种:1.使用频率信息的搭配识别。2.基于含义和主词搭配词之间的距离识别。3.基于假设测试和互信息的识别。
1.频率
将语料过滤后得到的动词,名词,之间进行两两配对,统计每个词语在一个句子,或在一个段落中出现的次数,即为频率。
2.均值和方差
由于两个词之间的距离是可以变化的,计算两个词之间的偏移量的均值和方差。
均值就是简单的平均偏移量。
方差衡量的是单独的偏移量偏离均值的距离:
是同现i的偏移量,表示的是样本偏移量的均值。
我们可以通过使用这个信息来发现搭配。具体的方法是通过寻找带有低偏差的词对。一个低的偏差值意味着这两个词通常大致相同距离出现。零偏差意味着这两个词总是以相同的距离出现。
方差是关于一个相对于其他词分布峰值情况的度量。
关于互信息
互信息的计算公式是这样的:
MI(a,b) = log( p(ab) / (p(a)*p(b)) )
其中log的底数是2,p(x)表示x出现的概率。
好吧,好水,好简单。。着手写代码了。