中文分词看似简单,但其实不是一个小课题,我想在中文分词上研究的绝不是一个两个人就可以搞定的事情,不过因时置地的开发适合自己用的分词也是不错的打算。不过能够借用别人的研究结果而最大化的达到效果则也是一种办法。
如果非要投入到中文分词的研究中,就不能单纯的在分词中分词.如很多时候我们自己读一篇难以歧义的句子,都是通过上下文来判断的,估计那个时候的分词则是人工智能的领域.
下面全面介绍下其中文分类的细节
1. 如何进行分词?
最容易想到的办法是,用一个大词典,把所有的词都存入词典中,扫描输入的文本,查找所有可能的词,然后看哪个词可以做为输出。例如:
输入文本: 我是学生
词: 我/是/学生
其实这样做了以后,可以解决60%的问题。总结起来,分词的算法分为:
1. 基于字符串匹配的分词方法
2. 基于理解的分词方法
3. 基于统计的分词方法
关于这3种算法的详细介绍,可以查看中文分词技术.
2.分词的问题
1.通用词表和切分规范
信息处理中分词单位的定义比传统意义上的词更宽泛些。分词系统可以面向解决实际问题的需求和真实语料中使用的频繁程度来规定“分词单位”。而传统词语是可能不包含所有的词语的,例如,一些人名、地名、机构名、外国人译名,应予以识别和切分。一些动词和形容词重叠结构,如“高高大大”、“甜甜蜜蜜”等;一些附加词,如后缀,“亲和性”、“热敏性”等;都可以作为分词单位予以识别和切分。故对于一个分词系统而言,制定一个一致性的分词单位切分规范是需要考虑的.
2.歧义切分字段
文本中歧义切分字段的判别。汉语中歧义切分字段最基本有两种类型:
交集型歧义字段,如:“中国/人”,“中/国人”两种切分结果。 组合型歧义。如:“有/才能/”。“他/才/能/告诉/你”
3.未登录词识别(新词)
语言的发展和变化,以及词的衍生现象非常普遍,不可能都收入辞典中。特别是人名、地名等专有名词,在文本中有非常高的使用频度和比例。
3.中文分词解决方法
a.处理新词。
如:2003年之前,没有人知道"非典
"。"非典"刚出现的时候,这就是新词。还有"超女",
"三个代表","芙蓉姐姐"。识别新词的能力是评估一个分词系统的重要指标。在国际上每年进行的分词大赛中,识别新词的比赛也单独提出。2006年
SIGHAN的分词大赛中,就增添了对于机构名识别的比赛。
识别新词是最近几年分词技术研究的重点。总结起来,无非分成两种:
1. 基于规则的方法。
2. 基于统计、机器学习。
拿人名识别为例。你不可能把所有的人名都放入词典中,这决定了人名注定会是新词。从人名构造来说,很有规律:姓+名。张王刘李陈、天下一半人。也就是说可
能有一半的人,是这五个姓。名也有一定规律:建华/建国/志强.....等有许多经常用于名字中的汉字;对于地名识别也可以找出很多规则,省/县/村/镇
/湾/河等,都是很常用的后缀,如果他们出现,之前出现地名的可能性比较大。如果把这些规律转化成计算机能识别的算法,就是基于规则的算法。这种基于规则
的算法简单有效,而且发现规则可很方便加入。
规则总会有例外,规则过多以后,如何去权衡这些规则,会是十分头疼的问题。人们试着告诉计算机目标,让计算机自己去尝试各种方法组合这些规则并得到最优参
数,这就机器学习。随着Machine
Learning(机器学习)技术的不断进步,其应用范围也越来越广,中文分词算法也从中受益。ANN(人工神经网络), 最大熵模型,
HMM(隐马尔可夫模型)等算法都在新词识别中有应用。
通过机器学习识别新词的原理并不复杂。一般都是先定义一些特征,然后利用训练语料进行学习,建立模
型。还是以人名识别为例,可以定义姓名前面的字、姓、名、姓名后面的字做为特征,通过利用标注好姓名的语料库进行学习训练。
机器学习识别新词的好处在于自动寻找一些识别新词的特征,其准确度和召回率都能达到比较高的水平。但机器学习算法需要有足够多的训练语料,人工准备准确的
大规模的训练语料也会十分困难。另外,机器学习算法一般速度会比较慢,优化速度,使之用于海量数据处理,也是使用机器学习的一个关键点。
4.目前分词广泛的方法
1.基于词表的分词-最大匹配(MM)
这是一种有着广泛应用的机械分词方法,该方法依据一个分词词表和一个基本的切分评估原则,即“长词优先”原则,来进行分词。这种评估原则虽然在大多数情况下是合理的,但也会引发一些切分错误。根据我们小规模测试的结果,其正确率为95.422%,速度为65,000字/分钟。
这种切分方法,需要最少的语言资源(仅需一个词表,不需要任何词法、句法、语义知识),程序实现简单,开发周期短,是一个简单实用的方法。
2.基于统计的分词
这种方法首先切分出与词表匹配的所有可能的词,这种切分方法称为“全切分”,运用统计语言模型和决策算法决定最优的切分结果。
这种方法的优点是可以发现所有的切分歧义,但是解决歧义的方法很大程度上取决于统计语言模型的精度和决策算法。需要大量的标注语料,并且分词速度也因搜索空间的增大而有所缓慢。根据我们小规模测试的结果,其正确率为96.252%。分词速度为:40,000字/分钟。
3.基于规则和基于统计相结合
这种方法首先运用最大匹配作为一种初步切分,再对切分的边界处进行歧义探测,发现歧义。再运用统计和规则结合的方法来判别正确的切分,运用不同的规则解决人名、地名、机构名识别,运用词法结构规则来生成复合词和衍生词。
这段话来自微软开发分词的一段.