尼克舅姑

Nick9Gu

{NLP}最大概率分词问题及其解法

最大概率分词问题及其解法,hit的刘挺等,1998

这篇文章前面给出的一些模型对我这个新手来说不错。后面对问题的解决一般。
第一个问题是找分割点,这个很简单,在找到每个点的最远距离后,O(n)扫一遍就可以了。
第二个问题是每个字段内的最优概率计算。这个如果按原有的概率算比较难,n-gram的n不确定,不过他这里用的是unigram
这样就简单多了。。取log以后最短路,dp啥的爱咋搞咋搞。


posted on 2009-06-06 12:00 Nick9Gu 阅读(1621) 评论(5)  编辑 收藏 引用 所属分类: {IR-NLP-Data Mining}{论文看看看}

评论

# re: {NLP}几篇关于分词的论文的笔记,随时更新 2009-06-06 16:58 argmax

看看SIGHAN的论文吧!  回复  更多评论   

# re: {NLP}几篇关于分词的论文的笔记,随时更新 2009-06-06 22:13 stucsz

是哪几篇文章,能给出处吗?  回复  更多评论   

# re: {NLP}几篇关于分词的论文的笔记,随时更新 2009-06-07 11:36 argmax

你的描述中都没有涉及到特征的选取,更没有涉及模型。而这两个方面对于现在的概率分词是关键中的关键。至于第二个问题,如果满足一阶马尔可夫性质,都可以使用Viterbi解码,解码的复杂度是O(nk^2),这里n是句子的长度,对于简单的分词为2(当然可以更大)。
SIGHAN的论文可以在网上找到。  回复  更多评论   

# re: {NLP}几篇关于分词的论文的笔记,随时更新 2009-06-07 11:38 argmax

http://aclweb.org/anthology-new/sighan.html  回复  更多评论   

# re: {NLP}几篇关于分词的论文的笔记,随时更新[未登录] 2009-06-07 23:34 Nick9Gu

@argmax
对,最近都在看,只是还没更新上去,呵呵~
那篇论文相对早的了,没太复杂。  回复  更多评论   


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理


导航

<2009年10月>
27282930123
45678910
11121314151617
18192021222324
25262728293031
1234567

统计

常用链接

留言簿(1)

随笔分类

随笔档案

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜