posts - 12, comments - 4, trackbacks - 0, articles - 36
根据boss的想法,开始考虑多分类方法综合的问题。

首先看了一下台湾人总结的影响分类效果的12种因素,感觉应该不止那些,果然,呵呵

刚刚看了针对kNN的综合方法,通过综合使用不同的距离计算公式来达到良好的效果。

文中除了欧几里德距离外(有缺点,当某一个量太大的时候,会使得其他量起作用),还使用了:

Heterogeneous Euclidean-OverlapMetric (HEOM):这里面考虑的名词性的特征以及,对欧几里德距离中向量的归一化(除以他们最大可能值和最小可能值的距离)

Value Difference Metric (VDM):适用于名词性的特征,不利于使用到连续数字特征中。但是有相关的改进(Wilson, D. Randall, & Tony R.Martinez, “Improved Heterogeneous Distance Functions”,Journal of Artificial Intelligence Research, Vol. 6, No. 1, pp. 1-34, 1997.)

然后,对于kNN,取k为3,适用六种距离算法,通过简单投票来决定文章类的归属,得出来比较好的结果。

开拓了一种思路,虽然这个多距离测量不一定能用上,但是是个不错的启发。

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理