Posted on 2005-12-07 10:39
inwind 阅读(342)
评论(0) 编辑 收藏 引用 所属分类:
数据挖掘
今天总算拜读了Prof. Zhou的three perspectives of datamining
http://cs.nju.edu.cn/people/zhouzh/zhouzh.files/publication/aij03.pdf
我觉得这篇文章可以解答我们前面提到数据挖掘与机器学习和统计之间的关系。
为了给没有时间读的人一个大略的了解,我就摘要翻译一下(加了我的理解)
,如果有疑惑还请读完原文后再对他的文章作评论。
(本文不当之处,敬请指出,为了我,也为了大家。)
1.本文介绍了从DB(Database)、ML(machine learning)和ST(Statistical)
三个角度研究DM(Datamining)的特点。
这个特点是DB注重挖掘的efficency效率、ML注重挖掘的effectiveness效果、
ST注重挖掘的validation有效性。
2.他的这个观点是通过对三本书的评述来阐明的
三本书是a.J.Han and M.Kamber's Datamining: Concepts and techniques
从数据库角度来写的
b. I. H. Witten and E. Frank's Datamining:practical machine learning tools
and techniques with java implementations 从机器学习角度写的
c.D. Hand, H. Mannila, and P. Smyth, principles of Datammining
从统计的角度写的。
3.讨论这三本书的写作思路之前,要了解DM跟KDD(knowledge discovery in databases)
关系。Han的书是认为DM等同于KDD,所以整本书从从一个数据库系统的角度来写,
注重系统的完整性和效率。认为在数据库之外的算法很少考虑效率。 Witten的书认为
DM是KDD的一个环节,书中关注算法,所以更注重实际应用效果。而Hand的书从
认为DM是KDD的一个核心环节,从数学角度,更注重数据挖掘的有效性。
关于DM跟DB、ML和ST的关系,DB跟DM、ML、ST的区别是明显的,而ML、ST跟DM的区别
在于data volume bing processed(数据量?-GzLi),ML跟ST的区别是
研究方法领域的不同,ML理论与实践结合,ST比较注重理论。但是ST在数据挖掘中
还是占有重要基础地位的。
4.对于三本书,周认为han的书适合作教材,witten的书适合做主要读物,而
hand的书是高级读物。
5.只从这三本书就得出上述观点,有些不充分,但是是一个尝试。