这一篇简单介绍比赛以及比赛用的数据集。
kddcup 08 是由ACM SIGKDD 主办的年度数据挖掘竞赛,kddcup本身是第一个也是最具历史的数据挖掘竞赛。
今年的数据是由Siemens Medical Solutions USA提供的,这个数据原来是用于早期从x光图像检测乳腺癌。Siemens的这些医疗器械涉及到机器学习算法,因此将这个处理过的(参赛者无法从该数据集中得到与算法无关的其它信息,如Siemens的产品信息等)数据集提供给kddcup 08, 一方面提高自身的声誉,一方面可以将竞赛中优秀的算法应用到实际产品中。
kddcup08的challenge分为2部分,challenge 1是测试FP(False Positive)在02.~0.3区间内的ROC面积(AUC),面积越大越好。challenge 2是测试在TP(True Positive)达到100%时的FP率,这要越小越好,因为这可以在保证没有漏检的情况下,尽量减少人工判断的工作量。