Posted on 2005-12-07 12:02
inwind 阅读(277)
评论(0) 编辑 收藏 引用 所属分类:
随想
网页的自动分类,需要考虑的东西很多啊。
分类体系的选择,利用DDC还是中图?还是借鉴yahoo或者google的分类体系?分类层次有多深?
训练文集的选取?哪里来呢,那么多打好标记,并且其分类要与我们的分类相同或者,相似吧
刚开始网页的内容处理,表示,是否考虑超链接,是否考虑html,如何剔出乱其八糟的广告?
网页向量化,又有那么多种权值计算方法,经典的就五个了,还有改进的,估计也有那么五六个比较好的吧?
向量的降维,还好那位帅哥整理过5经典的算法,再加上后来北大那帮人做的实验,经典的几个里面的性能大多清楚了。可是,是不是还有改进的呢?特征提取算法和后面的分类算法组合后的性能参数呢?
ok,然后是分类算法,姑且考虑KNN,还要考虑KNN的参数,K=?,文档之间的距离的计算,文档-类得分的的加权?如何加权?——还有其他的算法呢?
分类完了,还有截取算法,某个文档可以属于哪些类?某个类可以包含哪些文档?这个怎么确定?RCut,PCut还是SCut,还有其他的改进算法吗?
最有,贪心算法在这里面能起作用吗?即每一步,都利用别人的实验,选择最好的算法,可是综合起来,就一定是全局最好的算法吗?