posts - 12, comments - 4, trackbacks - 0, articles - 36

唉,越看越琐碎

Posted on 2005-12-07 12:02 inwind 阅读(277) 评论(0)  编辑 收藏 引用 所属分类: 随想
网页的自动分类,需要考虑的东西很多啊。

分类体系的选择,利用DDC还是中图?还是借鉴yahoo或者google的分类体系?分类层次有多深?

训练文集的选取?哪里来呢,那么多打好标记,并且其分类要与我们的分类相同或者,相似吧

刚开始网页的内容处理,表示,是否考虑超链接,是否考虑html,如何剔出乱其八糟的广告?

网页向量化,又有那么多种权值计算方法,经典的就五个了,还有改进的,估计也有那么五六个比较好的吧?

向量的降维,还好那位帅哥整理过5经典的算法,再加上后来北大那帮人做的实验,经典的几个里面的性能大多清楚了。可是,是不是还有改进的呢?特征提取算法和后面的分类算法组合后的性能参数呢?

ok,然后是分类算法,姑且考虑KNN,还要考虑KNN的参数,K=?,文档之间的距离的计算,文档-类得分的的加权?如何加权?——还有其他的算法呢?

分类完了,还有截取算法,某个文档可以属于哪些类?某个类可以包含哪些文档?这个怎么确定?RCut,PCut还是SCut,还有其他的改进算法吗?

最有,贪心算法在这里面能起作用吗?即每一步,都利用别人的实验,选择最好的算法,可是综合起来,就一定是全局最好的算法吗?

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理