posts - 12, comments - 4, trackbacks - 0, articles - 36

基于多维模式的聚类思考

Posted on 2006-02-09 16:13 inwind 阅读(159) 评论(0)  编辑 收藏 引用

1. 对于项目的理解:系统开发的目的在于及时发现舆论的热点,并且予以预测和跟踪。而项目文档要求的分类指标,是为了方便用户分类使用

2. 发现热点,考虑boss的思路,联想医疗诊断的方法,采用望闻问切多种方法确定病症“热点话题”3.   望闻问切,每种方法都可以查出病症某个方面的特征,而每种方法都不够准确,都有可能得出若干个、错误的结论,但是综合起来考虑,就有更大的概率得出正确的结论。

3. 每个分类计算,可以类比为一种诊断方法,最后通过高维的元聚类,综合考虑各种诊断方法做出较准确的结论。每个分类计算力争做到准确,这样有助于事件的发现和确定。但是,即使具有一定的误差——训练数据本身的分类误差,训练数据不够大,计算距离的方法,分类的方法——只要不是太离谱,应该是可以在一定程度,从一定角度和坐标系中反映出文本的分布,而把抱团文本聚在一起。

4. 上述想法实际上也是多维数据建模的思想

5. 对于项目文档中要求的分类的准确率和召回率,可以将最佳的一个有意义的分类计算来满足

6. 预测,考虑一下回归的拟合

7. 目前考虑到的可用作分类计算的分类体系包括:
  时间:以天为单位
  地点:以省为单位
  政府部门管辖权的分类——参考中央人民政府网站
  Google的分类——参考Google网站分类,新闻分类
  Baidu的分类
  Yahoo的分类
  sohu,sina的分类
8. 训练数据不一定要对所有的分类计算训练,来源不同的训练数据,可以对各自的分类计算进行训练——实时的更新数据,跟踪新话题,发现新概念


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理