Posted on 2006-02-09 16:13
inwind 阅读(159)
评论(0) 编辑 收藏 引用
1. 对于项目的理解:系统开发的目的在于及时发现舆论的热点,并且予以预测和跟踪。而项目文档要求的分类指标,是为了方便用户分类使用
2. 发现热点,考虑boss的思路,联想医疗诊断的方法,采用望闻问切多种方法确定病症“热点话题”3. 望闻问切,每种方法都可以查出病症某个方面的特征,而每种方法都不够准确,都有可能得出若干个、错误的结论,但是综合起来考虑,就有更大的概率得出正确的结论。
3. 每个分类计算,可以类比为一种诊断方法,最后通过高维的元聚类,综合考虑各种诊断方法做出较准确的结论。每个分类计算力争做到准确,这样有助于事件的发现和确定。但是,即使具有一定的误差——训练数据本身的分类误差,训练数据不够大,计算距离的方法,分类的方法——只要不是太离谱,应该是可以在一定程度,从一定角度和坐标系中反映出文本的分布,而把抱团文本聚在一起。
4. 上述想法实际上也是多维数据建模的思想
5. 对于项目文档中要求的分类的准确率和召回率,可以将最佳的一个有意义的分类计算来满足
6. 预测,考虑一下回归的拟合
7. 目前考虑到的可用作分类计算的分类体系包括:
时间:以天为单位
地点:以省为单位
政府部门管辖权的分类——参考中央人民政府网站
Google的分类——参考Google网站分类,新闻分类
Baidu的分类
Yahoo的分类
sohu,sina的分类
8. 训练数据不一定要对所有的分类计算训练,来源不同的训练数据,可以对各自的分类计算进行训练——实时的更新数据,跟踪新话题,发现新概念