Posted on 2005-12-12 18:31
inwind 阅读(124)
评论(0) 编辑 收藏 引用
我们要做的是,发现网络热点,跟踪舆情,并且给与预测。同时,要求能够对指定的文档集进行处理,过滤。
基本过程和xj的差不多,几个有待商榷问题:
1 夏博士所说,软件架构,接口一定要实现定义良好,并且不能被修改,保证以后的更新,维护方便。
2 数据的结构:参考网站分类的一到三级,先将数据分类,再进行聚类,发现新事件,主题(聚类的过程也是分层的,通过调整阈值)
对于新发现的事件,使用分类算法来跟踪
为什么不能直接聚类完成发现和跟踪的任务?考虑,如果直接聚类,不容易保证事件的稳定性,同时,计算复杂度较高,不宜控制聚类的数目。难以实现实时跟踪。——及时发现,实时跟踪。
3 对于分类的初步打算:
网站抓新闻
提取相干tag树,去除噪音
分词
对于一些高亮数据进行标记
特征提取(CHI)
向量化(tf/idf)
kNN
RTCut