posts - 12, comments - 4, trackbacks - 0, articles - 36

关于系统架构的思考

Posted on 2005-12-12 18:31 inwind 阅读(120) 评论(0)  编辑 收藏 引用
我们要做的是,发现网络热点,跟踪舆情,并且给与预测。同时,要求能够对指定的文档集进行处理,过滤。
   基本过程和xj的差不多,几个有待商榷问题:
1 夏博士所说,软件架构,接口一定要实现定义良好,并且不能被修改,保证以后的更新,维护方便。
2 数据的结构:参考网站分类的一到三级,先将数据分类,再进行聚类,发现新事件,主题(聚类的过程也是分层的,通过调整阈值)
   对于新发现的事件,使用分类算法来跟踪
为什么不能直接聚类完成发现和跟踪的任务?考虑,如果直接聚类,不容易保证事件的稳定性,同时,计算复杂度较高,不宜控制聚类的数目。难以实现实时跟踪。——及时发现,实时跟踪。

3 对于分类的初步打算:
      网站抓新闻
      提取相干tag树,去除噪音
      分词
      对于一些高亮数据进行标记
      特征提取(CHI)
      向量化(tf/idf)
      kNN
      RTCut
      
      

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理