inwind

posts - 12, comments - 4, trackbacks - 0, articles - 36

关于系统架构的思考

Posted on 2005-12-12 18:31 inwind 阅读(128) 评论(0) 编辑收藏引用

我们要做的是，发现网络热点，跟踪舆情，并且给与预测。同时，要求能够对指定的文档集进行处理，过滤。
   基本过程和xj的差不多，几个有待商榷问题：
1 夏博士所说，软件架构，接口一定要实现定义良好，并且不能被修改，保证以后的更新，维护方便。
2 数据的结构：参考网站分类的一到三级，先将数据分类，再进行聚类，发现新事件，主题（聚类的过程也是分层的，通过调整阈值）
   对于新发现的事件，使用分类算法来跟踪
为什么不能直接聚类完成发现和跟踪的任务？考虑，如果直接聚类，不容易保证事件的稳定性，同时，计算复杂度较高，不宜控制聚类的数目。难以实现实时跟踪。——及时发现，实时跟踪。

3 对于分类的初步打算：
      网站抓新闻
      提取相干tag树，去除噪音
      分词
      对于一些高亮数据进行标记
      特征提取（CHI）
      向量化（tf/idf）
      kNN
      RTCut

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！



网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理

inwind

导航

常用链接

留言簿(1)

随笔分类

随笔档案

文章分类

文章档案

收藏夹

C++

Linux

数据挖掘与文本分类

搜索引擎

搜索

最新评论

阅读排行榜

评论排行榜

关于系统架构的思考