Posted on 2005-12-08 21:11
inwind 阅读(1310)
评论(2) 编辑 收藏 引用
项目的终极目标是舆情分析,为主管部门及时掌握网络舆论情况,以及了解舆论发展的时间和空间上的发生发展情况。所作的工作必须以此为判断的唯一标准。
分类,首先要有个分类体系,现在掌握的情况是,分类是根据学科体制,在分类树的某个节点上,按照唯一的标准进行分类。
但是,人类知识本身就是浑然一体的,存在大量的交叉,甚至不同领域研究同一对象,甚至使用相同或者相似方法。(这时感觉,徐小栋老师的说法还是对的,呵呵,知识是浑然一体的,分类是人工雕琢,但是为了掌握的方便,只好如此了)。
更何况,网络信息的多样性,随意性,以及贴近生活,使得网络信息,尤其是新闻,难以按照学科体制分类,或者很不适合用学科体制分类。
例如,管理部门想要了解民众对神六的看法,讨论和关注程度,以及关注的方面。但是按照分类体系,神六对经济的影响属于经济类,对外交的影响属于政治类,对民俗的影响又属于文化类。这样,对于管理部门,可能是不想要得结果。
又考虑到了主题的概念,一篇文章举的例子,地震是主题,但是,唐山地震又是另外的概念,事件;载人航天是主题,但是神六上天又是事件。没有人给出确切的定义。
可否这样定义呢:主题,是关于一个较为抽象概念的所有文章。
事件,是关于一个确切的事件。
但是,问题是,较为抽象的概念,分类的定义就是,对概念进行划分,概念是关于本质属性的反应。本质属性呢,就是决定一个事物或者一类事物不是其他的决定性属性。主题和分类还是有些混乱啊。
现在想了两种方案,
一是分大类,仅一级,分个十几二十类,然后在下面进行聚类和事件发现跟踪。
二是分得比较细,仿照北大或者google的三级分类,然后进行聚类和事件发现跟踪,然后给出事件发现跟踪的结果。
哪一个比较好呢,似乎第一类,简单分类后,对于聚类和事件发现跟踪的影响小。
但是,新闻的特征向量如何选取呢,理论上分类和聚类的要求是相同的,但是肯定会有细微的差别,更何况聚类还需要考虑新闻的时间分布。
另外一个问题了,事件发现需要利用新闻事件的时间特性,但是,在比较长一段时间内,关于一系列事件的主题,如何挖掘呢,比如,矿难。——给每个新闻事件确定一个特征向量,然后对事件的特征向量进行聚类?
嗯,继续研究继续研究