posts - 12, comments - 4, trackbacks - 0, articles - 36

文本分类与舆情分析

Posted on 2005-12-08 21:11 inwind 阅读(1316) 评论(2)  编辑 收藏 引用

   项目的终极目标是舆情分析,为主管部门及时掌握网络舆论情况,以及了解舆论发展的时间和空间上的发生发展情况。所作的工作必须以此为判断的唯一标准。
   
   分类,首先要有个分类体系,现在掌握的情况是,分类是根据学科体制,在分类树的某个节点上,按照唯一的标准进行分类。
   
   但是,人类知识本身就是浑然一体的,存在大量的交叉,甚至不同领域研究同一对象,甚至使用相同或者相似方法。(这时感觉,徐小栋老师的说法还是对的,呵呵,知识是浑然一体的,分类是人工雕琢,但是为了掌握的方便,只好如此了)。
   更何况,网络信息的多样性,随意性,以及贴近生活,使得网络信息,尤其是新闻,难以按照学科体制分类,或者很不适合用学科体制分类。
   例如,管理部门想要了解民众对神六的看法,讨论和关注程度,以及关注的方面。但是按照分类体系,神六对经济的影响属于经济类,对外交的影响属于政治类,对民俗的影响又属于文化类。这样,对于管理部门,可能是不想要得结果。
   
   又考虑到了主题的概念,一篇文章举的例子,地震是主题,但是,唐山地震又是另外的概念,事件;载人航天是主题,但是神六上天又是事件。没有人给出确切的定义。
   可否这样定义呢:主题,是关于一个较为抽象概念的所有文章。
   事件,是关于一个确切的事件。
   
   但是,问题是,较为抽象的概念,分类的定义就是,对概念进行划分,概念是关于本质属性的反应。本质属性呢,就是决定一个事物或者一类事物不是其他的决定性属性。主题和分类还是有些混乱啊。

   现在想了两种方案,
一是分大类,仅一级,分个十几二十类,然后在下面进行聚类和事件发现跟踪。
二是分得比较细,仿照北大或者google的三级分类,然后进行聚类和事件发现跟踪,然后给出事件发现跟踪的结果。

哪一个比较好呢,似乎第一类,简单分类后,对于聚类和事件发现跟踪的影响小。
但是,新闻的特征向量如何选取呢,理论上分类和聚类的要求是相同的,但是肯定会有细微的差别,更何况聚类还需要考虑新闻的时间分布。

另外一个问题了,事件发现需要利用新闻事件的时间特性,但是,在比较长一段时间内,关于一系列事件的主题,如何挖掘呢,比如,矿难。——给每个新闻事件确定一个特征向量,然后对事件的特征向量进行聚类?

嗯,继续研究继续研究

Feedback

# re: 文本分类与舆情分析  回复  更多评论   

2007-01-23 21:24 by youyou
最近准备研究文本分类,能否给与赐教?不知道有没有文本分类的代码,可否给我一份,谢谢!myyouyou1979@126.com

# re: 文本分类与舆情分析  回复  更多评论   

2008-04-20 16:44 by 发达省份
zhaiyongzy@126.com
我也想要文本分类相关算法

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理