Posted on 2005-12-07 16:24
inwind 阅读(531)
评论(0) 编辑 收藏 引用 所属分类:
数据挖掘
信息提取(Information Extraction)的定义是指从一段文本中抽取指定的一类信息(例如事件、事实)、并将其(形成结构化的数据)填入一个数据库中供用户查询使用的过程。
与其他信息处理技术的关系
信息检索(Information Retrieval) :只是找出满足一定检索条件(query)的整篇文档或段落,而人们仍然必须阅读所找到的每一个文档或段落才能获得所需要的信息。
自动文摘、文本理解 :自动文摘和文本理解则没有预先规定目标的特性,需要对多种多样的内容进行分析和处理。
信息提取的方针:识别实体,确定关系
信息提取由简到繁:
单个实体:找出所有人名;找出所有email;找出所有大学......
二元关系实体:XXX的电话(地址,email),位于某地的所有公司.....
多元关系实体:把所有报道恐怖活动的报道都找出来(IR),并按照事件的地点/时间/参与者/…分类、排序;
信息提取的基础设施
词典、词切分和词性标注
制作一个规模适当、分级合理并可灵活配置的词典是建造中文信息提取系统的第一步;
适用于中文信息提取的短语句法及语义分析
包括句法成分的识别与标引,关键词提取,检索特征集的提取、索引等。
适用于信息提取的句群分析与篇章表示
这些技术包括表达句间成分的传递,指代、引用信息表的建立和使用,"this指针"(当前语义焦点focus)的维护,以及概念关系的推理等。