学着站在巨人的肩膀上

金融数学,InformationSearch,Compiler,OS,

  C++博客 :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  12 随笔 :: 0 文章 :: 8 评论 :: 0 Trackbacks

通过前面的三篇文章相信你已经对神秘的搜索引擎有了一个感性的认识,和普通的php类似的脚本语言服务器类似,通过获取前台关键字,通过字典分词,和事先建立建立好的倒排索引进行相关性分析,得出查询结构格式化输出结果。而这里的技术难点在于

1、字典的选取(事实上根据不同时代不同地方人们的语言习惯是不一样的所以说字典的最小元的取值是不同的)

2、倒排索引的建立(这里就要涉及到爬虫的抓取和索引的建立后面将重点介绍这2点,搜索引擎的效率和服务质量实效性瓶颈在这里)

3、相关性分析(对抓回来的文档分词建索引和用户关键字分词算法上要对应)

后面文章会重点介绍爬虫的抓取和索引的建立。

posted on 2009-12-10 22:54 学者站在巨人的肩膀上 阅读(978) 评论(0)  编辑 收藏 引用 所属分类: 中文文本信息处理

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理