随笔 - 79  文章 - 58  trackbacks - 0
<2008年1月>
303112345
6789101112
13141516171819
20212223242526
272829303112
3456789

常用链接

留言簿(9)

随笔分类

随笔档案

文章档案

相册

搜索

  •  

积分与排名

  • 积分 - 294107
  • 排名 - 87

最新评论

阅读排行榜

评论排行榜

最新研究搜索引擎了,做点笔记。

搜索引擎一般分为三个模块: 网页搜集、预处理和查询服务。

网页搜集是事先搜集的,在查询的时候再去搜集明显不可能了。而事先搜集又分为定期搜集和增量搜集。定期搜集是个全量的搜集过程,往往更新一次需要很长的时间,基本也不时新了,但是实现无疑要简单点;增量搜集除第一次是全量的外,后续做的就是更新了(包括新增网页,删除过期的,以及更新),实现上要复杂的多。现实上这两种也是相辅相成的,如新闻的搜索要及时更新,但某些学术网站就很少更新了。

网页搜集要解决的问题:
(1)各种类型的网页(html、asp、javascript),各种语种(ascii, utf-8)

(2)网络资源的多样化(文件,图片,文档,音频,视频 etc.)
(3)搜索策略(深度优先,广度优先)
(4)并发搜集(避免对同一站点同一时刻的大量访问,不然就变成Dos攻击了)

(5)避免重复搜集
          记录未访问、已访问URL和网页内容摘要信息

          域名与IP的对应问题 
(6)判断网页的重要程度

         1) 网页的入度大,表明被其他网页引用的次数多;
         2) 某网页的父网页入度大;
         3) 网页的镜像度高,说明网页内容比较热门,从而显得重要;
         4) 网页的目录深度小,易于用户浏览到。

posted on 2008-03-04 21:52 merlinfang 阅读(608) 评论(2)  编辑 收藏 引用 所属分类: 搜索引擎

FeedBack:
# re: 搜索引擎-网页搜集(1) 2008-05-19 11:54 苦恼
导师让做个网络爬虫,可是我用JAVA实在是没弄出来
您能指点下吗??我的QQ271244426
留下您的可以吗??  回复  更多评论
  
# re: 搜索引擎-网页搜集(1) 2009-08-22 22:55 nguany
我们看的是同一本书。。  回复  更多评论
  

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理