最新研究搜索引擎了,做点笔记。
搜索引擎一般分为三个模块: 网页搜集、预处理和查询服务。
网页搜集是事先搜集的,在查询的时候再去搜集明显不可能了。而事先搜集又分为定期搜集和增量搜集。定期搜集是个全量的搜集过程,往往更新一次需要很长的时间,基本也不时新了,但是实现无疑要简单点;增量搜集除第一次是全量的外,后续做的就是更新了(包括新增网页,删除过期的,以及更新),实现上要复杂的多。现实上这两种也是相辅相成的,如新闻的搜索要及时更新,但某些学术网站就很少更新了。
网页搜集要解决的问题:
(1)各种类型的网页(html、asp、javascript),各种语种(ascii, utf-8)
(2)网络资源的多样化(文件,图片,文档,音频,视频 etc.)
(3)搜索策略(深度优先,广度优先)
(4)并发搜集(避免对同一站点同一时刻的大量访问,不然就变成Dos攻击了)
(5)避免重复搜集
记录未访问、已访问URL和网页内容摘要信息
域名与IP的对应问题
(6)判断网页的重要程度
1) 网页的入度大,表明被其他网页引用的次数多;
2) 某网页的父网页入度大;
3) 网页的镜像度高,说明网页内容比较热门,从而显得重要;
4) 网页的目录深度小,易于用户浏览到。
posted on 2008-03-04 21:52
merlinfang 阅读(608)
评论(2) 编辑 收藏 引用 所属分类:
搜索引擎