二、网络抓虫
网页页面划分为5个部分:
1、已下载
2、已过期
3、待下载
4、可知网页集合,未下载,但可索引
5、不可知网页集合,暗网网页
爬虫分三种类型:
1、批量型:有明确的抓取范围和目标,当达到这个目标后停止抓取
2、增量型:不断抓取,抓取到以后定期更新
3、垂直型:抓取特定行业网页
优秀爬虫的特性:高性能、可扩展(良好的并发性)、健壮性、友好性(遵守Robot协议)
评价爬虫质量的标准:覆盖率,时新性,重要性
抓取策略:优先选择重要网页进行抓取
1、宽度优先遍历策略,虽然机械,但是效果好,隐含了一些网页优秀级的假设
2、非完全PageRank策略,对已下载网页集合,加上待抓取URL,形成网页集合,进行PageRank计算,将待抓取按得分进行排序
3、OCIP策略,在线页面重要性计算,待下载页面都分配相同的cash,下载后把页面拥有的现金平分给包含的链接,
待抓取URL则根据手头现金排序,优先下载最充裕网页。计算速度快,适合实时计算,效果略优于宽度优先
4、大站优先策略,哪个网站等等下载的页面最多,则优先下载这些链接,效果略优于宽度优先
网页更新策略
1、历史参考策略,过去频繁更新的网页,将来也会频繁更新,利用泊松过程
抓取策略应该忽略掉广告或导航等非重要区域的频繁变化,集中在主题内容的变化探测和建模
2、用户体验策略,对搜索结果排名靠前,更新以后对搜索质量(排名)的影响较大的页面进行更新
3、聚类抽样策略,先对网页进行聚类,对同一类网页采用相同的更新频率
聚类特征:
静态特征,页面的内容,图片数量,页面大小,链接深度,PageRank值
动态特征,随着时间的变化 ,静态特征的变化情况
聚类抽样策略效果好于前述两种,但是对亿计网页进行聚类,难度较大
暗网抓取
将暗网数据从数据库中挖掘出来,百度的“阿拉丁”计划就是解决此问题
查询组合:Google提出富含信息查询模板技术,使用富含信息查询模板进行查询,获取有效的网页结果
富含信息查询模板:对于某固定的查询模板来说,如果给模板内每个属性都赋值,形成不同的查询组合,其返回内容差异较大,则这个查询模板为富含信息查询模板
分布式爬虫
主从分布式:URL服务器容易成为整个系统的瓶颈
对等分布式:没有URL服务器存在,每台抓取服务器的分工成为问题,对网址的主域名进行哈希计算,之后对m服务器数量取模,把计算后的模和抓取服务器号匹配
一致性哈希算法:将网站主域名进行哈希,映射到0~2^32之间某个数值,抓取服务器负责这个环状序列的一个片段的抓取,抓取内容由上一个服务器进行循环转发
posted on 2013-09-13 11:10
胡满超 阅读(560)
评论(0) 编辑 收藏 引用 所属分类:
搜索引擎