网络上关于增量搜集网页的资料比较少,可能还不成熟的原因。
偶有所感啊。。。。
获取url之后,存放在visittable中,并保存本次的指纹信息。
需要根据它的重要程度,初步估算一个搜集间隔。
当到达下次搜集时间,则搜集它,这个时候,根据上下两次的
指纹,判断是否有网页是否有变化,以调整搜集间隔。
举例:第一次间隔10天,10天后搜集发现有变化,则调整间隔为5天。
5天后搜集发现无变化,则调整间隔为7.5天,以得到一个差不多的值。
网站的重要程度也是一个方面,比如专门搜索mp3的搜索引擎,可以把
根本没有mp3的网站列入无效网站,把mp3较多的网站列为专业网站,
缩小搜索间隔。
visittable表结构:
URLCode |
URL |
nextTime |
interval |
preInterval |
finger |
|
|
|
|
|
|
posted on 2008-05-22 22:23
merlinfang 阅读(374)
评论(0) 编辑 收藏 引用 所属分类:
搜索引擎