Python 抓取网页的库和工具

Twisted

抓网页，它有优秀的非同步事件驱动的架构，常见的协定都已经有实做，包括HTTP、SMTP等等

getPage("http://www.google.com").addCallback(printPage)

一行就可以抓网页

lxml

效率高，支持xpath

def getNextPageLink(self, tree):

"""Get next page link

@param tree: tree to get link

@return: Return url of next page, if there is no next page, return None

"""

paging = tree.xpath("//span[@class='paging']")

if paging:

links = paging[0].xpath("./a[(text(), '%s')]" % self.localText['next'])

if links:

return str(links[0].get('href'))

return None

listPrice = tree.xpath("//*[@class='priceBlockLabel']/following-sibling::*")

if listPrice:

detail['listPrice'] = self.stripMoney(listPrice[0].text)

使用的工具

FireFox的插件，XPath checker等xpath的工具，可以先用它来确定抓到的元素是正确的，然后FireBug在检视网页结构

posted on 2014-03-06 00:01 AlanTop 阅读(586) 评论(1) 编辑收藏引用所属分类: 计算机应用

# re: Python 抓取网页的库和工具 回复 更多评论

然后FireBug在检视网页结构

2014-12-10 09:12 | http://www.valbuena.fr

刷新评论列表

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！

相关文章: 新装计算机安装环境 windows下断掉samba共享 windows 获取系统和cpu信息测试cpu性能和显卡性能的工具 win7 win2012修改默认的3389远程端口 Win系统 - 该死！WebGL 遇到了问题 (chrome浏览器) mongodb模糊查询 frp内网穿透远程连接 python3 通过tcp远程控制服务器执行命令 windows server 2012激活方法

网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理

# re: Python 抓取网页的库和工具 回复 更多评论

alantop -专业量化投资者