稳定盈利的期货交易方法-量化趋势交易

alantop -专业量化投资者

爱好:量化投资,逆向工程,渗透
随笔 - 595, 文章 - 0, 评论 - 921, 引用 - 0
数据加载中……

Python 抓取网页的库和工具

Twisted
抓网页,它有优秀的非同步事件驱动的架构,常见的协定都已经有实做,包括HTTP、SMTP等等
getPage("http://www.google.com").addCallback(printPage)
一行就可以抓网页
lxml
效率高,支持xpath
def getNextPageLink(self, tree):
    """Get next page link
    @param tree: tree to get link
    @return: Return url of next page, if there is no next page, return None
    """
    paging = tree.xpath("//span[@class='paging']")
    if paging:
        links = paging[0].xpath("./a[(text(), '%s')]" % self.localText['next'])
        if links:
            return str(links[0].get('href'))
    return None
listPrice = tree.xpath("//*[@class='priceBlockLabel']/following-sibling::*")
if listPrice:
    detail['listPrice'] = self.stripMoney(listPrice[0].text)
使用的工具
FireFox的插件,XPath checker等xpath的工具,可以先用它来确定抓到的元素是正确的,然后FireBug在检视网页结构

posted on 2014-03-06 00:01 AlanTop 阅读(586) 评论(1)  编辑 收藏 引用 所属分类: 计算机应用

评论

# re: Python 抓取网页的库和工具  回复  更多评论   

然后FireBug在检视网页结构
2014-12-10 09:12 | http://www.valbuena.fr

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理