本打算做一个网络爬虫(crawler)的,但水平有限只做了基本的一些功能. 思路: 肯定是要能先通过url连接到http服务器了,然后发送一个"GET url \n"的请求才能下载网页. 之后就是分析网页,比如辨认超链接和搜索关键词.

就是GET 这个东西搞不懂, 有的网页需要给完整的url, 有的只需要相对路径才正确. 怎么才能自动知道需要哪个啊?


source: http://www.cppblog.com/Files/tompson/getwebpage.rar
(写的很烂, 供学习网络编程的同学参考)
Posted on 2007-08-11 14:45 ken 阅读(1845) 评论(2)  编辑 收藏 引用 所属分类: program

Feedback

# re: 网页抓取的程序  回复  更多评论   

2007-08-11 14:51 by XTSHMF
两个都试试阿,哪个行就哪个贝,嘿嘿

# re: 网页抓取的程序  回复  更多评论   

2007-08-11 15:14 by ken
怎么判断哪个行,哪个不行? 有的两个都不行,比如google.com

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理