随笔-23  评论-73  文章-3  trackbacks-0

需要做多线程断点续传模块,本来想找RFC文档,但网上搜索到这篇文章,感觉很详解

一、连接至Web服务器
一个客户端应用(如Web浏览器)打开到Web服务器的HTTP端口的一个套接字(缺省为80)。

例如:http://www.myweb.com:8080/index.html
在Java中,这将等同于代码:
Soceet socket=new Socket("www.myweb.com",8080);
InputStream in=socket.getInputStream();
OutputStream out=socket.getOutputStream();

二、发送HTTP请求
通过连接,客户端写一个ASCII文本请求行,后跟0或多个HTTP头标,一个空行和实现请求的任意数据。
一个请求由四个部分组成:请求行、请求头标、空行和请求数据
1.请求行:请求行由三个标记组成:请求方法、请求URI和HTTP版本,它们用空格分隔。
例如:GET /index.html HTTP/1.1
HTTP规范定义了8种可能的请求方法:
GET            检索URI中标识资源的一个简单请求
HEAD            与GET方法相同,服务器只返回状态行和头标,并不返回请求文档
POST            服务器接受被写入客户端输出流中的数据的请求
PUT            服务器保存请求数据作为指定URI新内容的请求
DELETE            服务器删除URI中命名的资源的请求
OPTIONS        关于服务器支持的请求方法信息的请求
TRACE            Web服务器反馈Http请求和其头标的请求
CONNECT        已文档化但当前未实现的一个方法,预留做隧道处理
2.请求头标:由关键字/值对组成,每行一对,关键字和值用冒号(:)分隔。
请求头标通知服务器有关于客户端的功能和标识,典型的请求头标有:
User-Agent        客户端厂家和版本
Accept            客户端可识别的内容类型列表
Content-Length    附加到请求的数据字节数
3.空行:最后一个请求头标之后是一个空行,发送回车符和退行,通知服务器以下不再有头标。
4.请求数据:使用POST传送数据,最常使用的是Content-Type和Content-Length头标。

三、服务端接受请求并返回HTTP响应
Web服务器解析请求,定位指定资源。服务器将资源副本写至套接字,在此处由客户端读取。
一个响应由四个部分组成;状态行、响应头标、空行、响应数据
1.状态行:状态行由三个标记组成:HTTP版本、响应代码和响应描述。
HTTP版本:向客户端指明其可理解的最高版本。
响应代码:3位的数字代码,指出请求的成功或失败,如果失败则指出原因。
响应描述:为响应代码的可读性解释。
例如:HTTP/1.1 200 OK
HTTP响应码:
1xx:信息,请求收到,继续处理
2xx:成功,行为被成功地接受、理解和采纳
3xx:重定向,为了完成请求,必须进一步执行的动作
4xx:客户端错误:
2.响应头标:像请求头标一样,它们指出服务器的功能,标识出响应数据的细节。
3.空行:最后一个响应头标之后是一个空行,发送回车符和退行,表明服务器以下不再有头标。
4.响应数据:HTML文档和图像等,也就是HTML本身。

四、服务器关闭连接,浏览器解析响应
1.浏览器首先解析状态行,查看表明请求是否成功的状态代码。
2.然后解析每一个响应头标,头标告知以下为若干字节的HTML。
3.读取响应数据HTML,根据HTML的语法和语义对其进行格式化,并在浏览器窗口中显示它。
4.一个HTML文档可能包含其它需要被载入的资源引用,浏览器识别这些引用,对其它的资源再进行额外的请求,此过程循环多次。

五、无状态连接
HTTP模型是无状态的,表明在处理一个请求时,Web服务器并不记住来自同一客户端的请求。

六、实例
1.浏览器发出请求
GET /index.html HTTP/1.1
服务器返回响应
HTTP /1.1 200 OK
Date: Apr 11 2006 15:32:08 GMT
Server: Apache/2.0.46(win32)
Content-Length: 119
Content-Type: text/html

<HTML>
<HEAD>
<LINK REL="stylesheet" HREF="index.css">
</HEAD>
<BODY>
<IMG SRC="image/logo.png">
</BODY>
</HTML>

2.浏览器发出请求
GET /index.css HTTP/1.1
服务器返回响应
HTTP /1.1 200 OK
Date: Apr 11 2006 15:32:08 GMT
Server: Apache/2.0.46(win32)
Connection: Keep-alive, close
Content-Length: 70
Content-Type: text/plane

h3{
    font-size:20px;
    font-weight:bold;
    color:#005A9C;
}

3.浏览器发出请求
GET image/logo.png HTTP/1.1
服务器返回响应
HTTP /1.1 200 OK
Date: Apr 11 2006 15:32:08 GMT
Server: Apache/2.0.46(win32)
Connection: Keep-alive, close
Content-Length: 1280
Content-Type: text/plane

{Binary image data follows}


(附录)
1.HTTP规范:Internet工程制定组织(IETF)发布的RFC指定Internet标准,这些RFC被Internet研究发展机构广泛接受。因为它们是标准文档,故一般用正规语言编写,如立法文标一样。
2.RFC:RFC一旦被提出,就被编号且不会再改变,当一个标准被修改时,则给出一个新的RFC。作为标准,RFC在Internet上被广泛采用。
3.HTTP的几个重要RFC:
    RFC1945    HTTP 1.0 描述
    RFC2068    HTTP 1.1 初步描述
    RFC2616    HTTP 1.1 标准
4.资源标识符URI(Uniform Resource Identifter,URI)

http协议

Internet的基本协议是TCP/IP协议,例如:FTP,Http等是建立在TCP/IP协议之上的应用层协议,www服务器使用的主要协议是HTTP协议(超文本传输协议),http协议支持的服务不限于www。
        http协议的特点:支持客户/服务器模式,无连接,无状态。
        运作方式是基于请求/响应范式。内部操作过程为:
1,建立连接,客户与服务器是一个相对的概念。www服务器运行时,一直在TCP80端口(www的缺省端口)监听,等待连接的出现。连接的建立是通过申请套接字(Socket)实现的。客户打开一个套接字并把它约束在一个端口上,如果成功,就相当于建立了一个虚拟文件。相当于对虚拟文件的操作。
2,发送请求,打开一个连接后,客户机把请求消息送到服务器的停留端口上,完成提出请求动作。
请求的格式为:
  请求消息 =  请求行(通用信息|请求头|实体头) CRLF[实体内容]
  请求 行   =   方法 请求URL HTTP版本号 CRLF
  方  法    =   GET|HEAD|POST|扩展方法
  U R  L   =   协议名称+宿主名+目录与文件名
HEAD——要求服务器查找某对象的元信息,而不是对象本身。
POST——从客户机向服务器传送数据,在要求服务器和CGI做进一步处理时会用到POST方法。POST主要用于发送HTML文本中FORM的内容,让CGI程序处理。
  一个请求的例子为:
  GET http://networking.zju.edu.cn/zju/index.htm HTTP/1.0
  头信息又称为元信息,即信息的信息,利用元信息可以实现有条件的请求或应答 。
  请求头——告诉服务器怎样解释本次请求,主要包括用户可以接受的数据类型、压缩方法和语言等。
  实体头——实体信息类型、长度、压缩方法、最后一次修改时间、数据有效期等。
  实体    ——请求或应答对象本身。
3,发送响应,服务器在处理完客户的请求之后,要向客户机发送响应消息。
  HTTP/1.0的响应消息格式:
  响应消息   =     状态行(通用信息头|响应头|实体头) CRLF 〔实体内容〕
  状 态 行    =      HTTP版本号 状态码 原因叙述
响应头的信息包括:服务程序名,通知客户请求的URL需要认证,请求的资源何时能使用。
4.关闭连接:客户和服务器双方都可以通过关闭套接字来结束TCP/IP对话。

posted on 2009-07-20 09:50 ViskerWong 阅读(611) 评论(0)  编辑 收藏 引用

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理