HTTP的請(qǐng)求和響應(yīng)

HTTP和HTTPS

  • HTTP(HyperText Transfer Protocol,超文本傳輸協(xié)議):是一種發(fā)布和接收HTML頁(yè)面的方法
  • HTTPS(HyperText Transfer Protocol over Secure Socket Layer)簡(jiǎn)單講是HTTP的安全版,在HTTP下加入SSL層。
  • SSL(Secure Socket Layer安全套接層)主要用于web的安全傳輸協(xié)議,在傳輸層對(duì)網(wǎng)絡(luò)連接進(jìn)行加密,保障在Internet上數(shù)據(jù)傳輸?shù)陌踩?/li>
  • HTTP的端口號(hào)為80,HTTPS的端口號(hào)為443

HTTP工作原理

網(wǎng)絡(luò)爬蟲(chóng)抓取過(guò)程可以理解為 模擬瀏覽器操作的過(guò)程
瀏覽器的主要功能是向服務(wù)器發(fā)出請(qǐng)求,在瀏覽器窗口中展示您選擇的網(wǎng)絡(luò)資源,HTTP是一套計(jì)算機(jī)通過(guò)網(wǎng)絡(luò)進(jìn)行通信的規(guī)則。

HTTP的請(qǐng)求和響應(yīng)

HTTP通信由兩部分組成:客戶端請(qǐng)求消息和服務(wù)器響應(yīng)消息

image.png

瀏覽器發(fā)送HTTP請(qǐng)求的過(guò)程

  • 1 當(dāng)用戶在瀏覽器的地址欄中輸入一個(gè)URL按回車(chē)鍵后,瀏覽器會(huì)想HTTP服務(wù)器發(fā)送HTTP請(qǐng)求。HTTP請(qǐng)求主要分為“GET”和“POST”兩種方法。
  • 2 當(dāng)我們?cè)跒g覽器中輸入U(xiǎn)RL http://www.baidu.com的時(shí)候,瀏覽器發(fā)送一個(gè)Request請(qǐng)求去獲取http://www.baidu.com的html文件,服務(wù)器把Response文件對(duì)象發(fā)送回瀏覽器。
  • 3 瀏覽器分析Response的HTML,發(fā)現(xiàn)其中引用了很多其他文件,比如Images文件、CSS文件、JS文件。瀏覽器會(huì)自動(dòng)再次發(fā)送Response去獲取圖片,CSS文件,或者JS文件。
  • 4 當(dāng)所有的文件都下載成功后,網(wǎng)頁(yè)會(huì)根據(jù)HTML語(yǔ)法結(jié)構(gòu),完整的顯示出來(lái)了。

URL

URL(Uniform/Universal Resource Locator的縮寫(xiě)):統(tǒng)一資源定位符,是用于完整地描述Internet上網(wǎng)頁(yè)和其他資源的地址的一種標(biāo)識(shí)方法。


image.png

基本格式:
image.png

scheme:協(xié)議(例如:http、https、ftp)
host:服務(wù)器的IP地址或者域名
port#:服務(wù)器的端口(如果是走協(xié)議默認(rèn)端口,缺省端口80)
path:訪問(wèn)資源的路徑
query-string:參數(shù),發(fā)送給http服務(wù)器的數(shù)據(jù)
anchor:錨(跳轉(zhuǎn)到網(wǎng)頁(yè)的指定錨點(diǎn)位置)

例如:

客戶端HTTP請(qǐng)求

URL只是標(biāo)識(shí)資源的位置,而HTTP是用來(lái)提交和獲取資源??蛻舳税l(fā)送一個(gè)HTTP請(qǐng)求到服務(wù)器的請(qǐng)求消息,包括以下格式:
請(qǐng)求行、請(qǐng)求頭部、空行、請(qǐng)求數(shù)據(jù)
四個(gè)部分組成,下圖給出了請(qǐng)求報(bào)文的一般格式:

image.png

一個(gè)典型的HTTP請(qǐng)求實(shí)例:

GET https://www.baidu.com/ HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Referer: http://www.baidu.com/
Accept-Encoding: gzip, deflate, sdch, br
Accept-Language: zh-CN,zh;q=0.8,en;q=0.6
Cookie: BAIDUID=04E4001F34EA74AD4601512DD3C41A7B:FG=1; BIDUPSID=04E4001F34EA74AD4601512DD3C41A7B; PSTM=1470329258; MCITY=-343%3A340%3A; BDUSS=nF0MVFiMTVLcUh-Q2MxQ0M3STZGQUZ4N2hBa1FFRkIzUDI3QlBCZjg5cFdOd1pZQVFBQUFBJCQAAAAAAAAAAAEAAADpLvgG0KGyvLrcyfrG-AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFaq3ldWqt5XN; H_PS_PSSID=1447_18240_21105_21386_21454_21409_21554; BD_UPN=12314753; sug=3; sugstore=0; ORIGIN=0; bdime=0; H_PS_645EC=7e2ad3QHl181NSPbFbd7PRUCE1LlufzxrcFmwYin0E6b%2BW8bbTMKHZbDP0g; BDSVRTM=0

請(qǐng)求方法

GET https://www.baidu.com/ HTTP/1.1

序號(hào) 方法 描述
1 GET 請(qǐng)求指定的頁(yè)面信息,并返回實(shí)體主體。
2 HEAD 類(lèi)似于get請(qǐng)求,只不過(guò)返回的響應(yīng)中沒(méi)有具體的內(nèi)容,用于獲取報(bào)頭
3 POST 向指定資源提交數(shù)據(jù)進(jìn)行處理請(qǐng)求(例如提交表單或者上傳文件),數(shù)據(jù)被包含在請(qǐng)求體中。POST請(qǐng)求可能會(huì)導(dǎo)致新的資源的建立和/或已有資源的修改。
4 PUT 從客戶端向服務(wù)器傳送的數(shù)據(jù)取代指定的文檔的內(nèi)容。
5 DELETE 請(qǐng)求服務(wù)器刪除指定的頁(yè)面。
6 CONNECT HTTP/1.1協(xié)議中預(yù)留給能夠?qū)⑦B接改為管道方式的代理服務(wù)器。
7 OPTIONS 允許客戶端查看服務(wù)器的性能。
8 TRACE 回顯服務(wù)器收到的請(qǐng)求,主要用于測(cè)試或診斷。

HTTP請(qǐng)求主要分為GET和POST兩種方法

  • GET是從服務(wù)器上獲取數(shù)據(jù),POST是向服務(wù)器傳送數(shù)據(jù)
  • GET請(qǐng)求參數(shù)顯示在瀏覽器網(wǎng)址上,HTTP服務(wù)器根據(jù)該請(qǐng)求所包含URL中的參數(shù)來(lái)產(chǎn)生響應(yīng)內(nèi)容,即"Get"請(qǐng)求的參數(shù)是URL的一部分。例如:http://www.baidu.com/s?wd=Chinese,而且GET請(qǐng)求的大小有限制,因?yàn)閁RL不能太長(zhǎng)。
  • POST請(qǐng)求參數(shù)在請(qǐng)求體中,消息長(zhǎng)度沒(méi)有限制而且以隱式的方式進(jìn)行發(fā)送,通常用來(lái)向HTTP服務(wù)器提交量比較大的數(shù)據(jù)(比如請(qǐng)求體中包含許多參數(shù)或者文件上床操作等),請(qǐng)求的參數(shù)包含在"Content-Type"消息頭里,指明該消息體的媒體類(lèi)型和編碼。

常用的請(qǐng)求頭(header)

1、Host(主機(jī)和端口號(hào))
Host:對(duì)應(yīng)網(wǎng)址URL中的web名稱和端口號(hào),用于指定被請(qǐng)求資源的Internet主機(jī)和端口號(hào),通常屬于URL的一部分。
2、Connection(鏈接類(lèi)型)
Connection:表示客戶端與服務(wù)器連接類(lèi)型

  • Client發(fā)起一個(gè)包含 Connection: key-alive的請(qǐng)求, HTTP/1.1使用 keep-alive為默認(rèn)值。
  • Server收到請(qǐng)求后:如果Server支持keep-alive,回復(fù)一個(gè)包含Connection:keep-alive的響應(yīng),不關(guān)閉連接,如果Server不支持keep-alive,回復(fù)一個(gè)包含Connection:close的響應(yīng),關(guān)閉連接。
  • 如果client收到包含Connection:keep-alive的響應(yīng),向同一個(gè)連接發(fā)送下一個(gè)請(qǐng)求,直到乙方主動(dòng)關(guān)閉連接。
  • keep-alive在很多情況下能夠重用連接,減少資源消耗,縮短響應(yīng)時(shí)間,比如當(dāng)瀏覽器器需要多個(gè)文件時(shí)(比如一個(gè)HTML文件和相關(guān)的圖形文件),不需要每次都去請(qǐng)求建立連接。

3、Upgrade-Insecure-Request(升級(jí)為HTTPS請(qǐng)求)

  • Upgrade-Insecure-Requests:升級(jí)不安全的的請(qǐng)求,意思是會(huì)在加載http資源時(shí)自動(dòng)替換成成https請(qǐng)求,讓瀏覽器不再顯示https頁(yè)面中的http請(qǐng)求警報(bào)。
  • HTTPS是以安全為目標(biāo)的HTTP通道,所以在HTTPS承載的頁(yè)面上不允許出現(xiàn)HTTP請(qǐng)求,一旦出現(xiàn)就是提示或報(bào)警。

4、User-Agent(瀏覽器名稱)

  • User-Agent:是客戶端瀏覽器的名稱。

5、Accept(傳輸文件類(lèi)型)

  • Accept:指瀏覽器或其他客戶端可以接收的MIME(Multipurpose Internet Mail Extensions(多用途互聯(lián)網(wǎng)郵件擴(kuò)展))文件類(lèi)型,服務(wù)器可以根據(jù)它判斷并返回適當(dāng)?shù)奈募袷健?/p>

  • 舉例:
    Accept: */*:表示什么都可以接收。
    Accept: image/gif:表明客戶端希望接受GIF圖像格式的資源。
    Accept: text/html:表明客戶端希望接受html文本。
    Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8:表示瀏覽器支持的MIME類(lèi)型分別是html文本、xhtml和xml文檔、所有的圖像格式資源。

  • q是權(quán)重系數(shù),范圍0<= q <= 1,q值越大,請(qǐng)求越傾向于獲得其";"之前的類(lèi)型表示的內(nèi)容。若沒(méi)有指定q值,則默認(rèn)為1,按從左到右排序順序;若被賦值為0,則用于表示瀏覽器不接受此內(nèi)容類(lèi)型。

  • Text:用于標(biāo)準(zhǔn)化地表示的文本信息,文本消息可以是多種字符集或者多種格式;Application:用于傳輸應(yīng)用程序數(shù)據(jù)或者二級(jí)制數(shù)據(jù)。詳情請(qǐng)點(diǎn)擊

6、Referer(頁(yè)面跳轉(zhuǎn)處)

  • Referer:表明產(chǎn)生請(qǐng)求的網(wǎng)頁(yè)來(lái)自于哪個(gè)URL,用戶是從該Referer頁(yè)面訪問(wèn)當(dāng)當(dāng)前請(qǐng)求的頁(yè)面。這個(gè)屬性可以用來(lái)跟蹤WEB請(qǐng)求來(lái)自哪個(gè)頁(yè)面,是從什么網(wǎng)站來(lái)的。

  • 有時(shí)候遇到下載某網(wǎng)站圖片,需要對(duì)應(yīng)的Referer,否則無(wú)法下載圖片,那是因?yàn)槿思易隽朔辣I鏈,原理就是根據(jù)referer去判斷是否是本網(wǎng)站的地址,如果不是,則拒絕,如果是,就可以下載;

7、Accept-Encoding(文件編碼格式)

  • Accept-Encoding:指出瀏覽器可以接收的編碼方式。編碼方式不同于文件格式,它是為了壓縮文件并加速文件傳輸速度。瀏覽器在接收到WEB端相應(yīng)之后編碼,然后再檢查文件格式,許多情形下還可以減少大量的下載時(shí)間。
  • 舉例: Accept-Encoding:gzip;q=1.0,identity;q=0.5,*;q=0
  • 如果有多個(gè)Encoding同時(shí)匹配,按照q值順序排列,本例中按順序支持gzip,identity壓縮編碼,支持gzip的瀏覽器會(huì)返回經(jīng)過(guò)gzip編碼的HTML頁(yè)面。如果請(qǐng)求消息中沒(méi)有設(shè)置這個(gè)域服務(wù)器假定客戶端對(duì)各種內(nèi)容編碼都可以接收。

8、Accept-Language(語(yǔ)言種類(lèi))

  • Accept-Language:指出瀏覽器可以接受的語(yǔ)言種類(lèi),如en或en-us指英語(yǔ),zh或者zh-cn指中文,當(dāng)服務(wù)器能夠提供一種以上的語(yǔ)言版本時(shí)要用到。

9、Accept-Charset(字符編碼)

  • Accept-Charset:指出瀏覽器可以接收的字符編碼

  • 舉例:Accept-Charset:sio-8859-1,gb2312,utf-8

  • ISO8859-1:通常叫做Latin-1。Latin-1包括了書(shū)寫(xiě)所有西方歐洲語(yǔ)言不可缺少的附加字符,英文瀏覽器的默認(rèn)值是ISO-8859-1。

  • gb2312:標(biāo)準(zhǔn)簡(jiǎn)體中文字符集;

  • UTF-8:UNICODE的一種邊長(zhǎng)字符編碼,可以解決多種語(yǔ)言文本顯示問(wèn)題,從而實(shí)現(xiàn)應(yīng)用國(guó)際化和本地化。

  • 如果在請(qǐng)求消息中沒(méi)有設(shè)置這個(gè)域,缺省是任何字符集都可以接受。

10、Cookie(Cookie)

  • Cookie:瀏覽器用這個(gè)屬性向服務(wù)器發(fā)送Cookie。Cookie實(shí)在瀏覽器中寄存的小型數(shù)據(jù)體,它可以記載和服務(wù)器相關(guān)的用戶信息,也可以用來(lái)實(shí)現(xiàn)會(huì)話功能,以后會(huì)詳細(xì)講。

11、Content-Type(POST數(shù)據(jù)類(lèi)型)

  • Content-Type(POST數(shù)據(jù)類(lèi)型)
  • 舉例:Content-Type=Text/XML;charset=gb2312;
  • 指明該請(qǐng)求的消息體中包含的是純文本的XML類(lèi)型的數(shù)據(jù),字符編碼采用"gb2312"

服務(wù)端HTTP響應(yīng)

  • HTTP響應(yīng)也由四個(gè)部分,分別是:狀態(tài)行、消息報(bào)頭、空行、響應(yīng)正文


    image.png
HTTP/1.1 200 OK
Server: Tengine
Connection: keep-alive
Date: Wed, 30 Nov 2016 07:58:21 GMT
Cache-Control: no-cache
Content-Type: text/html;charset=UTF-8
Keep-Alive: timeout=20
Vary: Accept-Encoding
Pragma: no-cache
X-NWS-LOG-UUID: bd27210a-24e5-4740-8f6c-25dbafa9c395
Content-Length: 180945

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" ....

常用的響應(yīng)報(bào)頭(了解)

1.Cache-Control:must-revalidate, no-cache, private

  • 這個(gè)值告訴客戶端,服務(wù)端不希望客戶端緩存資源,在下次請(qǐng)求資源時(shí),必須要重新請(qǐng)求服務(wù)器,不能從緩存副本中獲取資源。

  • Cache-Control是響應(yīng)頭中很重要的信息,當(dāng)客戶端請(qǐng)求頭中包含Cache-Control:max-age=0請(qǐng)求,明確表示不會(huì)緩存服務(wù)器資源時(shí),Cache-Control作為回應(yīng)響應(yīng),通常會(huì)返回no-cache,意思是說(shuō),“那就不緩存唄”。

  • 當(dāng)客戶端在請(qǐng)求頭中沒(méi)有包含Cache-Control時(shí),服務(wù)端往往會(huì)根據(jù)不同的資源確定不同的緩存忽略,比如說(shuō)oschina在緩存圖片資源的策略就是Cache-Control:max-age=86400,這個(gè)意思是,從當(dāng)前時(shí)間開(kāi)始,在86400秒的時(shí)間內(nèi),客戶端可以直接從緩存副本中讀取資源,而不需要向服務(wù)器請(qǐng)求。

2.Connection:keep-alive

  • 這個(gè)字段作為回應(yīng)客戶端的Connection:keep-alive,告訴客戶端服務(wù)器的tcp連接也是一個(gè)長(zhǎng)連接,客戶端可以繼續(xù)使用這個(gè)tcp連接發(fā)送http請(qǐng)求。

3.Content-Encoding:gzip

  • 告訴客戶端,服務(wù)器發(fā)送的資源是采用gzip編碼的,客戶端看到這個(gè)信息后,應(yīng)該采用gzip對(duì)資源進(jìn)行解碼。

4.Content-Type:text/html;charset=UTF-8

  • 告訴客戶端,資源文件的類(lèi)型,還有字符編碼,客戶端通過(guò)utf-8對(duì)資源進(jìn)行解碼,然后對(duì)資源進(jìn)行html解析。通常我們會(huì)看到有些網(wǎng)站是亂碼的,往往就是服務(wù)器端沒(méi)有返回正確的編碼。

5.Date: Sun, 21 Sep 2016 06:18:21 GMT

  • 這個(gè)就是服務(wù)端發(fā)送資源的服務(wù)器時(shí)間,GMT是格林尼治所在地的標(biāo)準(zhǔn)時(shí)間。http協(xié)議中發(fā)送的時(shí)間都是GMT,這主要是解決在互聯(lián)網(wǎng)上,不同時(shí)區(qū)在相互請(qǐng)求資源的時(shí)候,時(shí)間混亂問(wèn)題。

6.Expires:Sun, 1 Jan 2000 01:00:00 GMT

  • 這個(gè)響應(yīng)頭也是緩存有關(guān)的,告訴客戶端在這個(gè)時(shí)間前,可以直接訪問(wèn)緩存副本,很顯然這個(gè)值會(huì)存在問(wèn)題,因?yàn)榭蛻舳撕头?wù)器的時(shí)間不一定會(huì)相應(yīng),如果時(shí)間不同就會(huì)導(dǎo)致問(wèn)題。所以這個(gè)響應(yīng)頭是沒(méi)有Cache-Control:max-age=*這個(gè)響應(yīng)頭準(zhǔn)確的,因?yàn)閙ax-age=date中的date是相應(yīng)時(shí)間,不僅更好理解,也更準(zhǔn)確。

7.Pragma:no-cache

  • 這個(gè)含義與Cache-Control等同。

8.Server:Tengine/1.4.6

  • 這個(gè)是服務(wù)器和相應(yīng)版本,只是告訴客戶端服務(wù)器的信息。

9.Transfer-Encoding: chunked

  • 這個(gè)響應(yīng)頭告訴客戶端,服務(wù)器發(fā)送的資源的方式是分塊發(fā)送的。一般分塊發(fā)送的資源都是服務(wù)器動(dòng)態(tài)生成的,在發(fā)送時(shí)還不知道發(fā)送資源的大小,所以采用分塊發(fā)送,每一塊都是獨(dú)立的,獨(dú)立的塊都能表示自己的長(zhǎng)度,最后一塊是0長(zhǎng)度的,當(dāng)客戶端讀到這個(gè)0長(zhǎng)度的塊時(shí),就可以確定資源已經(jīng)傳輸完了。

10.Vary:Accept-Encoding

  • 告訴緩存服務(wù)器,緩存壓縮文件和非壓縮文件兩個(gè)版本,現(xiàn)在這個(gè)字段用處并不大,因?yàn)楝F(xiàn)在的瀏覽器都是支持壓縮的。

轉(zhuǎn)http://www.cnblogs.com/miqi1992/p/7828886.html

打一遍加深記憶 - -

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容