1-HTTP/HTTPS的請求與響應(yīng)

HTTP和HTTPS

HTTP協(xié)議(HyperText Transfer Protocol,超文本傳輸協(xié)議):是一種發(fā)布和接收 HTML頁面的方法。

HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)簡單講是HTTP的安全版,在HTTP下加入SSL層。

SSL(Secure Sockets Layer 安全套接層)主要用于Web的安全傳輸協(xié)議,在傳輸層對網(wǎng)絡(luò)連接進行加密,保障在Internet上數(shù)據(jù)傳輸?shù)陌踩?/p>

  • HTTP的端口號為80
  • HTTPS的端口號為443

HTTP工作原理

網(wǎng)絡(luò)爬蟲抓取過程可以理解為模擬瀏覽器操作的過程。

瀏覽器的主要功能是向服務(wù)器發(fā)出請求,在瀏覽器窗口中展示您選擇的網(wǎng)絡(luò)資源,HTTP是一套計算機通過網(wǎng)絡(luò)進行通信的規(guī)則。

HTTP的請求與響應(yīng)

HTTP通信由兩部分組成: 客戶端請求消息服務(wù)器響應(yīng)消息

[圖片上傳失敗...(image-4144cc-1520866665036)]

瀏覽器發(fā)送HTTP請求的過程:

  1. 當(dāng)用戶在瀏覽器的地址欄中輸入一個URL并按回車鍵之后,瀏覽器會向HTTP服務(wù)器發(fā)送HTTP請求。HTTP請求主要分為“Get”和“Post”兩種方法。

  2. 當(dāng)我們在瀏覽器輸入URL http://www.baidu.com 的時候,瀏覽器發(fā)送一個Request請求去獲取 http://www.baidu.com 的html文件,服務(wù)器把Response文件對象發(fā)送回給瀏覽器。

  3. 瀏覽器分析Response中的 HTML,發(fā)現(xiàn)其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。 瀏覽器會自動再次發(fā)送Request去獲取圖片,CSS文件,或者JS文件。

  4. 當(dāng)所有的文件都下載成功后,網(wǎng)頁會根據(jù)HTML語法結(jié)構(gòu),完整的顯示出來了。

URL(Uniform / Universal Resource Locator的縮寫):統(tǒng)一資源定位符,是用于完整地描述Internet上網(wǎng)頁和其他資源的地址的一種標識方法。

[圖片上傳失敗...(image-4ec131-1520866665035)]

基本格式:scheme://host[:port#]/path/…/[?query-string][#anchor]

  • scheme:協(xié)議(例如:http, https, ftp)
  • host:服務(wù)器的IP地址或者域名
  • port#:服務(wù)器的端口(如果是走協(xié)議默認端口,缺省端口80)
  • path:訪問資源的路徑
  • query-string:參數(shù),發(fā)送給http服務(wù)器的數(shù)據(jù)
  • anchor:錨(跳轉(zhuǎn)到網(wǎng)頁的指定錨點位置)

例如:

客戶端HTTP請求

URL只是標識資源的位置,而HTTP是用來提交和獲取資源??蛻舳税l(fā)送一個HTTP請求到服務(wù)器的請求消息,包括以下格式:

請求行、請求頭部、空行、請求數(shù)據(jù)

四個部分組成,下圖給出了請求報文的一般格式。

[圖片上傳失敗...(image-c4086a-1520866615992)]

一個典型的HTTP請求示例
GET https://www.baidu.com/ HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Referer: http://www.baidu.com/
Accept-Encoding: gzip, deflate, sdch, br
Accept-Language: zh-CN,zh;q=0.8,en;q=0.6
Cookie: BAIDUID=04E4001F34EA74AD4601512DD3C41A7B:FG=1; BIDUPSID=04E4001F34EA74AD4601512DD3C41A7B; PSTM=1470329258; MCITY=-343%3A340%3A; BDUSS=nF0MVFiMTVLcUh-Q2MxQ0M3STZGQUZ4N2hBa1FFRkIzUDI3QlBCZjg5cFdOd1pZQVFBQUFBJCQAAAAAAAAAAAEAAADpLvgG0KGyvLrcyfrG-AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFaq3ldWqt5XN; H_PS_PSSID=1447_18240_21105_21386_21454_21409_21554; BD_UPN=12314753; sug=3; sugstore=0; ORIGIN=0; bdime=0; H_PS_645EC=7e2ad3QHl181NSPbFbd7PRUCE1LlufzxrcFmwYin0E6b%2BW8bbTMKHZbDP0g; BDSVRTM=0

請求方法

GET https://www.baidu.com/ HTTP/1.1

根據(jù)HTTP標準,HTTP請求可以使用多種請求方法。

HTTP 0.9:只有基本的文本 GET 功能。

HTTP 1.0:完善的請求/響應(yīng)模型,并將協(xié)議補充完整,定義了三種請求方法: GET, POST 和 HEAD方法。

HTTP 1.1:在 1.0 基礎(chǔ)上進行更新,新增了五種請求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

HTTP 2.0(未普及):請求/響應(yīng)首部的定義基本沒有改變,只是所有首部鍵必須全部小寫,而且請求行要獨立為 :method、:scheme、:host、:path這些鍵值對。

序號 方法 描述
1 GET 請求指定的頁面信息,并返回實體主體。
2 HEAD 類似于get請求,只不過返回的響應(yīng)中沒有具體的內(nèi)容,用于獲取報頭
3 POST 向指定資源提交數(shù)據(jù)進行處理請求(例如提交表單或者上傳文件),數(shù)據(jù)被包含在請求體中。POST請求可能會導(dǎo)致新的資源的建立和/或已有資源的修改。
4 PUT 從客戶端向服務(wù)器傳送的數(shù)據(jù)取代指定的文檔的內(nèi)容。
5 DELETE 請求服務(wù)器刪除指定的頁面。
6 CONNECT HTTP/1.1協(xié)議中預(yù)留給能夠?qū)⑦B接改為管道方式的代理服務(wù)器。
7 OPTIONS 允許客戶端查看服務(wù)器的性能。
8 TRACE 回顯服務(wù)器收到的請求,主要用于測試或診斷。

HTTP請求主要分為GetPost兩種方法

  • GET是從服務(wù)器上獲取數(shù)據(jù),POST是向服務(wù)器傳送數(shù)據(jù)

  • GET請求參數(shù)顯示,都顯示在瀏覽器網(wǎng)址上,HTTP服務(wù)器根據(jù)該請求所包含URL中的參數(shù)來產(chǎn)生響應(yīng)內(nèi)容,即“Get”請求的參數(shù)是URL的一部分。 例如: http://www.baidu.com/s?wd=Chinese

  • POST請求參數(shù)在請求體當(dāng)中,消息長度沒有限制而且以隱式的方式進行發(fā)送,通常用來向HTTP服務(wù)器提交量比較大的數(shù)據(jù)(比如請求中包含許多參數(shù)或者文件上傳操作等),請求的參數(shù)包含在“Content-Type”消息頭里,指明該消息體的媒體類型和編碼,

注意:避免使用Get方式提交表單,因為有可能會導(dǎo)致安全問題。 比如說在登陸表單中用Get方式,用戶輸入的用戶名和密碼將在地址欄中暴露無遺。

常用的請求報頭

1. Host (主機和端口號)

Host:對應(yīng)網(wǎng)址URL中的Web名稱和端口號,用于指定被請求資源的Internet主機和端口號,通常屬于URL的一部分。

2. Connection (鏈接類型)

Connection:表示客戶端與服務(wù)連接類型

  1. Client 發(fā)起一個包含 Connection:keep-alive 的請求,HTTP/1.1使用 keep-alive 為默認值。

  2. Server收到請求后:

    • 如果 Server 支持 keep-alive,回復(fù)一個包含 Connection:keep-alive 的響應(yīng),不關(guān)閉連接;
    • 如果 Server 不支持 keep-alive,回復(fù)一個包含 Connection:close 的響應(yīng),關(guān)閉連接。
  3. 如果client收到包含 Connection:keep-alive 的響應(yīng),向同一個連接發(fā)送下一個請求,直到一方主動關(guān)閉連接。

keep-alive在很多情況下能夠重用連接,減少資源消耗,縮短響應(yīng)時間,比如當(dāng)瀏覽器需要多個文件時(比如一個HTML文件和相關(guān)的圖形文件),不需要每次都去請求建立連接。

3. Upgrade-Insecure-Requests (升級為HTTPS請求)

Upgrade-Insecure-Requests:升級不安全的請求,意思是會在加載 http 資源時自動替換成 https 請求,讓瀏覽器不再顯示https頁面中的http請求警報。

HTTPS 是以安全為目標的 HTTP 通道,所以在 HTTPS 承載的頁面上不允許出現(xiàn) HTTP 請求,一旦出現(xiàn)就是提示或報錯。

4. User-Agent (瀏覽器名稱)

User-Agent:是客戶瀏覽器的名稱,以后會詳細講。

5. Accept (傳輸文件類型)

Accept:指瀏覽器或其他客戶端可以接受的MIME(Multipurpose Internet Mail Extensions(多用途互聯(lián)網(wǎng)郵件擴展))文件類型,服務(wù)器可以根據(jù)它判斷并返回適當(dāng)?shù)奈募袷健?/p>

舉例:

Accept: */*:表示什么都可以接收。

Accept:image/gif:表明客戶端希望接受GIF圖像格式的資源;

Accept:text/html:表明客戶端希望接受html文本。

Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8:表示瀏覽器支持的 MIME 類型分別是 html文本、xhtml和xml文檔、所有的圖像格式資源。

q是權(quán)重系數(shù),范圍 0 =< q <= 1,q 值越大,請求越傾向于獲得其“;”之前的類型表示的內(nèi)容。若沒有指定q值,則默認為1,按從左到右排序順序;若被賦值為0,則用于表示瀏覽器不接受此內(nèi)容類型。

Text:用于標準化地表示的文本信息,文本消息可以是多種字符集和或者多種格式的;Application:用于傳輸應(yīng)用程序數(shù)據(jù)或者二進制數(shù)據(jù)。詳細請點擊

6. Referer (頁面跳轉(zhuǎn)處)

Referer:表明產(chǎn)生請求的網(wǎng)頁來自于哪個URL,用戶是從該 Referer頁面訪問到當(dāng)前請求的頁面。這個屬性可以用來跟蹤Web請求來自哪個頁面,是從什么網(wǎng)站來的等。

有時候遇到下載某網(wǎng)站圖片,需要對應(yīng)的referer,否則無法下載圖片,那是因為人家做了防盜鏈,原理就是根據(jù)referer去判斷是否是本網(wǎng)站的地址,如果不是,則拒絕,如果是,就可以下載;

7. Accept-Encoding(文件編解碼格式)

Accept-Encoding:指出瀏覽器可以接受的編碼方式。編碼方式不同于文件格式,它是為了壓縮文件并加速文件傳遞速度。瀏覽器在接收到Web響應(yīng)之后先解碼,然后再檢查文件格式,許多情形下這可以減少大量的下載時間。

舉例:Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0

如果有多個Encoding同時匹配, 按照q值順序排列,本例中按順序支持 gzip, identity壓縮編碼,支持gzip的瀏覽器會返回經(jīng)過gzip編碼的HTML頁面。 如果請求消息中沒有設(shè)置這個域服務(wù)器假定客戶端對各種內(nèi)容編碼都可以接受。

8. Accept-Language(語言種類)

Accept-Langeuage:指出瀏覽器可以接受的語言種類,如en或en-us指英語,zh或者zh-cn指中文,當(dāng)服務(wù)器能夠提供一種以上的語言版本時要用到。

9. Accept-Charset(字符編碼)

Accept-Charset:指出瀏覽器可以接受的字符編碼。

舉例:Accept-Charset:iso-8859-1,gb2312,utf-8
  • ISO8859-1:通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語言不可缺少的附加字符,英文瀏覽器的默認值是ISO-8859-1.
  • gb2312:標準簡體中文字符集;
  • utf-8:UNICODE 的一種變長字符編碼,可以解決多種語言文本顯示問題,從而實現(xiàn)應(yīng)用國際化和本地化。

如果在請求消息中沒有設(shè)置這個域,缺省是任何字符集都可以接受。

10. Cookie (Cookie)

Cookie:瀏覽器用這個屬性向服務(wù)器發(fā)送Cookie。Cookie是在瀏覽器中寄存的小型數(shù)據(jù)體,它可以記載和服務(wù)器相關(guān)的用戶信息,也可以用來實現(xiàn)會話功能,以后會詳細講。

11. Content-Type (POST數(shù)據(jù)類型)

Content-Type:POST請求里用來表示的內(nèi)容類型。

舉例:Content-Type = Text/XML; charset=gb2312:

指明該請求的消息體中包含的是純文本的XML類型的數(shù)據(jù),字符編碼采用“gb2312”。

服務(wù)端HTTP響應(yīng)

HTTP響應(yīng)也由四個部分組成,分別是: 狀態(tài)行、消息報頭、空行響應(yīng)正文

[圖片上傳失敗...(image-e3df92-1520866615991)]

HTTP/1.1 200 OK
Server: Tengine
Connection: keep-alive
Date: Wed, 30 Nov 2016 07:58:21 GMT
Cache-Control: no-cache
Content-Type: text/html;charset=UTF-8
Keep-Alive: timeout=20
Vary: Accept-Encoding
Pragma: no-cache
X-NWS-LOG-UUID: bd27210a-24e5-4740-8f6c-25dbafa9c395
Content-Length: 180945

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" ....

常用的響應(yīng)報頭(了解)

理論上所有的響應(yīng)頭信息都應(yīng)該是回應(yīng)請求頭的。但是服務(wù)端為了效率,安全,還有其他方面的考慮,會添加相對應(yīng)的響應(yīng)頭信息,從上圖可以看到:

1. Cache-Control:must-revalidate, no-cache, private。

這個值告訴客戶端,服務(wù)端不希望客戶端緩存資源,在下次請求資源時,必須要從新請求服務(wù)器,不能從緩存副本中獲取資源。

  • Cache-Control是響應(yīng)頭中很重要的信息,當(dāng)客戶端請求頭中包含Cache-Control:max-age=0請求,明確表示不會緩存服務(wù)器資源時,Cache-Control作為作為回應(yīng)信息,通常會返回no-cache,意思就是說,"那就不緩存唄"。

  • 當(dāng)客戶端在請求頭中沒有包含Cache-Control時,服務(wù)端往往會定,不同的資源不同的緩存策略,比如說oschina在緩存圖片資源的策略就是Cache-Control:max-age=86400,這個意思是,從當(dāng)前時間開始,在86400秒的時間內(nèi),客戶端可以直接從緩存副本中讀取資源,而不需要向服務(wù)器請求。

2. Connection:keep-alive

這個字段作為回應(yīng)客戶端的Connection:keep-alive,告訴客戶端服務(wù)器的tcp連接也是一個長連接,客戶端可以繼續(xù)使用這個tcp連接發(fā)送http請求。

3. Content-Encoding:gzip

告訴客戶端,服務(wù)端發(fā)送的資源是采用gzip編碼的,客戶端看到這個信息后,應(yīng)該采用gzip對資源進行解碼。

4. Content-Type:text/html;charset=UTF-8

告訴客戶端,資源文件的類型,還有字符編碼,客戶端通過utf-8對資源進行解碼,然后對資源進行html解析。通常我們會看到有些網(wǎng)站是亂碼的,往往就是服務(wù)器端沒有返回正確的編碼。

5. Date:Sun, 21 Sep 2016 06:18:21 GMT

這個是服務(wù)端發(fā)送資源時的服務(wù)器時間,GMT是格林尼治所在地的標準時間。http協(xié)議中發(fā)送的時間都是GMT的,這主要是解決在互聯(lián)網(wǎng)上,不同時區(qū)在相互請求資源的時候,時間混亂問題。

6. Expires:Sun, 1 Jan 2000 01:00:00 GMT

這個響應(yīng)頭也是跟緩存有關(guān)的,告訴客戶端在這個時間前,可以直接訪問緩存副本,很顯然這個值會存在問題,因為客戶端和服務(wù)器的時間不一定會都是相同的,如果時間不同就會導(dǎo)致問題。所以這個響應(yīng)頭是沒有Cache-Control:max-age=*這個響應(yīng)頭準確的,因為max-age=date中的date是個相對時間,不僅更好理解,也更準確。

7. Pragma:no-cache

這個含義與Cache-Control等同。

8.Server:Tengine/1.4.6

這個是服務(wù)器和相對應(yīng)的版本,只是告訴客戶端服務(wù)器的信息。

9. Transfer-Encoding:chunked

這個響應(yīng)頭告訴客戶端,服務(wù)器發(fā)送的資源的方式是分塊發(fā)送的。一般分塊發(fā)送的資源都是服務(wù)器動態(tài)生成的,在發(fā)送時還不知道發(fā)送資源的大小,所以采用分塊發(fā)送,每一塊都是獨立的,獨立的塊都能標示自己的長度,最后一塊是0長度的,當(dāng)客戶端讀到這個0長度的塊時,就可以確定資源已經(jīng)傳輸完了。

10. Vary: Accept-Encoding

告訴緩存服務(wù)器,緩存壓縮文件和非壓縮文件兩個版本,現(xiàn)在這個字段用處并不大,因為現(xiàn)在的瀏覽器都是支持壓縮的。

響應(yīng)狀態(tài)碼

響應(yīng)狀態(tài)代碼有三位數(shù)字組成,第一個數(shù)字定義了響應(yīng)的類別,且有五種可能取值。

常見狀態(tài)碼:

  • 100~199:表示服務(wù)器成功接收部分請求,要求客戶端繼續(xù)提交其余請求才能完成整個處理過程。

  • 200~299:表示服務(wù)器成功接收請求并已完成整個處理過程。常用200(OK 請求成功)。

  • 300~399:為完成請求,客戶需進一步細化請求。例如:請求的資源已經(jīng)移動一個新地址、常用302(所請求的頁面已經(jīng)臨時轉(zhuǎn)移至新的url)、307和304(使用緩存資源)。

  • 400~499:客戶端的請求有錯誤,常用404(服務(wù)器無法找到被請求的頁面)、403(服務(wù)器拒絕訪問,權(quán)限不夠)。

  • 500~599:服務(wù)器端出現(xiàn)錯誤,常用500(請求未完成。服務(wù)器遇到不可預(yù)知的情況)。

Cookie 和 Session:

服務(wù)器和客戶端的交互僅限于請求/響應(yīng)過程,結(jié)束之后便斷開,在下一次請求時,服務(wù)器會認為新的客戶端。

為了維護他們之間的鏈接,讓服務(wù)器知道這是前一個用戶發(fā)送的請求,必須在一個地方保存客戶端的信息。

Cookie:通過在 客戶端 記錄的信息確定用戶的身份。

Session:通過在 服務(wù)器端 記錄的信息確定用戶的身份。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容