??前言:最近在寫一個網(wǎng)站的爬蟲的時候模擬了一個請求卻老是得到httpcode 400這個響應(yīng),大家也知道一般這個響應(yīng)主要是因為客戶端也就是發(fā)送方的接口請求格式有問題,一開始我直接使用Postman去模擬請求,是可以得到數(shù)據(jù)的,然后我又使用python腳本去模擬請求,卻始終得不到,后來結(jié)合之前開發(fā)服務(wù)端的經(jīng)驗,發(fā)現(xiàn)犯了一個很初級的錯誤,沒有注意到content-type的提交POST的方式,難怪一直出錯,下面我們來還原一下場景,以及擴展分析一下四種常見的POST提交方式的區(qū)別。
演示:
??我們需要爬的網(wǎng)站模擬的請求如下:


??因為寫慣了content-type是application/json的格式了,所以習以為常的把form-data寫成了Python中的dict格式,結(jié)果一直報400的錯誤,錯誤代碼大致如下:
import requests
headers = {
"content-type": "application/x-www-form-urlencoded;charset=UTF-8"
}
data = {
"f.req": xxx,
"at": xxx
}
requests.post(url=url,headers=headers,data=data)
??之后結(jié)合之前做服務(wù)端的時候經(jīng)常被這個content-type搞懵逼的經(jīng)歷,就看出請求方式的錯誤,于是把代碼改成了這樣,就完美的收到200的響應(yīng)了。
import requests
from urllib.parse import urlencode
headers = {
"content-type": "application/x-www-form-urlencoded;charset=UTF-8"
}
data = {
"f.req": xxx,
"at": xxx
}
data = urlencode(data)
requests.post(url=url,headers=headers,data=data)
擴展:
- application/x-www-form-urlencoded
- multipart/form-data
- application/json
- text/xml
以上是四種常見的POST提交數(shù)據(jù)的方式,我們知道,HTTP協(xié)議是以 ASCII 碼傳輸(可參考http介紹),建立在 TCP/IP 協(xié)議之上的應(yīng)用層規(guī)范。規(guī)范把 HTTP 請求分為三個部分:狀態(tài)行、請求頭、消息主體。類似于下面這樣
<method> <request-URL> <version>
<headers>
<entity-body>
議規(guī)定 POST 提交的數(shù)據(jù)必須放在消息主體(entity-body)中,但協(xié)議并沒有規(guī)定數(shù)據(jù)必須使用什么編碼方式。實際上,開發(fā)者完全可以自己決定消息主體的格式,只要最后發(fā)送的 HTTP 請求滿足上面的格式就可以。
但是,數(shù)據(jù)發(fā)送出去,還要服務(wù)端解析成功才有意義。一般服務(wù)端語言如 php、python 等,以及它們的 framework,都內(nèi)置了自動解析常見數(shù)據(jù)格式的功能。服務(wù)端通常是根據(jù)請求頭(headers)中的 Content-Type 字段來獲知請求中的消息主體是用何種方式編碼,再對主體進行解析。所以說到 POST 提交數(shù)據(jù)方案,包含了 Content-Type 和消息主體編碼方式兩部分。下面就正式開始介紹它們。
1.application/x-www-form-urlencoded
??這應(yīng)該是最常見的 POST提交數(shù)據(jù)的方式了。瀏覽器的原生form 表單,如果不設(shè)置enctype屬性,那么最終就會以 application/x-www-form-urlencoded 方式提交數(shù)據(jù)。請求類似于下面這樣(無關(guān)的請求頭在本文中都省略掉了):
POST http://www.example.com HTTP/1.1
Content-Type: application/x-www-form-urlencoded;charset=utf-8
title=test&sub%5B%5D=1&sub%5B%5D=2&sub%5B%5D=3
??首先,Content-Type 被指定為application/x-www-form-urlencoded;其次,提交的數(shù)據(jù)按照 key1=val1&key2=val2 的方式進行編碼,key 和 val 都進行了 URL 轉(zhuǎn)碼。大部分服務(wù)端語言都對這種方式有很好的支持。很多時候,我們用 Ajax提交數(shù)據(jù)時,也是使用這種方式。例如 JQuery 和 QWrap 的 Ajax,Content-Type 默認值都是「application/x-www-form-urlencoded;charset=utf-8」。
2.multipart/form-data
??這又是一個常見的 POST數(shù)據(jù)提交的方式。我們使用表單上傳文件時,必須讓 form 的 enctyped 等于這個值。直接來看一個請求示例:
POST http://www.example.com HTTP/1.1
Content-Type:multipart/form-data; boundary=----WebKitFormBoundaryrGKCBY7qhFd3TrwA
------WebKitFormBoundaryrGKCBY7qhFd3TrwA
Content-Disposition: form-data; name="text"
title
------WebKitFormBoundaryrGKCBY7qhFd3TrwA
Content-Disposition: form-data; name="file"; filename="chrome.png"
Content-Type: image/png
PNG ... content of chrome.png ...
------WebKitFormBoundaryrGKCBY7qhFd3TrwA--
??這個例子稍微復(fù)雜點。首先生成了一個 boundary用于分割不同的字段,為了避免與正文內(nèi)容重復(fù),boundary 很長很復(fù)雜。然后 Content-Type里指明了數(shù)據(jù)是以 mutipart/form-data 來編碼,本次請求的boundary 是什么內(nèi)容。消息主體里按照字段個數(shù)又分為多個結(jié)構(gòu)類似的部分,每部分都是以–boundary 開始,緊接著內(nèi)容描述信息,然后是回車,最后是字段具體內(nèi)容(文本或二進制)。如果傳輸?shù)氖俏募?,還要包含文件名和文件類型信息。消息主體最后以 –boundary–標示結(jié)束。關(guān)于 mutipart/form-data 的詳細定義,請前往 rfc1867 查看。這種方式一般用來上傳文件,各大服務(wù)端語言對它也有著良好的支持。上面提到的這兩種POST 數(shù)據(jù)的方式,都是瀏覽器原生支持的,而且現(xiàn)階段原生 form 表單也只支持這兩種方式。但是隨著越來越多的 Web 站點,尤其是 WebApp,全部使用 Ajax進行數(shù)據(jù)交互之后,我們完全可以定義新的數(shù)據(jù)提交方式,給開發(fā)帶來更多便利。
3.application/json
??application/json 這個 Content-Type作為響應(yīng)頭大家肯定不陌生。實際上,現(xiàn)在越來越多的人把它作為請求頭,用來告訴服務(wù)端消息主體是序列化后的 JSON 字符串。由于 JSON規(guī)范的流行,除了低版本 IE 之外的各大瀏覽器都原生支持 JSON.stringify,服務(wù)端語言也都有處理 JSON 的函數(shù),使用JSON不會遇上什么麻煩。
??JSON格式支持比鍵值對復(fù)雜得多的結(jié)構(gòu)化數(shù)據(jù),這一點也很有用。
POST http://www.example.com HTTP/1.1
Content-Type: application/json;charset=utf-8
{"title":"test","sub":[1,2,3]}
??這種方案,可以方便的提交復(fù)雜的結(jié)構(gòu)化數(shù)據(jù),特別適合RESTful的接口。各大抓包工具如Chrome 自帶的開發(fā)者工具、Firebug、Fiddler,都會以樹形結(jié)構(gòu)展示 JSON數(shù)據(jù),非常友好。
4.text/xml
??它是一種使用 HTTP作為傳輸協(xié)議,XML 作為編碼方式的遠程調(diào)用規(guī)范。典型的XML-RPC請求是這樣的:
POST http://www.example.com HTTP/1.1
Content-Type: text/xml
<?xml version="1.0"?>
<methodCall>
<methodName>examples.getStateName</methodName>
<params>
<param>
<value><i4>41</i4></value>
</param>
</params>
</methodCall>
??XML-RPC 協(xié)議簡單、功能夠用,各種語言的實現(xiàn)都有。比如微信的小程序和公眾平臺都是使用它來作為基本的傳輸類型,它的使用也很廣泛,如 WordPress 的 XML-RPC Api,搜索引擎的 ping 服務(wù)等等。JavaScript 中,也有現(xiàn)成的庫支持以這種方式進行數(shù)據(jù)交互,能很好的支持已有的 XML-RPC服務(wù)。不過,我個人覺得XML 結(jié)構(gòu)還是過于臃腫,一般場景用 JSON會更靈活方便。
總結(jié):
??以上就是關(guān)于四種POST提交數(shù)據(jù)的方式的不同了,大家可以仔細結(jié)合參考資料好好領(lǐng)會。