爬蟲(chóng)0010:概述

爬蟲(chóng)概述

——編輯:大牧莫邪

1. 目錄清單

  1. 爬蟲(chóng)簡(jiǎn)介
  2. 通用爬蟲(chóng)和聚焦爬蟲(chóng)
  3. 網(wǎng)絡(luò)請(qǐng)求那些事兒
  4. 網(wǎng)絡(luò)數(shù)據(jù)抓包分析

2. 章節(jié)內(nèi)容

2.1.爬蟲(chóng)簡(jiǎn)介

在各行各業(yè)如火如荼快速發(fā)展的今天,市場(chǎng)是決定一家公司是否可持續(xù)發(fā)展最重要的一個(gè)衡量指標(biāo),市場(chǎng)的定位和發(fā)展核心是對(duì)行業(yè)數(shù)據(jù)的分析,對(duì)于數(shù)據(jù)的分析必須進(jìn)行大量數(shù)據(jù)的統(tǒng)計(jì)分析才能得到一個(gè)比較中肯的處理建議,那么問(wèn)題就來(lái)了~分析市場(chǎng)的行業(yè)數(shù)據(jù),從哪里才能得到呢?

當(dāng)數(shù)據(jù)開(kāi)始變得敏感開(kāi)始變得值錢起來(lái)(一直都很值錢)之后,很多官方或者民間的機(jī)構(gòu),開(kāi)始就數(shù)據(jù)市場(chǎng)展開(kāi)了新一輪的競(jìng)爭(zhēng),如官方會(huì)提供各種數(shù)據(jù)的統(tǒng)計(jì)信息方便大家了解目前的民生情況,百度提供了搜索引擎數(shù)據(jù)方便上網(wǎng)的時(shí)候進(jìn)行的快速檢索,騰訊指數(shù)提供了對(duì)于時(shí)下流行關(guān)鍵詞的指數(shù)分析方便對(duì)于某些數(shù)據(jù)的統(tǒng)計(jì)信息的提取等等,總的來(lái)說(shuō)~數(shù)據(jù)提供者一般都提供兩種數(shù)據(jù),一種可以共享的免費(fèi)數(shù)據(jù),一種比較有針對(duì)性的私密數(shù)據(jù);免費(fèi)數(shù)據(jù)可以供所有人查看,但是私密數(shù)據(jù)在一定程度上可以選擇收費(fèi)查閱或者直接禁止查閱,目前對(duì)于數(shù)據(jù)的來(lái)源一把都有如下方式:

  1. 企業(yè)分析數(shù)據(jù),如百度指數(shù)、騰訊指數(shù)、阿里指數(shù)等等
  2. 數(shù)據(jù)平臺(tái)數(shù)據(jù),如數(shù)據(jù)堂,國(guó)云數(shù)據(jù)市場(chǎng)等等
  3. 政府機(jī)構(gòu)數(shù)據(jù),如納斯達(dá)克指數(shù)、國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)等等
  4. 數(shù)據(jù)咨詢公司,如艾瑞咨詢等等
  5. 網(wǎng)絡(luò)爬蟲(chóng)采集

問(wèn)題1:并不是所有的公司都可以付費(fèi)購(gòu)買數(shù)據(jù)

問(wèn)題2:并不是所有的公司都滿足于免費(fèi)的數(shù)據(jù)?!

問(wèn)題3:那么數(shù)據(jù)從哪里來(lái)?

網(wǎng)絡(luò)爬蟲(chóng) ,主要是針對(duì)網(wǎng)絡(luò)上的數(shù)據(jù)通過(guò)編程的方式使用程序自動(dòng)采集的一種手段,公司除了從第三方平臺(tái)直接使用免費(fèi)數(shù)據(jù)或者購(gòu)買數(shù)據(jù)之外,更多的是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)的方式讓爬蟲(chóng)工程師負(fù)責(zé)采集公司所需要的數(shù)據(jù)!這也是為什么爬蟲(chóng)工程師非常吃香的原因!

2.2. 通用爬蟲(chóng)和聚焦爬蟲(chóng)

一般情況下,根據(jù)爬蟲(chóng)程序的應(yīng)用場(chǎng)景的不同,可以將爬蟲(chóng)程序大致分為兩種類型:通用爬蟲(chóng)和聚焦爬蟲(chóng)

通用爬蟲(chóng):通用爬蟲(chóng)是網(wǎng)絡(luò)搜索引擎的一部分,遵循爬蟲(chóng)的robot協(xié)議,負(fù)責(zé)采集網(wǎng)絡(luò)中的網(wǎng)頁(yè)信息內(nèi)容并建立索引,在自己的搜索引擎服務(wù)器上建議網(wǎng)絡(luò)信息的索引鏡像備份文件,達(dá)到對(duì)網(wǎng)絡(luò)上的信息內(nèi)容可以快速檢索的目的

robot協(xié)議:是關(guān)于網(wǎng)絡(luò)爬蟲(chóng)的一種約定的協(xié)議,robot協(xié)議明確告訴了通用網(wǎng)絡(luò)爬蟲(chóng),哪些數(shù)據(jù)內(nèi)容是可以爬取的,哪些數(shù)據(jù)內(nèi)容是不允許爬蟲(chóng)采集的,如果是合法合規(guī)的爬蟲(chóng)程序,必須遵循robot協(xié)議約定的采集內(nèi)容區(qū)域,否則可能涉及到維權(quán)行為!

通用爬蟲(chóng)在一定程度上滿足了大量網(wǎng)民的需求,可以通過(guò)搜索引擎快速檢索需要的網(wǎng)頁(yè)

但是公司針對(duì)性的獲取數(shù)據(jù)的場(chǎng)景,通用爬蟲(chóng)就存在了很大的限制,如通用爬蟲(chóng)獲取的網(wǎng)頁(yè)數(shù)據(jù)對(duì)于公司的需求來(lái)說(shuō)很大一部分是無(wú)效的,因?yàn)閷?duì)于分析數(shù)據(jù)來(lái)說(shuō)網(wǎng)頁(yè)中的廣告信息、輪播圖片信息、導(dǎo)航信息等等都是無(wú)效數(shù)據(jù);公司不同的需求需要采集的數(shù)據(jù)形式也是多樣的,通用搜索引擎的常規(guī)操作方式并不能完全滿足這樣的操作現(xiàn)狀的;尤其是針對(duì)有特定語(yǔ)義化搜索的數(shù)據(jù)來(lái)說(shuō),通用搜索引擎更是無(wú)能為力的的!

聚焦爬蟲(chóng): 聚焦爬蟲(chóng)是通過(guò)編程的方式針對(duì)特定的需要進(jìn)行數(shù)據(jù)定向采集的一種手段,能更好的更加準(zhǔn)確的采集用戶需要的數(shù)據(jù),在一定程序上能很好的滿足業(yè)務(wù)數(shù)據(jù)需要。缺點(diǎn)在于聚焦爬蟲(chóng)的編碼工作比較繁瑣,針對(duì)不同類型的數(shù)據(jù)采集工作,需要定制化的開(kāi)發(fā)不同的程序代碼。然而~瑕不掩瑜的是,定向爬蟲(chóng)由于其特定收的采集手段,尤其是程序開(kāi)發(fā)人員對(duì)于問(wèn)題處理的操作方式愈發(fā)先進(jìn)和自動(dòng)化,聚焦爬蟲(chóng)更加受到公司的歡迎!

2.3. 網(wǎng)絡(luò)請(qǐng)求那些事兒

網(wǎng)絡(luò)中的數(shù)據(jù),更多的操作是對(duì)于目標(biāo)服務(wù)器上的網(wǎng)頁(yè)數(shù)據(jù)的方式,網(wǎng)頁(yè)數(shù)據(jù)的訪問(wèn)一般使用的都是HTTP和HTTPS協(xié)議;通過(guò)瀏覽器進(jìn)行網(wǎng)頁(yè)訪問(wèn)的過(guò)程中,在請(qǐng)求的請(qǐng)求頭信息中包含了客戶端瀏覽器的身份信息;在響應(yīng)數(shù)據(jù)中包含了對(duì)于響應(yīng)內(nèi)容的描述信息等

2.3.1.HTTP和HTTPS協(xié)議

HTTP協(xié)議是超文本傳輸協(xié)議,是網(wǎng)頁(yè)訪問(wèn)過(guò)程中最常用的一種協(xié)議,用于傳輸超文本標(biāo)簽描述的數(shù)據(jù)內(nèi)容。默認(rèn)訪問(wèn)端口:80

HTTPS協(xié)議是提供了安全通道的HTTP協(xié)議,在網(wǎng)頁(yè)數(shù)據(jù)訪問(wèn)過(guò)程中,對(duì)于訪問(wèn)的數(shù)據(jù)進(jìn)行了數(shù)字簽名實(shí)現(xiàn)了非對(duì)稱的數(shù)據(jù)加密方式以保障數(shù)據(jù)的安全性。默認(rèn)訪問(wèn)端口:443

在指定的訪問(wèn)協(xié)議寫(xiě),進(jìn)行數(shù)據(jù)資源的訪問(wèn),通過(guò)網(wǎng)絡(luò)統(tǒng)一資源定位符URL進(jìn)行訪問(wèn),一般情況下,一個(gè)完整的請(qǐng)求URL主要包含如下幾個(gè)部分:

http://www.baidu.com/s?wd=url

[訪問(wèn)協(xié)議]://[主機(jī)域名][:端口號(hào)]/[資源路徑][?查詢字符串]

2.3.2.請(qǐng)求方式

HTTP1.1協(xié)議標(biāo)準(zhǔn)規(guī)定了8中常規(guī)請(qǐng)求方式,分別如下:

  • GET:定義用于從服務(wù)器獲取數(shù)據(jù)
  • POST:定義用于向服務(wù)器更新數(shù)據(jù)
  • PUT:定義用于向服務(wù)器提交數(shù)據(jù)
  • DELETE:定義用于在服務(wù)器中刪除指定數(shù)據(jù)
  • OPTIONS:定義客戶端可以通過(guò)請(qǐng)求查詢服務(wù)器處理信息
  • HEAD:定義用于獲取請(qǐng)求內(nèi)容的報(bào)文頭信息
  • CONNECT:定義可以通過(guò)管道的方式連接
  • TRACE:定義心跳消息診斷的實(shí)現(xiàn)

常規(guī)的web項(xiàng)目中,在實(shí)際使用操作時(shí)我們一般使用get/post兩種請(qǐng)求操作方式,通過(guò)get/post兩種請(qǐng)求方式完成和服務(wù)器之間的常規(guī)數(shù)據(jù)交互已經(jīng)可以滿足我們項(xiàng)目的大部分情況

  • GET請(qǐng)求:訪問(wèn)的url地址中可以包含傳遞給服務(wù)器的參數(shù),參數(shù)必須是字符串,url地址的長(zhǎng)度瀏覽器本身沒(méi)有限制,但是受到服務(wù)器最大接收數(shù)據(jù)長(zhǎng)度的限制,所以get請(qǐng)求一般用于傳輸不需要保密的長(zhǎng)度收到限制的字符串?dāng)?shù)據(jù)。處理效率較高
  • POST請(qǐng)求:訪問(wèn)的url地址中不會(huì)出現(xiàn)傳遞給服務(wù)器的參數(shù),參數(shù)會(huì)包含在請(qǐng)求體中進(jìn)行處理,主要傳遞字符串?dāng)?shù)據(jù),可以傳遞二進(jìn)制數(shù)據(jù),傳遞數(shù)據(jù)的大小瀏覽器同樣沒(méi)有做什么限制,但是服務(wù)器端會(huì)根據(jù)實(shí)際需要進(jìn)行數(shù)據(jù)量的限制,避免傳遞過(guò)大的數(shù)據(jù)到底服務(wù)器資源不夠使用!所以post請(qǐng)求一般用于傳遞較為敏感的不能暴露給別人看到的并且數(shù)據(jù)較大的數(shù)據(jù)。

隨著web軟件的發(fā)展,除了常規(guī)的請(qǐng)求操作方式之外,新的請(qǐng)求處理方式RESTful風(fēng)格也逐步的在很多軟件中開(kāi)始應(yīng)用,在RESTful處理風(fēng)格中,經(jīng)常使用如下四種請(qǐng)求方式:

  • GET: 用于從服務(wù)器中獲取數(shù)據(jù)
  • POST:用于在服務(wù)器中更新數(shù)據(jù)
  • DELETE:用于在服務(wù)器中刪除指定數(shù)據(jù)
  • PUT: 用于向服務(wù)器提交新的數(shù)據(jù)

并且在處理過(guò)程中,和服務(wù)器交互的參數(shù)有可能會(huì)包含在Url地址中,這樣更加提高了參數(shù)的安全性。

2.3.2.請(qǐng)求頭request header

請(qǐng)求頭信息是請(qǐng)求數(shù)據(jù)的重要組成部分之一,包含了客戶端請(qǐng)求的身份標(biāo)識(shí)等重要信息,就請(qǐng)求頭簡(jiǎn)單了解如下內(nèi)容:

  • Host:訪問(wèn)web資源的網(wǎng)絡(luò)域名和端口號(hào)
  • Connection: 連接類型,一般當(dāng)下瀏覽器都會(huì)發(fā)送一個(gè)這樣數(shù)據(jù):Connection:keep-alive給對(duì)應(yīng)的服務(wù)器,keep-alive是保持連接的意思,也就是長(zhǎng)連接的意思,如果服務(wù)器支持客戶端keep-alive長(zhǎng)連接,會(huì)返回包含keep-alive的響應(yīng)數(shù)據(jù)表示建立長(zhǎng)連接,可以繼續(xù)進(jìn)行操作;如果服務(wù)器不支持就直接返回close關(guān)閉連接操作
  • Upgrade-insecure-requests:請(qǐng)求升級(jí),就是當(dāng)用戶在通過(guò)http協(xié)議訪問(wèn)當(dāng)前資源數(shù)據(jù)時(shí),自動(dòng)替換為https安全訪問(wèn)協(xié)議并且不提示警告信息
  • User-agent:用戶代理,用于代理客戶發(fā)起請(qǐng)求的工具,一般表示瀏覽器,描述訪問(wèn)網(wǎng)頁(yè)的瀏覽器的信息
  • Accept:接受數(shù)據(jù)類型描述;如Accept:text/html;表示客戶端可以接收的數(shù)據(jù)是html網(wǎng)頁(yè)文檔數(shù)據(jù);Accept:/;表示客戶端可以接收任何數(shù)據(jù)
  • Accept-encoding:接受文件的解碼格式,一般傳輸?shù)膬?nèi)容如:Accept-encoding:gzip;q=1.0;identify;q=0.5;*;q=0,表示如果有返回多種數(shù)據(jù)內(nèi)容,首先匹配gzip壓縮的文檔內(nèi)容,如果不是通過(guò)gzip壓縮的格式,就匹配identify壓縮編碼格式;否則就接受任意編碼格式的數(shù)據(jù)
  • Accept-language:客戶端的語(yǔ)言類型,當(dāng)服務(wù)器支持指定的語(yǔ)言類型時(shí),返回給客戶端指定的國(guó)際化語(yǔ)言內(nèi)容;
  • Referer:請(qǐng)求來(lái)源,也就是當(dāng)前網(wǎng)頁(yè)是從哪個(gè)網(wǎng)頁(yè)發(fā)起的請(qǐng)求,一般用于反盜鏈操作
  • Cookie:發(fā)送給服務(wù)器的cookie數(shù)據(jù),通過(guò)請(qǐng)求頭中的cookie屬性將客戶端的cookie數(shù)據(jù)傳遞給服務(wù)器進(jìn)行處理
  • Content-type:內(nèi)容類型,一般在POST請(qǐng)求中有效,表示指定post請(qǐng)求傳遞的數(shù)據(jù)的類型

2.3.3. 響應(yīng)頭response header

當(dāng)服務(wù)器正常處理了需要操作的業(yè)務(wù)之后,就會(huì)以響應(yīng)的方式返回給客戶端瀏覽器對(duì)應(yīng)的數(shù)據(jù),響應(yīng)對(duì)象本身就會(huì)包含對(duì)于響應(yīng)的數(shù)據(jù)內(nèi)容的描述信息

  • Cache-control:must-revalidate|no-cache|private

該響應(yīng)頭信息非常重要,如果響應(yīng)頭明確Cache-control:max-age=0或者no-cache表示不緩存任何數(shù)據(jù),任何時(shí)間再次發(fā)起請(qǐng)求都從服務(wù)器獲取新的數(shù)據(jù);同樣如果指定了Cache-control:max-age=10*24*60*60則表示在指定的時(shí)間段獲取新的數(shù)據(jù)直接從緩存中提取,不需要從服務(wù)器獲??;如果響應(yīng)頭中不包含Cache-control信息,則所有數(shù)據(jù)全部采用默認(rèn)緩存方式

  • Connection:keep-alive|close

用于高速客戶端的請(qǐng)求方式是否保持連接,某些情況下保持連接是必要的,可以在多次發(fā)起連接時(shí)重復(fù)使用打開(kāi)的連接方式,有助于提高處理效率

  • Content-encoding:gzip

響應(yīng)內(nèi)容編碼方式,一般默認(rèn)gzip,就是告訴客戶端服務(wù)器響應(yīng)的數(shù)據(jù)內(nèi)容是經(jīng)過(guò)gzip壓縮處理的,需要客戶端解壓縮解碼操作

  • Content-type:text/html;charset=UTF-8

響應(yīng)數(shù)據(jù)內(nèi)容類型,一般直接描述內(nèi)容的文件屬性和編碼方式,方便客戶端瀏覽器可以針對(duì)文件屬性使用指定方式進(jìn)行加載,通過(guò)指定的編碼方式進(jìn)行解碼操作正常顯示加載的數(shù)據(jù)內(nèi)容

  • Date:Sat, 06 Jan 2018 02:48:36 GMT

響應(yīng)數(shù)據(jù)傳輸時(shí)間,HTTP協(xié)議標(biāo)準(zhǔn)指定使用GMT格林尼治時(shí)間

  • Expires:Sat, 13 Jan 2018 01:00:07 GMT

過(guò)期時(shí)間,指定某個(gè)資源的過(guò)期時(shí)間,過(guò)期之前通過(guò)緩存直接提取數(shù)據(jù)而不是從服務(wù)器獲取數(shù)據(jù)

  • Server:BWS/1.1

服務(wù)器信息描述

  • Transfer-encoding:chunked

響應(yīng)數(shù)據(jù)內(nèi)容分塊

2.3.4.HTTP狀態(tài)碼

編碼 描述
100 客戶端應(yīng)當(dāng)繼續(xù)發(fā)送請(qǐng)求。這個(gè)臨時(shí)響應(yīng)是用來(lái)通知客戶端它的部分請(qǐng)求已經(jīng)被服務(wù)器接收,且仍未被拒絕??蛻舳藨?yīng)當(dāng)繼續(xù)發(fā)送請(qǐng)求的剩余部分,或者如果請(qǐng)求已經(jīng)完成,忽略這個(gè)響應(yīng)。服務(wù)器必須在請(qǐng)求完成后向客戶端發(fā)送一個(gè)最終響應(yīng)。
101 服務(wù)器已經(jīng)理解了客戶端的請(qǐng)求,并將通過(guò)Upgrade 消息頭通知客戶端采用不同的協(xié)議來(lái)完成這個(gè)請(qǐng)求。在發(fā)送完這個(gè)響應(yīng)最后的空行后,服務(wù)器將會(huì)切換到在Upgrade 消息頭中定義的那些協(xié)議。   只有在切換新的協(xié)議更有好處的時(shí)候才應(yīng)該采取類似措施。例如,切換到新的HTTP 版本比舊版本更有優(yōu)勢(shì),或者切換到一個(gè)實(shí)時(shí)且同步的協(xié)議以傳送利用此類特性的資源。
102 由WebDAV(RFC 2518)擴(kuò)展的狀態(tài)碼,代表處理將被繼續(xù)執(zhí)行。
200 請(qǐng)求已成功,請(qǐng)求所希望的響應(yīng)頭或數(shù)據(jù)體將隨此響應(yīng)返回。
201 請(qǐng)求已經(jīng)被實(shí)現(xiàn),而且有一個(gè)新的資源已經(jīng)依據(jù)請(qǐng)求的需要而建立,且其 URI 已經(jīng)隨Location 頭信息返回。假如需要的資源無(wú)法及時(shí)建立的話,應(yīng)當(dāng)返回 '202 Accepted'。
202 服務(wù)器已接受請(qǐng)求,但尚未處理。正如它可能被拒絕一樣,最終該請(qǐng)求可能會(huì)也可能不會(huì)被執(zhí)行。在異步操作的場(chǎng)合下,沒(méi)有比發(fā)送這個(gè)狀態(tài)碼更方便的做法了。   返回202狀態(tài)碼的響應(yīng)的目的是允許服務(wù)器接受其他過(guò)程的請(qǐng)求(例如某個(gè)每天只執(zhí)行一次的基于批處理的操作),而不必讓客戶端一直保持與服務(wù)器的連接直到批處理操作全部完成。在接受請(qǐng)求處理并返回202狀態(tài)碼的響應(yīng)應(yīng)當(dāng)在返回的實(shí)體中包含一些指示處理當(dāng)前狀態(tài)的信息,以及指向處理狀態(tài)監(jiān)視器或狀態(tài)預(yù)測(cè)的指針,以便用戶能夠估計(jì)操作是否已經(jīng)完成。
203 服務(wù)器已成功處理了請(qǐng)求,但返回的實(shí)體頭部元信息不是在原始服務(wù)器上有效的確定集合,而是來(lái)自本地或者第三方的拷貝。當(dāng)前的信息可能是原始版本的子集或者超集。例如,包含資源的元數(shù)據(jù)可能導(dǎo)致原始服務(wù)器知道元信息的超級(jí)。使用此狀態(tài)碼不是必須的,而且只有在響應(yīng)不使用此狀態(tài)碼便會(huì)返回200 OK的情況下才是合適的。
204 服務(wù)器成功處理了請(qǐng)求,但不需要返回任何實(shí)體內(nèi)容,并且希望返回更新了的元信息。響應(yīng)可能通過(guò)實(shí)體頭部的形式,返回新的或更新后的元信息。如果存在這些頭部信息,則應(yīng)當(dāng)與所請(qǐng)求的變量相呼應(yīng)。   如果客戶端是瀏覽器的話,那么用戶瀏覽器應(yīng)保留發(fā)送了該請(qǐng)求的頁(yè)面,而不產(chǎn)生任何文檔視圖上的變化,即使按照規(guī)范新的或更新后的元信息應(yīng)當(dāng)被應(yīng)用到用戶瀏覽器活動(dòng)視圖中的文檔。   由于204響應(yīng)被禁止包含任何消息體,因此它始終以消息頭后的第一個(gè)空行結(jié)尾。
205 服務(wù)器成功處理了請(qǐng)求,且沒(méi)有返回任何內(nèi)容。但是與204響應(yīng)不同,返回此狀態(tài)碼的響應(yīng)要求請(qǐng)求者重置文檔視圖。該響應(yīng)主要是被用于接受用戶輸入后,立即重置表單,以便用戶能夠輕松地開(kāi)始另一次輸入。   與204響應(yīng)一樣,該響應(yīng)也被禁止包含任何消息體,且以消息頭后的第一個(gè)空行結(jié)束。
206 服務(wù)器已經(jīng)成功處理了部分 GET 請(qǐng)求。類似于 FlashGet 或者迅雷這類的 HTTP 下載工具都是使用此類響應(yīng)實(shí)現(xiàn)斷點(diǎn)續(xù)傳或者將一個(gè)大文檔分解為多個(gè)下載段同時(shí)下載。   該請(qǐng)求必須包含 Range 頭信息來(lái)指示客戶端希望得到的內(nèi)容范圍,并且可能包含 If-Range 來(lái)作為請(qǐng)求條件。   響應(yīng)必須包含如下的頭部域:   Content-Range 用以指示本次響應(yīng)中返回的內(nèi)容的范圍;如果是 Content-Type 為 multipart/byteranges 的多段下載,則每一 multipart 段中都應(yīng)包含 Content-Range 域用以指示本段的內(nèi)容范圍。假如響應(yīng)中包含 Content-Length,那么它的數(shù)值必須匹配它返回的內(nèi)容范圍的真實(shí)字節(jié)數(shù)。   Date   ETag 和/或 Content-Location,假如同樣的請(qǐng)求本應(yīng)該返回200響應(yīng)。   Expires, Cache-Control,和/或 Vary,假如其值可能與之前相同變量的其他響應(yīng)對(duì)應(yīng)的值不同的話。   假如本響應(yīng)請(qǐng)求使用了 If-Range 強(qiáng)緩存驗(yàn)證,那么本次響應(yīng)不應(yīng)該包含其他實(shí)體頭;假如本響應(yīng)的請(qǐng)求使用了 If-Range 弱緩存驗(yàn)證,那么本次響應(yīng)禁止包含其他實(shí)體頭;這避免了緩存的實(shí)體內(nèi)容和更新了的實(shí)體頭信息之間的不一致。否則,本響應(yīng)就應(yīng)當(dāng)包含所有本應(yīng)該返回200響應(yīng)中應(yīng)當(dāng)返回的所有實(shí)體頭部域。   假如 ETag 或 Last-Modified 頭部不能精確匹配的話,則客戶端緩存應(yīng)禁止將206響應(yīng)返回的內(nèi)容與之前任何緩存過(guò)的內(nèi)容組合在一起。   任何不支持 Range 以及 Content-Range 頭的緩存都禁止緩存206響應(yīng)返回的內(nèi)容。
207 由WebDAV(RFC 2518)擴(kuò)展的狀態(tài)碼,代表之后的消息體將是一個(gè)XML消息,并且可能依照之前子請(qǐng)求數(shù)量的不同,包含一系列獨(dú)立的響應(yīng)代碼。
300 被請(qǐng)求的資源有一系列可供選擇的回饋信息,每個(gè)都有自己特定的地址和瀏覽器驅(qū)動(dòng)的商議信息。用戶或?yàn)g覽器能夠自行選擇一個(gè)首選的地址進(jìn)行重定向。   除非這是一個(gè) HEAD 請(qǐng)求,否則該響應(yīng)應(yīng)當(dāng)包括一個(gè)資源特性及地址的列表的實(shí)體,以便用戶或?yàn)g覽器從中選擇最合適的重定向地址。這個(gè)實(shí)體的格式由 Content-Type 定義的格式所決定。瀏覽器可能根據(jù)響應(yīng)的格式以及瀏覽器自身能力,自動(dòng)作出最合適的選擇。當(dāng)然,RFC 2616規(guī)范并沒(méi)有規(guī)定這樣的自動(dòng)選擇該如何進(jìn)行。   如果服務(wù)器本身已經(jīng)有了首選的回饋選擇,那么在 Location 中應(yīng)當(dāng)指明這個(gè)回饋的 URI;瀏覽器可能會(huì)將這個(gè) Location 值作為自動(dòng)重定向的地址。此外,除非額外指定,否則這個(gè)響應(yīng)也是可緩存的。
301 被請(qǐng)求的資源已永久移動(dòng)到新位置,并且將來(lái)任何對(duì)此資源的引用都應(yīng)該使用本響應(yīng)返回的若干個(gè) URI 之一。如果可能,擁有鏈接編輯功能的客戶端應(yīng)當(dāng)自動(dòng)把請(qǐng)求的地址修改為從服務(wù)器反饋回來(lái)的地址。除非額外指定,否則這個(gè)響應(yīng)也是可緩存的。   新的永久性的 URI 應(yīng)當(dāng)在響應(yīng)的 Location 域中返回。除非這是一個(gè) HEAD 請(qǐng)求,否則響應(yīng)的實(shí)體中應(yīng)當(dāng)包含指向新的 URI 的超鏈接及簡(jiǎn)短說(shuō)明。   如果這不是一個(gè) GET 或者 HEAD 請(qǐng)求,因此瀏覽器禁止自動(dòng)進(jìn)行重定向,除非得到用戶的確認(rèn),因?yàn)檎?qǐng)求的條件可能因此發(fā)生變化。   注意:對(duì)于某些使用 HTTP/1.0 協(xié)議的瀏覽器,當(dāng)它們發(fā)送的 POST 請(qǐng)求得到了一個(gè)301響應(yīng)的話,接下來(lái)的重定向請(qǐng)求將會(huì)變成 GET 方式。
302 請(qǐng)求的資源現(xiàn)在臨時(shí)從不同的 URI 響應(yīng)請(qǐng)求。由于這樣的重定向是臨時(shí)的,客戶端應(yīng)當(dāng)繼續(xù)向原有地址發(fā)送以后的請(qǐng)求。只有在Cache-Control或Expires中進(jìn)行了指定的情況下,這個(gè)響應(yīng)才是可緩存的。   新的臨時(shí)性的 URI 應(yīng)當(dāng)在響應(yīng)的 Location 域中返回。除非這是一個(gè) HEAD 請(qǐng)求,否則響應(yīng)的實(shí)體中應(yīng)當(dāng)包含指向新的 URI 的超鏈接及簡(jiǎn)短說(shuō)明。   如果這不是一個(gè) GET 或者 HEAD 請(qǐng)求,那么瀏覽器禁止自動(dòng)進(jìn)行重定向,除非得到用戶的確認(rèn),因?yàn)檎?qǐng)求的條件可能因此發(fā)生變化。   注意:雖然RFC 1945和RFC 2068規(guī)范不允許客戶端在重定向時(shí)改變請(qǐng)求的方法,但是很多現(xiàn)存的瀏覽器將302響應(yīng)視作為303響應(yīng),并且使用 GET 方式訪問(wèn)在 Location 中規(guī)定的 URI,而無(wú)視原先請(qǐng)求的方法。狀態(tài)碼303和307被添加了進(jìn)來(lái),用以明確服務(wù)器期待客戶端進(jìn)行何種反應(yīng)。
303 對(duì)應(yīng)當(dāng)前請(qǐng)求的響應(yīng)可以在另一個(gè) URI 上被找到,而且客戶端應(yīng)當(dāng)采用 GET 的方式訪問(wèn)那個(gè)資源。這個(gè)方法的存在主要是為了允許由腳本激活的POST請(qǐng)求輸出重定向到一個(gè)新的資源。這個(gè)新的 URI 不是原始資源的替代引用。同時(shí),303響應(yīng)禁止被緩存。當(dāng)然,第二個(gè)請(qǐng)求(重定向)可能被緩存。   新的 URI 應(yīng)當(dāng)在響應(yīng)的 Location 域中返回。除非這是一個(gè) HEAD 請(qǐng)求,否則響應(yīng)的實(shí)體中應(yīng)當(dāng)包含指向新的 URI 的超鏈接及簡(jiǎn)短說(shuō)明。   注意:許多 HTTP/1.1 版以前的 瀏覽器不能正確理解303狀態(tài)。如果需要考慮與這些瀏覽器之間的互動(dòng),302狀態(tài)碼應(yīng)該可以勝任,因?yàn)榇蠖鄶?shù)的瀏覽器處理302響應(yīng)時(shí)的方式恰恰就是上述規(guī)范要求客戶端處理303響應(yīng)時(shí)應(yīng)當(dāng)做的。
304 如果客戶端發(fā)送了一個(gè)帶條件的 GET 請(qǐng)求且該請(qǐng)求已被允許,而文檔的內(nèi)容(自上次訪問(wèn)以來(lái)或者根據(jù)請(qǐng)求的條件)并沒(méi)有改變,則服務(wù)器應(yīng)當(dāng)返回這個(gè)狀態(tài)碼。304響應(yīng)禁止包含消息體,因此始終以消息頭后的第一個(gè)空行結(jié)尾。   該響應(yīng)必須包含以下的頭信息:   Date,除非這個(gè)服務(wù)器沒(méi)有時(shí)鐘。假如沒(méi)有時(shí)鐘的服務(wù)器也遵守這些規(guī)則,那么代理服務(wù)器以及客戶端可以自行將 Date 字段添加到接收到的響應(yīng)頭中去(正如RFC 2068中規(guī)定的一樣),緩存機(jī)制將會(huì)正常工作。   ETag 和/或 Content-Location,假如同樣的請(qǐng)求本應(yīng)返回200響應(yīng)。   Expires, Cache-Control,和/或Vary,假如其值可能與之前相同變量的其他響應(yīng)對(duì)應(yīng)的值不同的話。   假如本響應(yīng)請(qǐng)求使用了強(qiáng)緩存驗(yàn)證,那么本次響應(yīng)不應(yīng)該包含其他實(shí)體頭;否則(例如,某個(gè)帶條件的 GET 請(qǐng)求使用了弱緩存驗(yàn)證),本次響應(yīng)禁止包含其他實(shí)體頭;這避免了緩存了的實(shí)體內(nèi)容和更新了的實(shí)體頭信息之間的不一致。   假如某個(gè)304響應(yīng)指明了當(dāng)前某個(gè)實(shí)體沒(méi)有緩存,那么緩存系統(tǒng)必須忽視這個(gè)響應(yīng),并且重復(fù)發(fā)送不包含限制條件的請(qǐng)求。   假如接收到一個(gè)要求更新某個(gè)緩存條目的304響應(yīng),那么緩存系統(tǒng)必須更新整個(gè)條目以反映所有在響應(yīng)中被更新的字段的值。
305 被請(qǐng)求的資源必須通過(guò)指定的代理才能被訪問(wèn)。Location 域中將給出指定的代理所在的 URI 信息,接收者需要重復(fù)發(fā)送一個(gè)單獨(dú)的請(qǐng)求,通過(guò)這個(gè)代理才能訪問(wèn)相應(yīng)資源。只有原始服務(wù)器才能建立305響應(yīng)。   注意:RFC 2068中沒(méi)有明確305響應(yīng)是為了重定向一個(gè)單獨(dú)的請(qǐng)求,而且只能被原始服務(wù)器建立。忽視這些限制可能導(dǎo)致嚴(yán)重的安全后果。
306 在最新版的規(guī)范中,306狀態(tài)碼已經(jīng)不再被使用。
307 請(qǐng)求的資源現(xiàn)在臨時(shí)從不同的URI 響應(yīng)請(qǐng)求。由于這樣的重定向是臨時(shí)的,客戶端應(yīng)當(dāng)繼續(xù)向原有地址發(fā)送以后的請(qǐng)求。只有在Cache-Control或Expires中進(jìn)行了指定的情況下,這個(gè)響應(yīng)才是可緩存的。   新的臨時(shí)性的URI 應(yīng)當(dāng)在響應(yīng)的 Location 域中返回。除非這是一個(gè)HEAD 請(qǐng)求,否則響應(yīng)的實(shí)體中應(yīng)當(dāng)包含指向新的URI 的超鏈接及簡(jiǎn)短說(shuō)明。因?yàn)椴糠譃g覽器不能識(shí)別307響應(yīng),因此需要添加上述必要信息以便用戶能夠理解并向新的 URI 發(fā)出訪問(wèn)請(qǐng)求。   如果這不是一個(gè)GET 或者 HEAD 請(qǐng)求,那么瀏覽器禁止自動(dòng)進(jìn)行重定向,除非得到用戶的確認(rèn),因?yàn)檎?qǐng)求的條件可能因此發(fā)生變化。
400 1、語(yǔ)義有誤,當(dāng)前請(qǐng)求無(wú)法被服務(wù)器理解。除非進(jìn)行修改,否則客戶端不應(yīng)該重復(fù)提交這個(gè)請(qǐng)求。   2、請(qǐng)求參數(shù)有誤。
401 當(dāng)前請(qǐng)求需要用戶驗(yàn)證。該響應(yīng)必須包含一個(gè)適用于被請(qǐng)求資源的 WWW-Authenticate 信息頭用以詢問(wèn)用戶信息??蛻舳丝梢灾貜?fù)提交一個(gè)包含恰當(dāng)?shù)?Authorization 頭信息的請(qǐng)求。如果當(dāng)前請(qǐng)求已經(jīng)包含了 Authorization 證書(shū),那么401響應(yīng)代表著服務(wù)器驗(yàn)證已經(jīng)拒絕了那些證書(shū)。如果401響應(yīng)包含了與前一個(gè)響應(yīng)相同的身份驗(yàn)證詢問(wèn),且瀏覽器已經(jīng)至少嘗試了一次驗(yàn)證,那么瀏覽器應(yīng)當(dāng)向用戶展示響應(yīng)中包含的實(shí)體信息,因?yàn)檫@個(gè)實(shí)體信息中可能包含了相關(guān)診斷信息。參見(jiàn)RFC 2617。
402 該狀態(tài)碼是為了將來(lái)可能的需求而預(yù)留的。
403 服務(wù)器已經(jīng)理解請(qǐng)求,但是拒絕執(zhí)行它。與401響應(yīng)不同的是,身份驗(yàn)證并不能提供任何幫助,而且這個(gè)請(qǐng)求也不應(yīng)該被重復(fù)提交。如果這不是一個(gè) HEAD 請(qǐng)求,而且服務(wù)器希望能夠講清楚為何請(qǐng)求不能被執(zhí)行,那么就應(yīng)該在實(shí)體內(nèi)描述拒絕的原因。當(dāng)然服務(wù)器也可以返回一個(gè)404響應(yīng),假如它不希望讓客戶端獲得任何信息。
404 請(qǐng)求失敗,請(qǐng)求所希望得到的資源未被在服務(wù)器上發(fā)現(xiàn)。沒(méi)有信息能夠告訴用戶這個(gè)狀況到底是暫時(shí)的還是永久的。假如服務(wù)器知道情況的話,應(yīng)當(dāng)使用410狀態(tài)碼來(lái)告知舊資源因?yàn)槟承﹥?nèi)部的配置機(jī)制問(wèn)題,已經(jīng)永久的不可用,而且沒(méi)有任何可以跳轉(zhuǎn)的地址。404這個(gè)狀態(tài)碼被廣泛應(yīng)用于當(dāng)服務(wù)器不想揭示到底為何請(qǐng)求被拒絕或者沒(méi)有其他適合的響應(yīng)可用的情況下。
405 請(qǐng)求行中指定的請(qǐng)求方法不能被用于請(qǐng)求相應(yīng)的資源。該響應(yīng)必須返回一個(gè)Allow 頭信息用以表示出當(dāng)前資源能夠接受的請(qǐng)求方法的列表。   鑒于 PUT,DELETE 方法會(huì)對(duì)服務(wù)器上的資源進(jìn)行寫(xiě)操作,因而絕大部分的網(wǎng)頁(yè)服務(wù)器都不支持或者在默認(rèn)配置下不允許上述請(qǐng)求方法,對(duì)于此類請(qǐng)求均會(huì)返回405錯(cuò)誤。
406 請(qǐng)求的資源的內(nèi)容特性無(wú)法滿足請(qǐng)求頭中的條件,因而無(wú)法生成響應(yīng)實(shí)體。   除非這是一個(gè) HEAD 請(qǐng)求,否則該響應(yīng)就應(yīng)當(dāng)返回一個(gè)包含可以讓用戶或者瀏覽器從中選擇最合適的實(shí)體特性以及地址列表的實(shí)體。實(shí)體的格式由 Content-Type 頭中定義的媒體類型決定。瀏覽器可以根據(jù)格式及自身能力自行作出最佳選擇。但是,規(guī)范中并沒(méi)有定義任何作出此類自動(dòng)選擇的標(biāo)準(zhǔn)。
407 與401響應(yīng)類似,只不過(guò)客戶端必須在代理服務(wù)器上進(jìn)行身份驗(yàn)證。代理服務(wù)器必須返回一個(gè) Proxy-Authenticate 用以進(jìn)行身份詢問(wèn)??蛻舳丝梢苑祷匾粋€(gè) Proxy-Authorization 信息頭用以驗(yàn)證。參見(jiàn)RFC 2617。
408 請(qǐng)求超時(shí)。客戶端沒(méi)有在服務(wù)器預(yù)備等待的時(shí)間內(nèi)完成一個(gè)請(qǐng)求的發(fā)送??蛻舳丝梢噪S時(shí)再次提交這一請(qǐng)求而無(wú)需進(jìn)行任何更改。
409 由于和被請(qǐng)求的資源的當(dāng)前狀態(tài)之間存在沖突,請(qǐng)求無(wú)法完成。這個(gè)代碼只允許用在這樣的情況下才能被使用:用戶被認(rèn)為能夠解決沖突,并且會(huì)重新提交新的請(qǐng)求。該響應(yīng)應(yīng)當(dāng)包含足夠的信息以便用戶發(fā)現(xiàn)沖突的源頭。   沖突通常發(fā)生于對(duì) PUT 請(qǐng)求的處理中。例如,在采用版本檢查的環(huán)境下,某次 PUT 提交的對(duì)特定資源的修改請(qǐng)求所附帶的版本信息與之前的某個(gè)(第三方)請(qǐng)求向沖突,那么此時(shí)服務(wù)器就應(yīng)該返回一個(gè)409錯(cuò)誤,告知用戶請(qǐng)求無(wú)法完成。此時(shí),響應(yīng)實(shí)體中很可能會(huì)包含兩個(gè)沖突版本之間的差異比較,以便用戶重新提交歸并以后的新版本。
410 被請(qǐng)求的資源在服務(wù)器上已經(jīng)不再可用,而且沒(méi)有任何已知的轉(zhuǎn)發(fā)地址。這樣的狀況應(yīng)當(dāng)被認(rèn)為是永久性的。如果可能,擁有鏈接編輯功能的客戶端應(yīng)當(dāng)在獲得用戶許可后刪除所有指向這個(gè)地址的引用。如果服務(wù)器不知道或者無(wú)法確定這個(gè)狀況是否是永久的,那么就應(yīng)該使用404狀態(tài)碼。除非額外說(shuō)明,否則這個(gè)響應(yīng)是可緩存的。   410響應(yīng)的目的主要是幫助網(wǎng)站管理員維護(hù)網(wǎng)站,通知用戶該資源已經(jīng)不再可用,并且服務(wù)器擁有者希望所有指向這個(gè)資源的遠(yuǎn)端連接也被刪除。這類事件在限時(shí)、增值服務(wù)中很普遍。同樣,410響應(yīng)也被用于通知客戶端在當(dāng)前服務(wù)器站點(diǎn)上,原本屬于某個(gè)個(gè)人的資源已經(jīng)不再可用。當(dāng)然,是否需要把所有永久不可用的資源標(biāo)記為'410 Gone',以及是否需要保持此標(biāo)記多長(zhǎng)時(shí)間,完全取決于服務(wù)器擁有者。
411 服務(wù)器拒絕在沒(méi)有定義 Content-Length 頭的情況下接受請(qǐng)求。在添加了表明請(qǐng)求消息體長(zhǎng)度的有效 Content-Length 頭之后,客戶端可以再次提交該請(qǐng)求。
412 服務(wù)器在驗(yàn)證在請(qǐng)求的頭字段中給出先決條件時(shí),沒(méi)能滿足其中的一個(gè)或多個(gè)。這個(gè)狀態(tài)碼允許客戶端在獲取資源時(shí)在請(qǐng)求的元信息(請(qǐng)求頭字段數(shù)據(jù))中設(shè)置先決條件,以此避免該請(qǐng)求方法被應(yīng)用到其希望的內(nèi)容以外的資源上。
413 服務(wù)器拒絕處理當(dāng)前請(qǐng)求,因?yàn)樵撜?qǐng)求提交的實(shí)體數(shù)據(jù)大小超過(guò)了服務(wù)器愿意或者能夠處理的范圍。此種情況下,服務(wù)器可以關(guān)閉連接以免客戶端繼續(xù)發(fā)送此請(qǐng)求。   如果這個(gè)狀況是臨時(shí)的,服務(wù)器應(yīng)當(dāng)返回一個(gè) Retry-After 的響應(yīng)頭,以告知客戶端可以在多少時(shí)間以后重新嘗試。
414 請(qǐng)求的URI 長(zhǎng)度超過(guò)了服務(wù)器能夠解釋的長(zhǎng)度,因此服務(wù)器拒絕對(duì)該請(qǐng)求提供服務(wù)。這比較少見(jiàn),通常的情況包括:   本應(yīng)使用POST方法的表單提交變成了GET方法,導(dǎo)致查詢字符串(Query String)過(guò)長(zhǎng)。   重定向URI “黑洞”,例如每次重定向把舊的 URI 作為新的 URI 的一部分,導(dǎo)致在若干次重定向后 URI 超長(zhǎng)。   客戶端正在嘗試?yán)媚承┓?wù)器中存在的安全漏洞攻擊服務(wù)器。這類服務(wù)器使用固定長(zhǎng)度的緩沖讀取或操作請(qǐng)求的 URI,當(dāng) GET 后的參數(shù)超過(guò)某個(gè)數(shù)值后,可能會(huì)產(chǎn)生緩沖區(qū)溢出,導(dǎo)致任意代碼被執(zhí)行[1]。沒(méi)有此類漏洞的服務(wù)器,應(yīng)當(dāng)返回414狀態(tài)碼。
415 對(duì)于當(dāng)前請(qǐng)求的方法和所請(qǐng)求的資源,請(qǐng)求中提交的實(shí)體并不是服務(wù)器中所支持的格式,因此請(qǐng)求被拒絕。
416 如果請(qǐng)求中包含了 Range 請(qǐng)求頭,并且 Range 中指定的任何數(shù)據(jù)范圍都與當(dāng)前資源的可用范圍不重合,同時(shí)請(qǐng)求中又沒(méi)有定義 If-Range 請(qǐng)求頭,那么服務(wù)器就應(yīng)當(dāng)返回416狀態(tài)碼。   假如 Range 使用的是字節(jié)范圍,那么這種情況就是指請(qǐng)求指定的所有數(shù)據(jù)范圍的首字節(jié)位置都超過(guò)了當(dāng)前資源的長(zhǎng)度。服務(wù)器也應(yīng)當(dāng)在返回416狀態(tài)碼的同時(shí),包含一個(gè) Content-Range 實(shí)體頭,用以指明當(dāng)前資源的長(zhǎng)度。這個(gè)響應(yīng)也被禁止使用 multipart/byteranges 作為其 Content-Type。
417 在請(qǐng)求頭 Expect 中指定的預(yù)期內(nèi)容無(wú)法被服務(wù)器滿足,或者這個(gè)服務(wù)器是一個(gè)代理服務(wù)器,它有明顯的證據(jù)證明在當(dāng)前路由的下一個(gè)節(jié)點(diǎn)上,Expect 的內(nèi)容無(wú)法被滿足。
421 從當(dāng)前客戶端所在的IP地址到服務(wù)器的連接數(shù)超過(guò)了服務(wù)器許可的最大范圍。通常,這里的IP地址指的是從服務(wù)器上看到的客戶端地址(比如用戶的網(wǎng)關(guān)或者代理服務(wù)器地址)。在這種情況下,連接數(shù)的計(jì)算可能涉及到不止一個(gè)終端用戶。
422 從當(dāng)前客戶端所在的IP地址到服務(wù)器的連接數(shù)超過(guò)了服務(wù)器許可的最大范圍。通常,這里的IP地址指的是從服務(wù)器上看到的客戶端地址(比如用戶的網(wǎng)關(guān)或者代理服務(wù)器地址)。在這種情況下,連接數(shù)的計(jì)算可能涉及到不止一個(gè)終端用戶。
422 請(qǐng)求格式正確,但是由于含有語(yǔ)義錯(cuò)誤,無(wú)法響應(yīng)。(RFC 4918 WebDAV)423 Locked   當(dāng)前資源被鎖定。(RFC 4918 WebDAV)
424 由于之前的某個(gè)請(qǐng)求發(fā)生的錯(cuò)誤,導(dǎo)致當(dāng)前請(qǐng)求失敗,例如 PROPPATCH。(RFC 4918 WebDAV)
425 在WebDav Advanced Collections 草案中定義,但是未出現(xiàn)在《WebDAV 順序集協(xié)議》(RFC 3658)中。
426 客戶端應(yīng)當(dāng)切換到TLS/1.0。(RFC 2817)
449 由微軟擴(kuò)展,代表請(qǐng)求應(yīng)當(dāng)在執(zhí)行完適當(dāng)?shù)牟僮骱筮M(jìn)行重試。
500 服務(wù)器遇到了一個(gè)未曾預(yù)料的狀況,導(dǎo)致了它無(wú)法完成對(duì)請(qǐng)求的處理。一般來(lái)說(shuō),這個(gè)問(wèn)題都會(huì)在服務(wù)器的程序碼出錯(cuò)時(shí)出現(xiàn)。
501 服務(wù)器不支持當(dāng)前請(qǐng)求所需要的某個(gè)功能。當(dāng)服務(wù)器無(wú)法識(shí)別請(qǐng)求的方法,并且無(wú)法支持其對(duì)任何資源的請(qǐng)求。
502 作為網(wǎng)關(guān)或者代理工作的服務(wù)器嘗試執(zhí)行請(qǐng)求時(shí),從上游服務(wù)器接收到無(wú)效的響應(yīng)。
503 由于臨時(shí)的服務(wù)器維護(hù)或者過(guò)載,服務(wù)器當(dāng)前無(wú)法處理請(qǐng)求。這個(gè)狀況是臨時(shí)的,并且將在一段時(shí)間以后恢復(fù)。如果能夠預(yù)計(jì)延遲時(shí)間,那么響應(yīng)中可以包含一個(gè) Retry-After 頭用以標(biāo)明這個(gè)延遲時(shí)間。如果沒(méi)有給出這個(gè) Retry-After 信息,那么客戶端應(yīng)當(dāng)以處理500響應(yīng)的方式處理它。   注意:503狀態(tài)碼的存在并不意味著服務(wù)器在過(guò)載的時(shí)候必須使用它。某些服務(wù)器只不過(guò)是希望拒絕客戶端的連接。
504 作為網(wǎng)關(guān)或者代理工作的服務(wù)器嘗試執(zhí)行請(qǐng)求時(shí),未能及時(shí)從上游服務(wù)器(URI標(biāo)識(shí)出的服務(wù)器,例如HTTP、FTP、LDAP)或者輔助服務(wù)器(例如DNS)收到響應(yīng)。   注意:某些代理服務(wù)器在DNS查詢超時(shí)時(shí)會(huì)返回400或者500錯(cuò)誤
505 服務(wù)器不支持,或者拒絕支持在請(qǐng)求中使用的 HTTP 版本。這暗示著服務(wù)器不能或不愿使用與客戶端相同的版本。響應(yīng)中應(yīng)當(dāng)包含一個(gè)描述了為何版本不被支持以及服務(wù)器支持哪些協(xié)議的實(shí)體。
506 由《透明內(nèi)容協(xié)商協(xié)議》(RFC 2295)擴(kuò)展,代表服務(wù)器存在內(nèi)部配置錯(cuò)誤:被請(qǐng)求的協(xié)商變?cè)Y源被配置為在透明內(nèi)容協(xié)商中使用自己,因此在一個(gè)協(xié)商處理中不是一個(gè)合適的重點(diǎn)。
507 服務(wù)器無(wú)法存儲(chǔ)完成請(qǐng)求所必須的內(nèi)容。這個(gè)狀況被認(rèn)為是臨時(shí)的。WebDAV (RFC 4918)
509 服務(wù)器達(dá)到帶寬限制。這不是一個(gè)官方的狀態(tài)碼,但是仍被廣泛使用。
510 獲取資源所需要的策略并沒(méi)有沒(méi)滿足。(RFC 2774)

2.4. 網(wǎng)絡(luò)數(shù)據(jù)抓包分析

進(jìn)行網(wǎng)絡(luò)爬蟲(chóng)程序開(kāi)發(fā)之前,首先針對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行定位分析非常重要,對(duì)于網(wǎng)絡(luò)數(shù)據(jù)的定位處理通常使用抓包工具進(jìn)行操作,常用的抓包工具如瀏覽器F12工具、Fiddler、wireshark等等,在爬蟲(chóng)處理過(guò)程中,使用較多的是F12網(wǎng)絡(luò)工具和Fiddler。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容