最近線上用戶請(qǐng)求時(shí)不時(shí)返回502,并且沒多大規(guī)律,我們的部署架構(gòu)是Nginx + web應(yīng)用,nginx中的upstream配置了兩個(gè)web做負(fù)載均衡。
經(jīng)過分析web應(yīng)用,出現(xiàn)502的時(shí)候請(qǐng)求并沒有到達(dá)web應(yīng)用,所以可以斷定請(qǐng)求502是Nginx直接返回,查看Nginx的access.log可以查到對(duì)應(yīng)的請(qǐng)求信息,確實(shí)返回502
GET /api/app/1 HTTP/1.1" 502 541 17.340
Nginx 的error.log日志相關(guān)異常:
upstream server temporarily disabled while reading response header from upstream, client..
no live upstreams while connecting to upstream, client..
可以看到,是因?yàn)閡pstream server無效了,沒有可用的web應(yīng)用導(dǎo)致,看到這個(gè)異常時(shí),第一個(gè)反應(yīng)是難不成兩臺(tái)web會(huì)都掛了???
但是查看web的運(yùn)行日志和服務(wù)狀態(tài)service xx status,當(dāng)出現(xiàn)502時(shí),web應(yīng)用的運(yùn)行都是正常的,并沒有重啟或是宕機(jī),所以排除web應(yīng)用問題,那會(huì)不會(huì)是之前有其他異常導(dǎo)致這個(gè)502?。坷^續(xù)分析了出現(xiàn)502之前的日志,果然,在502之前都有一個(gè)500異常,并且這個(gè)異常很有頻率的出現(xiàn)。
"GET /api/project HTTP/1.1" 500 214 0.087 "http://xx.com/" "Mozilla/5.0 (Win
dows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36" "-" "-" xxx.net "10.x.x.x:8081, 10.x.x.x:8081" "500, 500" "0.045, 0.042"
通過url分析發(fā)現(xiàn),這個(gè)是因?yàn)轫撁嬗幸粋€(gè)定時(shí)任務(wù),會(huì)十秒刷新一次,而這個(gè)api正好因?yàn)橛衎ug,請(qǐng)求會(huì)返回500,不過有點(diǎn)想不通的是500為什么會(huì)導(dǎo)致后續(xù)正常請(qǐng)求出現(xiàn)502,后來通過分析nginx的nginx.conf,原來nginx配置了proxy_next_upstream屬性,這個(gè)屬性作用是如果發(fā)現(xiàn)請(qǐng)求返回的是后面的配置狀態(tài)時(shí)就會(huì)轉(zhuǎn)發(fā)到下一個(gè)upstream,例如:500
location / {
? ? ? proxy_pass? ? ? ? http://app-proxy;
? ? ? proxy_next_upstream error timeout http_500 http_502 http_503 http_504;
? ? ? proxy_next_upstream_tries 3;
? ? ? proxy_connect_timeout 60s;
? ? ? proxy_read_timeout 60s;
? ? ? proxy_send_timeout 60s;
? ? ? proxy_pass_request_headers? ? ? on;
? ? ? proxy_set_header? Host? ? ? ? ? ? $host:$server_port;
? ? ? proxy_set_header? X-Real-IP? ? ? ? $remote_addr;
? ? ? proxy_set_header? X-Forwarded-For? $proxy_add_x_forwarded_for;
? ? ? set $domain default;
結(jié)果測(cè)試發(fā)現(xiàn),如果每個(gè)實(shí)例都返回500后,接下來的請(qǐng)求就會(huì)出現(xiàn)502,如果訪問正常的api,又會(huì)恢復(fù)正常,說明nginx當(dāng)發(fā)現(xiàn)upstream都為500的時(shí)候,就會(huì)臨時(shí)disable所有upstream,也就是上面error.log上出現(xiàn)的“upstream server temporarily disabled”,后續(xù)請(qǐng)求就會(huì)有“no live upstreams”問題,但是出現(xiàn)502后,新請(qǐng)求會(huì)重新檢測(cè),當(dāng)請(qǐng)求是200,就會(huì)恢復(fù)正常。
解決:?jiǎn)栴}原因找到了,解決辦法也就簡(jiǎn)單了,這個(gè)500一般是服務(wù)器端的bug,一般請(qǐng)求都不會(huì)直接返回500,出現(xiàn)問題及時(shí)解決就好,另外這個(gè)使用這個(gè)屬性時(shí)得注意,如果請(qǐng)求是后面枚舉的狀態(tài)時(shí),nginx會(huì)直接轉(zhuǎn)到另外一個(gè)upstream,所以會(huì)出現(xiàn)多個(gè)實(shí)例都接收到請(qǐng)求的情況,有些情況下是不允許的,所以使用的時(shí)候需要分析一下。