記一次HTTP連接重用問題分析

最近新發(fā)現(xiàn)了一個(gè)開源項(xiàng)目叫pyroscope:一個(gè)開源持續(xù)Profiling平臺(tái)。

image.png

之所以關(guān)注到這個(gè)開源項(xiàng)目跟我以前的一個(gè)想法有一些契合,所以就先照著官方文檔,寫了個(gè)樣例試用

package main

import (
    "github.com/gin-gonic/gin"
    "github.com/pyroscope-io/pyroscope/pkg/agent/profiler"
)

func main() {
    profiler.Start(profiler.Config{
        ApplicationName: "backend.purchases",
        ServerAddress:   "http://localhost:4040",
    })

    r := gin.Default()
    r.GET("/ping", func(c *gin.Context) {
        c.JSON(200, gin.H{
            "message": "pong",
        })
    })
    r.Run()
}

先把服務(wù)跑起來(lái)再說(shuō),結(jié)果卻發(fā)現(xiàn)Agent上送Profiler經(jīng)常會(huì)有EOF錯(cuò)誤,這讓我覺得有點(diǎn)尷尬,看到Issues上有人提了這個(gè)問題,在好奇心驅(qū)使下,準(zhǔn)備看看怎么回事

抓包分析

用wireshark抓包看了一下


image.png

發(fā)現(xiàn)竟然是服務(wù)端在先關(guān)閉連接,此時(shí)我還未看代碼,直接上此類服務(wù)應(yīng)該用長(zhǎng)連接才對(duì),翻看服務(wù)端代碼也是常規(guī)寫法

s := &http.Server{
    Addr:           ctrl.cfg.Server.ApiBindAddr,
    Handler:        mux,
    ReadTimeout:    10 * time.Second,
    WriteTimeout:   10 * time.Second,
    MaxHeaderBytes: 1 << 20,
    ErrorLog:       golog.New(w, "", 0),
}

Agent端了也是默認(rèn)長(zhǎng)連接的

&http.Client{
    Transport: &http.Transport{
        MaxConnsPerHost: cfg.UpstreamThreads,
    },
    Timeout: cfg.UpstreamRequestTimeout,
}

所以其實(shí)兩端都是支持長(zhǎng)連接的,但連接確實(shí)是首先由服務(wù)端關(guān)閉的,這不合理啊,回頭再來(lái)看抓包信息,Agent發(fā)送了[FIN, ACK]以后,還發(fā)了一次POST請(qǐng)求,正常情況Server端應(yīng)該回一個(gè)ACK,不過(guò)由于經(jīng)過(guò)了[FIN]->[FIN, ACK]此時(shí)服務(wù)端已經(jīng)處于FIN_WAIT_1狀態(tài)了,正等對(duì)端回ACK和FIN,不過(guò)比較巧的是剛好Agent端此時(shí)發(fā)關(guān)了一個(gè)POST請(qǐng)求,此時(shí)服務(wù)端只能收數(shù)據(jù),不能發(fā)送數(shù)據(jù),所以服務(wù)端發(fā)回了一個(gè)RST


image.png

原因是什么?

現(xiàn)象分析完了,那為什么會(huì)出現(xiàn)這種情況呢?網(wǎng)上看到一些此類問題解決辦法是客戶端處理POST請(qǐng)求直接Close關(guān)掉連接,這個(gè)就沒法復(fù)用連接了,而且場(chǎng)景不同,根本不應(yīng)該這么暴力操作,還是要具體問題具體分析的。關(guān)注一個(gè)小細(xì)節(jié),在Agent發(fā)起[SYN]建立連接到Server發(fā)起[FIN]關(guān)注連接時(shí)間間隔正好是10s,這個(gè)時(shí)間與Server的讀寫超時(shí)時(shí)間相同,而Agent的上送Profiler的默認(rèn)時(shí)間間隔也是10s,這之間會(huì)不會(huì)有什么關(guān)系?因?yàn)槔硐肭闆r至少客戶端是應(yīng)該復(fù)用這個(gè)連接的,直覺上應(yīng)該是Agent端關(guān)閉連接才對(duì)的。果不其然,在server.go中找到了線索:

    // IdleTimeout is the maximum amount of time to wait for the
    // next request when keep-alives are enabled. If IdleTimeout
    // is zero, the value of ReadTimeout is used. If both are
    // zero, there is no timeout.
    IdleTimeout time.Duration

服務(wù)端本意是想復(fù)用連接的,但是并沒有設(shè)置IdleTimeout,但是有設(shè)置ReadTimeout為10s秒,這正好是Agent端上送Profiler的間隔時(shí)間,所以很快就破案了,真是好巧不巧的,這個(gè)時(shí)間點(diǎn)卡的可真準(zhǔn),其實(shí)一般情況服務(wù)端這么設(shè)置也沒問題,因?yàn)殚L(zhǎng)連接通常適用于并發(fā)調(diào)用,以Agent端的調(diào)用頻率并不高,而且也沒有并發(fā),所以將服務(wù)端IdleTimeout設(shè)置為魔數(shù)30s,就沒有再出現(xiàn)EOF的錯(cuò)誤,然后我提了PR,很快就合入了主干。

總結(jié)

一開始上網(wǎng)搜解決方案,發(fā)現(xiàn)完全不是那么回事,果然是人云亦云,每個(gè)人給出的上下文不一樣,解決方案自然有差別。其實(shí)用wireshark抓一下包就能找到線索,大膽猜測(cè),小心求證,數(shù)據(jù)總不會(huì)騙人的,源碼也靜待剖析。

參考:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容