只是簡(jiǎn)單的閱讀了一下大神們的思路。粗略的學(xué)習(xí)使用了一下wireshark。
大神們的數(shù)據(jù)是不能用的,過(guò)時(shí)了。首先通過(guò)關(guān)閉直播間的視頻,這樣能排除掉視頻數(shù)據(jù)的數(shù)據(jù)包。
于是接下來(lái)判斷出哪些是彈幕的數(shù)據(jù)包就非常簡(jiǎn)單了。
目前只做到這里。然后學(xué)習(xí)了一下關(guān)于TCP的三次握手以及與HTTP協(xié)議的關(guān)系。
接下來(lái)的思路就是從頭到尾重新抓取一下進(jìn)入斗魚(yú)直播間的數(shù)據(jù)包,根據(jù)端口或者網(wǎng)址將彈幕部分的數(shù)據(jù)包完整的獲取下來(lái)。分析出如何進(jìn)行交流以及獲取彈幕。
另外,中間的連接貌似是一種能夠一直持續(xù)的連接,以前聽(tīng)說(shuō)過(guò),但是一直沒(méi)有接觸過(guò)。websocket是什么鬼。這個(gè)能否僅僅靠爬蟲(chóng)知識(shí)解決?目前我所使用的爬蟲(chóng)功能只是簡(jiǎn)單的利用session向服務(wù)器端發(fā)送get,post請(qǐng)求而已。
未完待續(xù)。。。