20160707收獲<關(guān)于抓取斗魚(yú)彈幕>

只是簡(jiǎn)單的閱讀了一下大神們的思路。粗略的學(xué)習(xí)使用了一下wireshark。

大神們的數(shù)據(jù)是不能用的,過(guò)時(shí)了。首先通過(guò)關(guān)閉直播間的視頻,這樣能排除掉視頻數(shù)據(jù)的數(shù)據(jù)包。

于是接下來(lái)判斷出哪些是彈幕的數(shù)據(jù)包就非常簡(jiǎn)單了。

目前只做到這里。然后學(xué)習(xí)了一下關(guān)于TCP的三次握手以及與HTTP協(xié)議的關(guān)系。

接下來(lái)的思路就是從頭到尾重新抓取一下進(jìn)入斗魚(yú)直播間的數(shù)據(jù)包,根據(jù)端口或者網(wǎng)址將彈幕部分的數(shù)據(jù)包完整的獲取下來(lái)。分析出如何進(jìn)行交流以及獲取彈幕。

另外,中間的連接貌似是一種能夠一直持續(xù)的連接,以前聽(tīng)說(shuō)過(guò),但是一直沒(méi)有接觸過(guò)。websocket是什么鬼。這個(gè)能否僅僅靠爬蟲(chóng)知識(shí)解決?目前我所使用的爬蟲(chóng)功能只是簡(jiǎn)單的利用session向服務(wù)器端發(fā)送get,post請(qǐng)求而已。

未完待續(xù)。。。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容