爬蟲這東西很實用,意義不下于你學會做PPT和Excel。真正掌握方法論很難,需要時間和不斷的實踐。但掌握一門小工具,投入和產(chǎn)出比在我看來是比較驚人的。
爬蟲其實沒有這么難。最近在三節(jié)課上上了一堂陳大欣老師的課,隨手做做課程筆記+作業(yè)。
抓取鏈接:忘了,B站隨便點開的一個視頻;
主要思路:
1. 這個是做到現(xiàn)在我覺得挺好玩的一個抓取,不是做的爬蟲,就直接在chrome查找到xml文件,點擊打開位New Table;
2. 打開Excel-數(shù)據(jù)選項卡-自網(wǎng)站,粘貼到這個tab的鏈接,然后就能做了;
3. 關(guān)于時間,需要換算一下,公式在表里面;
4. 另外,這張表里有兩個時間,一個是發(fā)布時間,即2016年6月28日(在下面不知道怎么公式?jīng)]顯示出來,但是下載后的excel發(fā)布時間這一欄顯示的就是正常年月日+時間);另一個是時長,即彈幕在這個視頻中是什么時候發(fā)的。
5. 這兩個都涉及到excel數(shù)字格式的使用,例如時長是 1313s,如何轉(zhuǎn)換成X分X秒呢?可以用到兩個公式。
=INT(H16/60)&"分"&MOD(H16,60)&”秒”,Int函數(shù)取整,Mod函數(shù)求余,&連接;
=TEXT(H16/(60*60*24),"m's”)
6. 數(shù)據(jù)透視表,匯總,計數(shù),可以看到多少分多少秒,有多少彈幕;這個東西是最好玩的,如果沒有耐心看完整個視頻,只需要在挑個彈幕數(shù)量最多的時間點High一下就行了。


