
學習情況概要
學習時間:1個月
操作環(huán)境:Python版本,2.7;PyCharm版本,2017.1;電腦:Win7
學習資源:『Python爬蟲小分隊』作業(yè)布置
學習過程回顧
我是出于換工作的目的來學習python爬蟲的,很幸運的進入到了@向右奔跑的爬蟲微信群的學習大家庭中。由于對這門語言了解有限,并且網(wǎng)上也沒比較好的學習方法途徑,所以自己每天就是跟著老師布置的作業(yè)來學習的,目前來看的話這樣做入門學習比較好的方法:
- 了解知識點
- 結(jié)合小項目實際操作理解
- 群內(nèi)自主提問答疑
當然最關鍵的是,老師會根據(jù)自己的理解,讓大家有重點的學習掌握他認為比較關鍵的知識點

我就是根據(jù)上圖的課程安排來學習的
準備開發(fā)環(huán)境,Python語法基礎#####
在準備開發(fā)環(huán)境和Python語法基礎上自己遇到的困難相對少一些,道理很簡單,這個時候大多以看書/視頻為主,涉及自己敲代碼的機會還不是很多,并且之前自己是有一定的編程基礎的,所以這2門課程自己學的還比較順利,邏輯思維3題訓練,雖然萬年歷這個作業(yè)一直沒來得及做:(
HTML基礎,網(wǎng)頁結(jié)構特點#####
對于HTML基礎,網(wǎng)頁結(jié)構特點,這一門課程來說,自己屬于一筆帶過的,實在是學習時間有限,當然這也給后續(xù)的學習帶來了很多困擾
正則表達式#####
爬蟲的核心結(jié)構有三點,請求,解析,以及存儲
正則表達式就是解析辦法的一種,正則的知識點也比較多,一開始花了很大精力去研究,后來發(fā)現(xiàn)很多情況用(.*?)去解決就行了,如果想測試自己的正則寫的對不對,百度正則表達式測試工具,可以獲得結(jié)論。在學這門課程的時候,自己投入的時間比較多,并且大多用urllib去解析網(wǎng)頁,后來發(fā)現(xiàn)這不是后期爬蟲的主要方法,有點憂傷T T
BeautifulSoup#####
這是解析網(wǎng)頁的另一種辦法,利用第三方庫來獲取url中你想要的東西
find(),find_all(),select()是三種比較常用的方法,我用的比較多的是用select(),按照標簽逐層查找到所需要的內(nèi)容,怎么說呢,BeautifulSoup跟正則表達式來說各有各的好,我也講不清哪里好,反正能獲取你要的東西就行
其余的課程#####
沒學
學習總結(jié)#
從結(jié)果來看,1個月就學了這點東西說實話其實是很少的,問題在于自己的學習時間的確有限,自己把能利用的時間都投入到Python的學習中,可是效率的確低了點。除了時間有限之外,不知道是不是自己的學習方法有問題,我遇到問題時大都一臉懵逼,然后就去百度看別人的代碼,一不小心,就把自己的代碼全改了,只能說明基礎知識掌握的還是太差,解決問題的能力幾乎為0。就像寫作文的時候,別人拿到個題目就開始奮筆疾書,可我想了半小時,不知道該寫點什么。說實話有時候自己也挺有挫敗感,第一感覺代碼都是抄別人的,自己寫不來;第二遇到問題搞了很久就是解決不了,時間都花上去了,問題可沒解決??粗渌』锇檫M步飛速,自己頗感壓力,不過值得慶幸的是,自己學習欲望還是比較強烈的。回過頭來看,自己所學所用還真的只是皮毛,革命尚未成果,同志還需努力啊!
后續(xù)學習過程要解決的問題就是,如何在有限的時間內(nèi),更高效的學習。
另外提一點,自己在后續(xù)學習過程中,私下問@攀攀同學的次數(shù)較多,因為之前直播分享如何爬蟲的時候,感覺他的聲音很友好,好感指數(shù)+1。當然@向右奔跑彭老師也很負責,說實話我心里滿滿的欽佩之情。該有的感謝還是需要表達一下的
學習成果#
雖然效率低了點,但是自己還是較一開始有所進步的
首先自己會爬一些貌似叫靜態(tài)網(wǎng)頁的圖片

其次自己會用
BeautifulSoup爬糗百的段子和相關信息,不過很可惜自己還沒按自己的想法保存到本地
Python!Python!小弟我多久以后才能和你在工作中并肩作戰(zhàn)呢?