?????? 學(xué)習(xí)了python 三年半了,一路磕磕碰碰,我把這一路學(xué)習(xí)python的心的說一下,思路主要是圍繞數(shù)據(jù)的采集到數(shù)據(jù)的結(jié)果整個流程展開概述,多講講pythoon用著的模塊,至于數(shù)據(jù)分析思路,這是無法短時間之內(nèi)能說得清的,思路大多是根據(jù)經(jīng)驗得出來的;每個人都有自己對事物的見解和看法。
????? 數(shù)據(jù)分析大概要通過這幾個過程:
????????????? 第一:數(shù)據(jù)采集;現(xiàn)在是互聯(lián)網(wǎng)時代,如果公司只拿內(nèi)部數(shù)據(jù)來分析,形象比喻就是在沙子中塞石頭,不好賽,(這里個別情況除外,公司數(shù)據(jù)具備完整性情況、看分析的目的是什么,不能一棍子打死啊,哈哈);所以,如果能通過技術(shù)手段合法從數(shù)據(jù)源地去采集數(shù)據(jù)那是更好不過;數(shù)據(jù)源我們有搜索引擎、社交媒體、電子商務(wù)、本地閱讀、科研教育等這些地方拿數(shù)據(jù)來分析,這會很大程度幫助老板;這些數(shù)據(jù)能夠幫助公司做什么;如判斷市場潛力、品牌輿情、產(chǎn)品現(xiàn)狀、用戶反饋等這些; 通過哪些工具實現(xiàn)的,python 的scrapy 、selenium、request這些數(shù)據(jù)采集框架相結(jié)合來做;另一只辦法是市面上有很多爬蟲軟件來實現(xiàn);不過針對于爬蟲這一塊來說,因為反爬蟲再不斷在進(jìn)步,外加千變?nèi)f化的網(wǎng)頁繁多,不同的網(wǎng)頁要用不同xpath解析去提取自己需要的信息;所以用軟件來實現(xiàn)爬蟲對很多公司可能需要一個磨合期和燒懂一點技術(shù)最好,建議可以找數(shù)據(jù)服務(wù)咨詢公司。
?????????? 第二:數(shù)據(jù)的清洗;這一步至關(guān)重要,數(shù)據(jù)分析的結(jié)果的優(yōu)劣直接和數(shù)據(jù)清洗的程度掛鉤;python 里有pandas 、numpy ,高一點的就是preprocessing這些都是可以的,數(shù)據(jù)清洗的目的就是保證數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、具有可信性和可解釋性;方法都有缺失值的處理、噪聲數(shù)據(jù)等,有忽略元組法、中心度量、中位數(shù)、決策樹填補,分箱、回歸、離群點分析等。
????????? 第三:數(shù)據(jù)分析:數(shù)據(jù)分析很多是根據(jù)經(jīng)驗去做的,比如維度選擇哪些合適,具體的分析方法有 對比分析法、分組分析法、結(jié)構(gòu)分析法、漏斗分析法、交叉分析法、綜合評價分析法、5w1h分析法、聚類分析、主成分分析等等,太多了;上面的這些啊,都能夠通過python解決,只要我們代碼寫好,直接每天就在看版上看數(shù)據(jù),差一點的做法是matplotlib,pandas dataframe ,scipy結(jié)合做;如果稍好一點,用django開發(fā)個后臺,每天就在后臺看數(shù)據(jù)了。
??????? 第四:數(shù)據(jù)展示:數(shù)據(jù)展示就是第三步驟提到了點;如果需要開發(fā)后臺?? 展示用echarts顯示,替代了python的matplotlib模塊;
?????? 第五:數(shù)據(jù)挖掘:數(shù)據(jù)挖掘怎么說呢,沒有一個嚴(yán)格的界定,或許有的人會問什么是數(shù)據(jù)挖掘、什么是數(shù)據(jù)分析;我按照自己的理解來說,有不同理解的勿噴,我也支持您;只要能從數(shù)據(jù)中找出來對企業(yè)有價值的信息,都可以稱為數(shù)據(jù)挖掘,這樣一來,上面提到的一到四步綜合起來就是數(shù)據(jù)挖掘需要做的過程;要精確來說,數(shù)據(jù)挖掘包含了這幾步驟:數(shù)據(jù)清洗——數(shù)據(jù)集成——數(shù)據(jù)選擇——數(shù)據(jù)變換——數(shù)據(jù)挖掘——模型評估——結(jié)論展示。上面這些步驟都是可以借助python完成;
???? 我把我的想法說出來,歡迎大家來一起討論學(xué)習(xí)或者咨詢;大家一起進(jìn)步,自己不愿意在有限的視野中分析事物,也歡迎給位老板各抒己見,引領(lǐng)年輕人前進(jìn)。
給一點采集的代碼演示,大家要多敲多想多看; ???????? 文章未經(jīng)本人統(tǒng)一不得轉(zhuǎn)載
