基于MS的數(shù)據(jù)處理及分析
微軟于2010年推出了用于數(shù)據(jù)清洗和整理的工具 - Excel Power Query,該工具基本上是SQL的可視化工具,通過對存儲在excel表中的數(shù)據(jù)進行模型的搭建來形成新的查詢表,這種方式相當于微軟提供一套可以通過界面對數(shù)據(jù)的結(jié)構(gòu)和關(guān)聯(lián)關(guān)系進行管理的軟件。個人認為是將server sql中的一部分移植到了excel上,實現(xiàn)了難度的降級,從而降低使用者門檻,使原本需要數(shù)據(jù)庫專業(yè)知識的操作變?yōu)槭髽瞬僮?,這對excel繼續(xù)維持市場份額起到核心競爭力的作用。
微軟將Power Query ,Power View ,Power pivot , Power Map 集成到一起推出了 Power BI ,他的Desktop版本是免費使用的,個人用于數(shù)據(jù)分析效果很好。
基本的處理思路是通過Power Query對數(shù)據(jù)源進行整合,官方說法是進行建模,通過對數(shù)據(jù)進行l(wèi)eft join 左連接等操作后,形成一張可以用于分析的數(shù)據(jù)底盤,包含了全面的信息 ,另外在Query之后的Power Pivot具有相對于直接使用Excel分析的優(yōu)勢在于以下幾點:
- 可處理超過100萬行數(shù)據(jù),實際采用的就是數(shù)據(jù)庫引擎
- 使用數(shù)據(jù)分析表達式 ([DAX])表達式語言編寫高級公式,DAX的功能更加全面和豐富,相對于Excel的函數(shù)而言
- 可以進行向下鉆取,可以與Power View聯(lián)動,相對于Excel基礎(chǔ)的數(shù)據(jù)透視而言,Pivot更加靈活和智能,可以極大的節(jié)約時間。
由Power Query獲取數(shù)據(jù),進行初步數(shù)據(jù)清洗和整理,梳理出基本的數(shù)據(jù)模型和彼此間數(shù)據(jù)格式,再由Power Pivot進行數(shù)據(jù)分析,實際上Pivot是整個Power Bi的大腦,地位非常重要。而Pivot實際上相當于傳統(tǒng)的數(shù)據(jù)透視表,根據(jù)所需要分析的字段和屬性進行數(shù)據(jù)透視,從而分析出當前數(shù)據(jù)提示出現(xiàn)什么問題。