1、Tableau是用來做數(shù)據(jù)的管理和數(shù)據(jù)可視化的工具,是在整個數(shù)據(jù)科學從業(yè)公司中最火的、最好用的數(shù)據(jù)管理及可視化軟件
(幾下鼠標就能畫出一個很好的圖,也是比excel方便很多)
辦公室辦公用品的數(shù)據(jù)集
這是一個很簡單的數(shù)據(jù)集
進入工作表
左邊的dimensions(維度)和measures(度量)的區(qū)別是數(shù)據(jù)的類型
dimensions是類別型變量
measures是數(shù)值型變量/連續(xù)型數(shù)據(jù)變量
想知道各個地區(qū)賣了多少東西,可以把region拖到這里面來
可以在右上角選擇進行圖形顯示
等等
如果我不想看地區(qū)了,想看哪一個人賣了多少東西,我就可以直接把Rep拖過來覆蓋Region就行了
如果想要評選區(qū)域的銷售冠軍,也就是分人又要分地區(qū),那么只需要再把Region拖過來就可以了
坐標軸旁邊有一個小標記,一點它就自動從大到小排序了
、
但是我們看數(shù)據(jù)集知道,有的物品價格高,有的低,所以就算有的人賣的件數(shù)很多,總價值也不一定多高,那么我們怎么看總價值呢
右擊,新建計算字段
用方括號調(diào)用unit的值
這里的井號有等號的就代表不是在原始數(shù)據(jù)集里面的
然后用totalsales把units替換掉就可以看每個人的銷售總量了
那么感覺看到這個顏色比較單一,該怎么調(diào)呢
可以直接按住ctrl鍵,把region直接拖到右邊的顏色上來
不滿意配色還可以換顏色
? ? ? ?點擊顏色-->編輯顏色
那么我們又發(fā)現(xiàn),如果想要知道每個人賣的總數(shù)的話,必須要鼠標移動到上面才能看到,或者就是大概估算一下
我們可以按住ctrl鍵,把totalsales拖到label上來
但是只有數(shù)字,我們需要加上單位才好
點擊Totalsales -->設置格式
在右側(cè)的數(shù)字選擇貨幣格式
包括我們的y坐標軸也需要調(diào)整一下format
直接右鍵點擊一下y軸選擇設置格式
給表格命名
雙擊 工作表1 這里
導出圖表
甚至還可以選擇導出的時候留存什么信息
或者可以在圖上右鍵,復制圖標,這樣就可以貼到ppt等地方去了
幫助文檔
第二個數(shù)據(jù)集舉例
? ? ? 這是一家歐洲的跨國商業(yè)銀行,但是銀行家們發(fā)現(xiàn),最近幾個月,在這個銀行關戶的人數(shù)有顯著的上升,很多人都不跟這個銀行做業(yè)務了,都把錢取出去了,把銀行賬戶也關了。這就讓銀行的管理層感覺非?;炭郑谑撬麄冋业搅四?,由你來分析一下到底發(fā)生了什么故事
對于數(shù)據(jù)的列,我們叫做feature(特征)
對于數(shù)據(jù)的行,我們叫做observation(觀測)
geography是它的國籍
tenure是指在這個銀行開戶開了多久
balance是指銀行的余額是多少
number of products是指在銀行辦了幾種服務
isactivemember 是否是活躍用戶
estimated salary預估的年薪
exited代表是否關戶
我們就想用可視化的語言看看能不能幫助這個銀行家分析出來到底是什么原因?qū)е铝诉@個人的關戶
在之前大家可能更關注與時間序列,對空間信息關注的不夠多。但最近兩年有個趨勢,大家呼吁應該對空間信息有更強的重視。
Tablue對地理的分析有非常好的支持
既然我們數(shù)據(jù)里面出現(xiàn)了國家,那我們就用國家進行一下地理分析
這里前面帶Abc的指的是字符串
我們可以這樣告訴它這個這個東西不只是字符串,其實是代表國家與地區(qū)
它的圖標也就自己換了
把geogrephy拖過來,拖到空白處
它就自己生成了一個地圖
我們可以把numberofproducts拖到顏色上面來,Tableau就會根據(jù)每個國家用的產(chǎn)品人數(shù)的多少調(diào)整顏色
這里如果把國家名給打錯了的話就會出問題了,(Tableau可能會有一定的糾錯機制,但是也要高度匹配的前提下)
作為一個數(shù)據(jù)科學家,永遠不要相信別人給你的數(shù)據(jù)。別人給你的數(shù)據(jù)非常有可能存在非常多的問題。、之前就發(fā)生過例子:別人給我的數(shù)據(jù),告訴我已經(jīng)處理好了,然后就非常信他們就直接拿來分析,然后發(fā)現(xiàn)這個模型怎樣訓練都得不到想要的結(jié)果。后來發(fā)現(xiàn)是數(shù)據(jù)錯了。
把數(shù)據(jù)進行清理的過程也是一個非常重要的環(huán)節(jié)(data cleaning)
數(shù)據(jù)分析都是先有一些猜想,看看能不能驗證,能的話再進行統(tǒng)計上的一些計算,看它是否顯著,然后發(fā)展為結(jié)論
鑒于歐洲近期平權運動愈演愈烈,會不會是銀行的老板發(fā)表了什么關于女性的言論導致很多用戶關戶呢?那我們就來看一下性別和關戶數(shù)有沒有關系(如果因為老板發(fā)表女性言論關戶的話,肯定是女性關得多)
我們就把gender拖到列,numberofproducts拖到行
然后我發(fā)現(xiàn),退出與否(excited)是一個狀態(tài),但為什么會被歸類到“度量”里面呢?因為退出與否是用01來標志狀態(tài)的
我們可以直接把exited拖上去就ok,告訴它這是一個類別型變量
然后把exited拖到顏色上來
得到這樣,所有退出的變成了橙色,沒退出的變成了深藍色
如果想看男女的分別退出人數(shù)占總?cè)藬?shù)的比重
計算類別選擇合計百分比
然后就獲得了一個百分比的占比
那我們想看國家,國家的不同是否有顯著的退出(而不是性別了),只需要吧geography拖上去替換gender就行了
可以看出德國的退出率顯著高于法國和西班牙
那對于各個國家是男是女有沒有區(qū)別呢? 可以直接把gender拖到geo后面
在這個銀行開了4種產(chǎn)品的竟然100%都退出了
在以后遇見100%的也要思慮一下,不要被100%騙了,直接覺得這事確保了,但是有可能類別是屬于采樣不夠完整的類。假設說這個銀行只有1個人他是有4個產(chǎn)品,可能這1個人退出了那就是100%。所以當看到百分比的時候一定要看一下它的采樣數(shù)量
那銀行用戶和年齡有沒有關系呢?
當把 “度量”拖到列的時候,它默認會以求和的形式顯示,這時調(diào)整一下,選擇維度就可以了?
、
首先要處理一下噪音的問題
按理說并不應該降低,30歲會比29歲關戶多并沒有什么道理,可能就是隨機性導致的
為了避免隨機對我們分析產(chǎn)生的影響,我們往往在進行年齡分析的時候?qū)λM行取段分析
在右邊的age選擇創(chuàng)建-數(shù)據(jù)桶
設定大小為5
然后用age(數(shù)據(jù)桶)把列的age替換掉
剛才的噪音就已經(jīng)都沒有了
看一下各個年齡段占總體人數(shù)的多少,按住ctrl,將總和(記錄數(shù))拖到標簽上
轉(zhuǎn)換成百分比
如果不選合計百分比選擇差異的話,顯示距離前一段的增長