讀《誰說菜鳥不會數(shù)據(jù)分析》2016-05-05

第四章 數(shù)據(jù)處理

上次我們了解了數(shù)據(jù)處理第一步數(shù)據(jù)清洗,這次我們進入數(shù)據(jù)加工

對于經(jīng)過數(shù)據(jù)分析后的數(shù)據(jù)字段,并不能滿足我們的數(shù)據(jù)分析需求,所以需要對現(xiàn)有的字段抽取,計算或轉(zhuǎn)換形式成為我們分析需要的新字段

1.數(shù)據(jù)抽?。喊ㄗ侄畏至校侄魏喜ⅲ侄纹ヅ?/b>

字段分列:如“姓名”分為“姓和名”

法1):菜單法:[數(shù)據(jù)]中的[數(shù)據(jù)工具]中的[分列]選擇[分隔符號]中的[下一步]完成

法2):函數(shù)法:有時,我們需要提取特定的幾個字符,或者其中的第幾個字符,這時就要用到left()和right()函數(shù)

left(text,[num_chars]):第一個參數(shù)表示要抽取的文本,第二個表示需要提取字符串左起多少個字符

right(text,[num_chars]):基本同上,就是從右起多少個字符

字段合并:有時我們需要抽取幾個數(shù)據(jù)列創(chuàng)建成為一個句子,比如要給用戶發(fā)送信函,這是就有大量用戶的信息要輸入,我們可以使用字段合并得到文本化的文字利用concatenate()函數(shù)

concatenate(text1,text2,...),比如我們表里A2=小王,B2=5次,(遲到5次)我們就可以使用concatenate(A2,“遲到”,B2,“次”),這樣就得到“小明遲到5次”的句子

字段匹配:要從其他數(shù)據(jù)表中獲取字段,比如想截取B中的字段“住址”到A中,我們可以使用vlookup()函數(shù)

vlookup(lookp_value, ? ?table_array, ? ?col_index_num, ? ?range_lookup)第一個參數(shù)表示要在表格或區(qū)域的第一列中查找的值,第二個表示查找區(qū)域,第三個表示希望返回的值的列號,第四個為布爾類型,為“1”表示近似匹配,為“0”表示精確匹配,一般使用為0

2.數(shù)據(jù)計算 ?:簡單計算/函數(shù)計算

簡單計算:有時我們需要的字段不能直接從表中獲得,要通過加減乘除計算得到,我想這里大家應(yīng)該都很清楚

函數(shù)計算:平均值/求和/日期的加減法

這里主要說下日期的加減法:哭訴輸入當(dāng)前日期,可以使用today()和now()還可以使用ctrl+;和ctrl+;再按空格接著按ctrl+shift+;這里公式可以插入動態(tài)時間,快捷鍵是靜態(tài)時間

我們經(jīng)常會遇到需要日期增減的問題,例如我們希望通過添加兩周時間來調(diào)整一個項目的計劃日期,此時我們只需要用到+,-即可,但有時我們要對一個某年某月某日進行處理,可以用到date()函數(shù) date(year(A2)+5,month(A2)-6,day(A2)+6);還可以使用dateif()計算工齡有時需要了解員工的工齡和某些信息的關(guān)系

date(start date,and_data,unit)第一個參數(shù)表示起始時間,第二個表示終止時間,unit有6種形式,Y整年,M整月,D整天,YD天數(shù)的差,YM月數(shù)的差,MD年數(shù)的差

3.數(shù)據(jù)分組

首先準(zhǔn)備一個分組表,分組表里應(yīng)該至少有字段“闕值”,“分組標(biāo)識”,“備注(分組條件)”

使用vlookup()函數(shù)通過對分組表里闕值的查找,返回分組表中的分組標(biāo)識字段

4.數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)表的行列轉(zhuǎn)置/多選題幾種錄入方式之間的轉(zhuǎn)換

1)數(shù)據(jù)表的行列轉(zhuǎn)置

通過[選擇性粘貼]解決轉(zhuǎn)置,還可以選擇性粘貼格式,公式,甚至還能選擇數(shù)值將它們批量成負數(shù)或者對要粘貼的數(shù)和原數(shù)還可以進行加減乘除

選擇性粘貼法1)先復(fù)制好數(shù)據(jù)區(qū)域,[開始]中的[剪貼板]到[粘貼]中選擇[選擇性粘貼]

法2)ctrl+alt+v快捷鍵會彈出,勾選轉(zhuǎn)置

法3)直接復(fù)制,然后在粘貼出現(xiàn)的圖標(biāo)種選擇轉(zhuǎn)置

2)多選題的錄入方式之間的轉(zhuǎn)換

前面說道過對于多選題我們使用“0”和“1”標(biāo)識是否被選中(二分法),還可以通過對每個選項用數(shù)字表示,多重法,但是多重法在Excel里無法分析,所以要將多重轉(zhuǎn)化為二分

法1)使用if(isnumber(hlookup()),1,0),這里的hlookup()函數(shù)和vlookup()函數(shù)長得很像,其實功能上也很像,vlookup()是按列在指定區(qū)域查找,hlookup()函數(shù)是按行在指定區(qū)域查找

hlookup(lookp_value,? ? table_array,? ? col_index_num,? ? range_lookup)第一個參數(shù)表示要在表格或區(qū)域的第一行中查找的值,第二個表示查找區(qū)域,第三個表示希望返回的值的行號,第四個為布爾類型,為“1”表示近似匹配,為“0”表示精確匹配,一般使用為0,這里注意如果找到會返回你指定的行號,如果沒有找到會返回一個非數(shù)字

isnumber()函數(shù)很明顯字面上就是判斷是不是數(shù),所以先使用isnumber(hlookup())判斷是否返回了數(shù)字從而判斷這一行里是否有該選項,再利用if()函數(shù),如果是數(shù)字,則if()返回一個1,不是則返回一個0,這樣就發(fā)現(xiàn)選中的選項位置會放上1,未選中的會放上0,那把多重法轉(zhuǎn)化為二分法的目的就這樣達到了

法2)使用if(isnumber(search("t",區(qū)域)),1,0),這里使用search()直接在區(qū)域里查找“1”在嗎,在返回1,不在返回0,然后依次查找就能夠把多重轉(zhuǎn)為二分


但有時我們輸入的多個選項變量會在一個單元格里,如下圖,這是我們利用search()函數(shù)直接在單元格中查找

search(find_text,within_text,start_num),這里第一個參數(shù)表示要查找的字符串,第二個為要在哪個字符串中查,這里填要查的單元格就好,第三個參數(shù)指出從單元格中字符串的哪個位置開始找,它會返回要查找的字符串在原始字符串中首次出現(xiàn)的位置,(還是一個數(shù)字),也就是說找到就會返回一個數(shù),找不到返回一個非數(shù)字

5.數(shù)據(jù)抽樣

分為普查和抽樣調(diào)查,一般公司都采用抽樣,這里使用一個rand()函數(shù),產(chǎn)生隨機數(shù)函數(shù),來選取隨機樣本

rand()產(chǎn)生[0,1]之間,rand()*a+b產(chǎn)生[b,a+b]之間的隨機數(shù) ? ? int(rand()*a+b))這里int()表示取整,例如我們要在5000人里產(chǎn)生1000個隨機人做調(diào)查,這時使用隨機數(shù)函數(shù),先給5000人編號,編好號后可以利用rand()在1000個單元格產(chǎn)生1000個[1,5000]的隨機數(shù),從而找到要抽樣的人

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,616評論 19 139
  • 1. Java基礎(chǔ)部分 基礎(chǔ)部分的順序:基本語法,類相關(guān)的語法,內(nèi)部類的語法,繼承相關(guān)的語法,異常的語法,線程的語...
    子非魚_t_閱讀 34,740評論 18 399
  • 第5章 引用類型(返回首頁) 本章內(nèi)容 使用對象 創(chuàng)建并操作數(shù)組 理解基本的JavaScript類型 使用基本類型...
    大學(xué)一百閱讀 3,683評論 0 4
  • 賣貨一箱紙巾,兩箱尿不濕, 年底了,工作實在是太忙,沒有時間空下來聊客戶,聊代理??赡軙f借口那么多,我每天6.3...
    珠兒_da9b閱讀 139評論 0 0
  • tensorflow 基礎(chǔ) MINIST原理 假設(shè)現(xiàn)在有1個10*10小格的像素圖如下 假設(shè)每張圖都代表0-9中的...
    crazydane閱讀 1,711評論 0 0

友情鏈接更多精彩內(nèi)容