第一章 數(shù)據(jù)分析的基礎(chǔ)

數(shù)據(jù)分析的前提是數(shù)據(jù)的搜集與加工處理

1.1 數(shù)據(jù)分組與變量數(shù)列

1.1.1 數(shù)據(jù)分組

數(shù)據(jù)分組 就是對某一變量不同取值,按照其自身變動特點(diǎn)和研究需要劃分成不同的組別,以便更好地研究該變量分布特征及變動規(guī)律

變量

類型

  • 離散變量:指變量值可以按一定順序一一列舉,通常以整數(shù)位取值的變量
  • 連續(xù)變量:在一定區(qū)間內(nèi)可以任意取值的變量叫連續(xù)變量, 其數(shù)值是連續(xù)不斷的, 相鄰兩個數(shù)值可作無限分割,即可取無限個數(shù)值。

分組

  • 單項(xiàng)分組
    若變量是離散型變量,且取值只有不多的幾個
    做法:將變量的不同取值作為一組的組別,變量有多少個不同取值就劃分多少組
  • 組距分組
    若變量是連續(xù)型變量, 或者是取值較多的離散型變量
    做法:將變量的全部取值按照其大小順序劃分成若干個不同的數(shù)值區(qū)間

1.1.2 變量數(shù)列

變量數(shù)列是指在對變量取值進(jìn)行分組的基礎(chǔ)上,將各組不同的變量值與其變量值出現(xiàn)的次數(shù)排列成的數(shù)列
由于對變量分組有單項(xiàng)分組和組距分組兩種不同的方法,因而分組后形成的變量數(shù)列也有單項(xiàng)數(shù)列和組距數(shù)列兩種

兩個要素
  1. 由不同變量所劃分的組,稱為組別
  2. 各組變量值出現(xiàn)的次數(shù),亦稱頻數(shù)

各組次數(shù)與總次數(shù)之比叫比率,又稱頻率

在變量數(shù)列中,由不同變量取值組成的組別表示變量的變動幅度,而頻數(shù)和頻率則表示相對應(yīng)的變量值對其平均水平的作用程度。頻數(shù)(頻率)愈大的組所對應(yīng)的變量值對其平均水平的作用也愈大 ;反之, 頻數(shù)(頻率)愈小的組所對應(yīng)的變量值對其平均水平的作用也愈小。因此,在變量數(shù)列的條件下,當(dāng)對變量值求算術(shù)平均數(shù)時,頻數(shù)和頻率均作為權(quán)數(shù),頻數(shù)看做為絕對權(quán)數(shù),用f表示 ;頻率看做為相對權(quán)數(shù),用\frac{f}{\sum f}


1.2 分布中心的測度


1.3 離散程度的測度


1.4 偏度與峰度


1.5 兩個變量的相關(guān)關(guān)系


字符ddd(簡短文字添加代碼框)
Tab dddd或四個空格(大段文字添加代碼框,每行前添加)

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''
left center right
aaaa bbbbbb ccccc
a b c

內(nèi)部嵌套

內(nèi)部嵌套2

標(biāo)題1

科學(xué)公式 TeX(KaTeX)
ddd

  • Item 1
  • Item 2
  1. Item 1
  2. Item 1
  3. Item 1
  • 嵌套列表1
    • 嵌套列表1a
    • 嵌套列表1b
    • 嵌套列表1ai
      • 嵌套列表1aix
  • 嵌套列表2

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容