2018年開(kāi)學(xué)啦!關(guān)于《生物統(tǒng)計(jì)》

子夏曰:“博學(xué)而篤志,切問(wèn)而近思,...”
——《論語(yǔ)》、復(fù)旦大學(xué)校訓(xùn)、博學(xué)系列書(shū)籍卷首語(yǔ)

博學(xué)系列書(shū)籍卷首語(yǔ)

如果說(shuō)是否有一門課任何專業(yè)的學(xué)生都需要上,那么這門課毫無(wú)疑問(wèn)是《英語(yǔ)》。如果說(shuō)是否有一門課任何自然科學(xué)專業(yè)的學(xué)生都需要上,那么我想這門課是《統(tǒng)計(jì)》。

學(xué)習(xí)統(tǒng)計(jì),我想首先需要的就是教材等學(xué)習(xí)資料,但是我們?cè)谡医y(tǒng)計(jì)教材的時(shí)候總是會(huì)碰到如下問(wèn)題:1.不實(shí)用,2.沒(méi)有證明(信手拈來(lái)一個(gè)公式一個(gè)定理,并拋出一個(gè)異常,讓我感覺(jué)不知所云),3.看不懂(很多公式的證明引入了太多數(shù)學(xué)知識(shí),很不直觀!)。確實(shí)不少教材要么沒(méi)有用數(shù)學(xué)公式,要么采用嚴(yán)密的數(shù)學(xué)公式給人一連串黑人問(wèn)號(hào)!所以這次我想借著我們整個(gè)生科院一起上《生物統(tǒng)計(jì)》課程的機(jī)會(huì),利用起這個(gè)論壇,有交互式地更好地學(xué)習(xí)!聯(lián)系之前學(xué)習(xí)的境界,我希望能達(dá)到第三重學(xué)習(xí)境界!

生物學(xué)是一門實(shí)驗(yàn)科學(xué),也是一門技術(shù)主導(dǎo)的科學(xué)。不管你從事的是生物學(xué)的哪一個(gè)分支(哪怕是計(jì)算生物學(xué)與非應(yīng)用生物信息學(xué)),都不可能完全脫離實(shí)驗(yàn),而實(shí)驗(yàn)所得到的的結(jié)果幾乎無(wú)一例外地都帶有或多或少的不確定性,即實(shí)驗(yàn)誤差。在這種情況下,不用統(tǒng)計(jì)學(xué)而想要得到正確的結(jié)論是不同可能的。

1. 關(guān)于什么是統(tǒng)計(jì)的見(jiàn)解

  1. 在人們的生產(chǎn)實(shí)踐中,人們需要去判斷一系列的問(wèn)題,但是這一類問(wèn)題都只能得到我們所關(guān)心的事情的不完全信息,或者是單個(gè)實(shí)驗(yàn)的結(jié)果有某種不確定性,我們需要從這些問(wèn)題中得出合理而又可靠的結(jié)論。有統(tǒng)計(jì)學(xué)家坦言:“統(tǒng)計(jì)學(xué)就是從不完全的信息里取得準(zhǔn)確知識(shí)的一系列技巧!”。當(dāng)然我覺(jué)得說(shuō)它是一門學(xué)科比較合適: 統(tǒng)計(jì)也就是研究如何從有限的樣本出發(fā)去更好地估計(jì)總體性質(zhì)的學(xué)科!它的目標(biāo)就是由樣本去推斷總體!
  2. “Statistics is the science whereby inferences are made about specific random phenomena on the basis relatively limited sample material !”

2.關(guān)于統(tǒng)計(jì)的一些特點(diǎn)

  1. 統(tǒng)計(jì)——可以分為“概率論與數(shù)理統(tǒng)計(jì)”和應(yīng)用統(tǒng)計(jì),我們生物學(xué)人接觸到的一般都是應(yīng)用統(tǒng)計(jì),嚴(yán)格來(lái)說(shuō)它不是數(shù)學(xué),所以它的精確性弱于數(shù)學(xué)。
  2. 統(tǒng)計(jì)需要一些嘗試性的主管判斷,它其實(shí)是一門半經(jīng)驗(yàn)科學(xué)。

3.關(guān)于《生物統(tǒng)計(jì)》的課表

本學(xué)期的課表主要可以分為三部分內(nèi)容:一、概率論與數(shù)理統(tǒng)計(jì)初步;二、R語(yǔ)言初步與假設(shè)測(cè)驗(yàn);三、一些最基本的分析;四、統(tǒng)計(jì)學(xué)習(xí)

關(guān)于統(tǒng)計(jì)學(xué)習(xí):

陳洛南老師的這個(gè)統(tǒng)計(jì)學(xué)習(xí),如果我加上一個(gè)詞,大家肯定會(huì)非常熟悉:統(tǒng)計(jì)機(jī)器學(xué)習(xí)。沒(méi)錯(cuò),統(tǒng)計(jì)學(xué)習(xí)也稱為統(tǒng)計(jì)機(jī)器學(xué)習(xí)(statistical machine learning)[參考1]。

“現(xiàn)在計(jì)算機(jī)和網(wǎng)絡(luò)的飛速發(fā)展完全改變了人們的學(xué)習(xí)、工作和生活方式”。統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法是實(shí)現(xiàn)計(jì)算機(jī)智能化的有效手段。應(yīng)用領(lǐng)域非常廣泛,包括數(shù)據(jù)發(fā)掘、圖像識(shí)別和生物信息。
那有些人可能會(huì)好奇:除了統(tǒng)計(jì)學(xué)習(xí)還有什么學(xué)習(xí)?畢竟在統(tǒng)計(jì)學(xué)習(xí)也是,至少是21世紀(jì)才流行起來(lái)的理論、方法與技術(shù),那么之前流行的是什么?還有一個(gè)叫做符號(hào)學(xué)習(xí)等知乎上有一個(gè)比較好的回答,筆者之前也看過(guò)《數(shù)學(xué)之美》,確實(shí)在自然語(yǔ)義處理上存在從符號(hào)(基于規(guī)則的)學(xué)習(xí)到統(tǒng)計(jì)學(xué)習(xí)的演變過(guò)程。

好,下面還有一個(gè)重要的問(wèn)題:那有沒(méi)有不用學(xué)習(xí)的模型?因?yàn)榻y(tǒng)計(jì)學(xué)習(xí)也就是我們用數(shù)據(jù)去學(xué)習(xí)一個(gè)模型,然后用這個(gè)模型去預(yù)測(cè)結(jié)果?,F(xiàn)在非常流行的學(xué)習(xí)方式(人工神經(jīng)網(wǎng)絡(luò))不僅需要學(xué)習(xí),還是一個(gè)黑箱。那有沒(méi)有不用學(xué)習(xí)的白箱模型?有的,筆者現(xiàn)在就在上《系統(tǒng)論》,之前建立的一些微分方程的模型就是典型的白箱模型。但是現(xiàn)實(shí)的世界實(shí)在太復(fù)雜了,不可能像牛頓力學(xué)一樣f = ma就解決問(wèn)題。對(duì)于生物來(lái)說(shuō)就更加復(fù)雜了!其實(shí)有計(jì)算機(jī)大牛也說(shuō)過(guò)黑箱式地機(jī)器學(xué)習(xí)本質(zhì)其實(shí)也是擬合一個(gè)方程(同系統(tǒng)論中構(gòu)建的方程一樣),只不過(guò)不能顯式地拿出這個(gè)方程來(lái)。在實(shí)際運(yùn)用中確實(shí)我們也不需要把它拿出來(lái)!

5.關(guān)于統(tǒng)計(jì)的白話文理解與計(jì)算機(jī)demo的資源

根據(jù)我現(xiàn)在的學(xué)習(xí)經(jīng)驗(yàn),可以把現(xiàn)在的學(xué)習(xí)資料分成這三種:

  1. 專業(yè)文獻(xiàn)型:這種資料是表述最嚴(yán)謹(jǐn),但同時(shí)也是看起來(lái)最枯燥最難懂的。
  2. 正規(guī)教材型: 一般作者都會(huì)把若干文獻(xiàn)的結(jié)果匯總,整理成一本書(shū),我們高中與本科所用的教材就是種類型。
  3. 白話文型: 這種學(xué)習(xí)資料常見(jiàn)于微信推送和個(gè)人網(wǎng)站與博客上面,作者一般能用很生活化的語(yǔ)言來(lái)解釋知識(shí)。

同時(shí)還有很重要的一點(diǎn):就是現(xiàn)在計(jì)算機(jī)這么發(fā)達(dá),有一些比較好的自媒體上(如微信訂閱號(hào)、個(gè)人博客和個(gè)人網(wǎng)站),即使是非數(shù)理專業(yè)背景出生的人也往往能夠利用計(jì)算資源,非常直觀地展示一些高深難懂的理論!

下面列舉一些我看到的比較好的資源,專業(yè)文獻(xiàn)的話我不是統(tǒng)計(jì)專業(yè)的學(xué)生,所以暫時(shí)就不列舉了。

5.1 正規(guī)教材

現(xiàn)在暫時(shí)就使用李春喜主編的《生物統(tǒng)計(jì)學(xué)》與Befnard Rosner的《Fundamentals of biostatistics》!

5.2 關(guān)于世界觀與價(jià)值觀

在科學(xué)研究中你注重什么?把什么當(dāng)成最終的目標(biāo)?或者把什么當(dāng)做工具?這隨不同專業(yè)而又所不同。舉個(gè)最經(jīng)典的例子:如果你是一個(gè)細(xì)胞生化所的一個(gè)學(xué)生,那么你的價(jià)值觀肯定是利用一切研究手段找到有功能的基因、闡釋一種機(jī)理。而生物信息中的一些計(jì)算方法只是一種工具而已,你可以從很多種不同的方法中選擇能得到你想要答案的方法!

同樣,如果你是一個(gè)計(jì)算所做方法的學(xué)生,那么你肯定比較看重你的方法,而對(duì)實(shí)際產(chǎn)生數(shù)據(jù)的應(yīng)用則是比較末端的東西。

好,那么我們來(lái)看看,統(tǒng)計(jì)專業(yè)學(xué)生的一篇微信推送《作為世界觀的統(tǒng)計(jì)》!大??偨Y(jié)了統(tǒng)計(jì)的七大支柱思想,作者最后的升華也著實(shí)能感染到人!其中“回歸”這個(gè)概念,它一開(kāi)始出現(xiàn)于高爾頓研究身高時(shí),發(fā)現(xiàn)孩子身高會(huì)有向父輩身高均值回歸的現(xiàn)象,同時(shí)這也是一種看待世界的思想!

5.3 個(gè)人網(wǎng)站

我知道網(wǎng)站有一大堆,我這邊先羅列一個(gè)我近期看到比較好的地方!

因?yàn)榻y(tǒng)計(jì)的一個(gè)核心問(wèn)題是用樣本去估計(jì)總體:所以參數(shù)估計(jì)的是一個(gè)很重要的議題。我們?nèi)绾稳ス烙?jì)(點(diǎn)估計(jì)與區(qū)間估計(jì))?我們?nèi)绾稳ズ饬抗烙?jì)的好壞?。這個(gè)網(wǎng)站中的一篇參數(shù)估計(jì)我覺(jué)得寫得簡(jiǎn)潔而又不失飽滿性??梢砸豢?!

5.4 微信訂閱號(hào):

馬同學(xué)高等數(shù)學(xué)中的統(tǒng)計(jì)系列與經(jīng)管之家都很不錯(cuò)。

  1. 馬同學(xué)為什么正態(tài)分布如此常見(jiàn)? :講述了一個(gè)非常有趣的高爾頓釘板實(shí)驗(yàn)。后面的扯淡也非常的幽默詼諧,我讀了之后沒(méi)有一種苦澀的感覺(jué)。
  2. 經(jīng)管之家但轉(zhuǎn)載自統(tǒng)計(jì)之都正太分布的前世今生(上)正太分布的前世今生(下):這兩篇文章水準(zhǔn)真的挺高,是比1更加嚴(yán)謹(jǐn)學(xué)術(shù)的描述。我看了之后真佩服作者,我覺(jué)得這兩篇文章有三點(diǎn)可供欣賞:1. 言之有據(jù):作者引經(jīng)據(jù)典,難能可貴他從不同角度推導(dǎo)正太分布;2. 言之有理 :話語(yǔ)間充滿論證關(guān)系;3.言之有道:作者的解說(shuō)還充滿了一些宏觀的能感染人的話,寫作很有文筆。
  3. 馬同學(xué)高等數(shù)學(xué)如何理解切比雪夫不等式:利用年薪百萬(wàn)的話題,通俗講解改不等式!
  4. 馬同學(xué)高等數(shù)學(xué)為什么樣本方差的分母是 n-1:我本科糾結(jié)了很久,一句話,為了滿足參數(shù)估計(jì)的無(wú)偏性。

其他還有如何理解P值,如何理解假設(shè)測(cè)驗(yàn),置信區(qū)間等很好通俗易懂好文章!

現(xiàn)在我分享一下我看到的這些資源,希望大家可以把好資源透露在評(píng)論區(qū)!

當(dāng)然我希望大家可以通過(guò)這門課程的學(xué)習(xí),能夠掌握常用統(tǒng)計(jì)方法,尤其是它們的條件、適用范圍、優(yōu)缺點(diǎn)等,從而能夠應(yīng)用它們?nèi)ソ鉀Q生產(chǎn)實(shí)踐中遇到的問(wèn)題。

最后,我放一張我十分喜愛(ài)的圖片!

三句很有哲理的話

書(shū)籍緒論參考資料

  1. 《統(tǒng)計(jì)學(xué)習(xí)方法》,李航著。
  2. 《實(shí)用生物統(tǒng)計(jì)》,李松崗著。
  3. 《生物統(tǒng)計(jì)學(xué)基礎(chǔ)》,孫尚拱譯。
  4. 《生物統(tǒng)計(jì)學(xué)》,李春喜著。
  5. 《FUNDAMENTALS OF BIOSTATISTICS》, Bernard Rosner
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容