程序員必備數(shù)學(xué)知識(shí)(三)

十五、三個(gè)公式搭建最簡(jiǎn)單的AI框架

什么是AI?AI的本質(zhì)就是從大數(shù)據(jù)中學(xué)習(xí)。


舉個(gè)例題

我們可以用excel表進(jìn)行散點(diǎn)擬合,也可以使用之前的梯度下降法來計(jì)算。

人工智能就是根據(jù)輸入的數(shù)據(jù)建立一個(gè)效果最好的模型
人工智能建立模型的步驟
本題做了一個(gè)假設(shè),那就是父子之間身高關(guān)系是線性的,影響的參數(shù)是k和b,那么這道題的omega就是k和b組成的向量。當(dāng)然在別的模型里,它也可以是個(gè)標(biāo)量
人工智能的目標(biāo)
這里只有w是未知的,我們就是要求L(w)的最小值,這就是個(gè)求極值的問題
構(gòu)建AI模型的三步
三個(gè)步驟的調(diào)整

不管每一步采用什么方法,這三個(gè)步驟是不會(huì)變的。

現(xiàn)在讓我們從AI的角度重新回顧一下線性回歸模型:


截屏2023-11-21 12.40.02.png
截屏2023-11-21 12.41.17.png
截屏2023-11-21 12.42.47.png
第三部這里我們使用求導(dǎo)法

在此,我們可以理解為,線性回歸就是一種最簡(jiǎn)單的人工智能模型。

小結(jié)
作業(yè)

十六、邏輯回歸,通過計(jì)算機(jī)做出二值化決策

邏輯回歸模型是AI中最基礎(chǔ)的模型

邏輯回歸模型常用于用戶的信貸模型、幾率識(shí)別等等。


邏輯回歸是一種分類模型,可以解決分類問題

預(yù)測(cè)胎兒性別,預(yù)測(cè)足球比賽結(jié)果等問題都是分類問題

根據(jù)歸屬類別的數(shù)量,分類問題可以分為二分類問題和多分類問題

多分類問題可以轉(zhuǎn)化為多個(gè)二分類問題,因此二分類問題是基礎(chǔ)。


邏輯回歸的建模流程

第一步,我們使用的輸出關(guān)系函數(shù)為sigmoid函數(shù)

使用sigmoid函數(shù)通過x得出預(yù)測(cè)值y的流程圖

sigmoid函數(shù)簡(jiǎn)介

sigmoid函數(shù)的一階導(dǎo)數(shù)

第二步,寫出邏輯回歸的損失函數(shù)

截屏2023-11-27 12.40.50.png

將上面兩個(gè)式子用一個(gè)式子表示

截屏2023-11-27 20.22.56.png

第三步,估計(jì)出參數(shù)的值

所以以上第二、三步的本質(zhì)就是對(duì)損失函數(shù)求解極大值。


我們使用梯度下降法來求極值,先計(jì)算出模型函數(shù)關(guān)于W的導(dǎo)數(shù)

再來計(jì)算損失函數(shù)的導(dǎo)數(shù)

然后使用梯度下降法來計(jì)算。
值得注意的是,這個(gè)函數(shù)式在使用傳統(tǒng)的梯度下降法來計(jì)算時(shí),會(huì)產(chǎn)生大量的求和計(jì)算,非常消耗資源。
為了解決這個(gè)問題,我們改進(jìn)為隨機(jī)梯度下降法。
使用隨機(jī)梯度下降法

接下來我們實(shí)現(xiàn)代碼。
現(xiàn)有以下兩個(gè)數(shù)據(jù)集:
第一個(gè)數(shù)據(jù)集

第二個(gè)數(shù)據(jù)集

代碼如下:
截屏2023-11-27 21.43.03.png
截屏2023-11-27 21.49.50.png
對(duì)數(shù)據(jù)集1的第四個(gè)特征預(yù)測(cè)結(jié)果

對(duì)數(shù)據(jù)集2的第四個(gè)特征的預(yù)測(cè)結(jié)果

我們發(fā)現(xiàn)對(duì)第2個(gè)數(shù)據(jù)集的預(yù)測(cè)結(jié)果馬馬虎虎,首先是第一個(gè)樣本的第四特征預(yù)測(cè)錯(cuò)誤,其次計(jì)算出來的預(yù)測(cè)值都在0.5附近,不夠明顯。為什么不通同的兩個(gè)數(shù)據(jù)集會(huì)出現(xiàn)如此差異呢?
原因就是這個(gè)模型是個(gè)線性模型。


如圖所示的直線,無論怎么平移,都無法將黃色和藍(lán)色完全分割開來

線性回歸和邏輯回歸有什么區(qū)別呢?

從名字上比較

線性歸回是一個(gè)回歸模型,它是要用一條線盡可能地將所有樣本點(diǎn)串起來。
而邏輯回歸雖然有回歸兩個(gè)字,但它不是回歸模型,而是分類模型,是要用一條線盡可能的把幾個(gè)樣本點(diǎn)給分開。


從表達(dá)式上比較

從數(shù)學(xué)函數(shù)式的機(jī)理來看

總結(jié):邏輯回歸里的三個(gè)重要的表達(dá)式

課后作業(yè)

十七、決策樹模型——如何對(duì)NP難問題進(jìn)行啟發(fā)式求解

決策樹模型可以做什么

決策樹模型的結(jié)構(gòu)和特點(diǎn)

使用決策樹預(yù)測(cè)的簡(jiǎn)單例子

什么是NP難問題

NP難問題舉例

解決NP難問題的思路
如何解決NP難問題

ID3和C4.5都是使用啟發(fā)式算法。


我們以ID3算法為例探討一下決策樹如何建模

ID3決策樹建模步驟

ID3決策樹的兩個(gè)遞歸終止條件

例題1:根據(jù)圖中數(shù)據(jù)集建立ID3決策樹
第一步
第二步計(jì)算第一個(gè)變量的信息增益
第二步計(jì)算第二、三個(gè)變量的信息增益
第三步變量分裂
截屏2023-12-11 20.28.33.png
截屏2023-12-11 20.29.12.png
最終采用如圖所示的決策樹
截屏2023-12-11 20.32.30.png
例題2:根據(jù)圖中數(shù)據(jù)集建立ID3決策樹
第一步,計(jì)算信息熵
第二步,計(jì)算三個(gè)特征的信息增益
第三步,本題只好隨機(jī)選擇特征進(jìn)行建模
截屏2023-12-11 20.42.08.png
截屏2023-12-11 20.42.46.png

對(duì)于像ID3這種成型的算法而言,已經(jīng)有了很多被封裝好的工具包,比如sklearn,可以直接調(diào)用。


ID3這類決策樹模型建模代碼的偽代碼

這類代碼的結(jié)構(gòu)一定是遞歸結(jié)構(gòu)。

決策樹模型的優(yōu)勢(shì)

決策樹模型的不足
決策樹和深度學(xué)習(xí)相比,是一種淺層模型
課后作業(yè)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容