單變量的線性回歸模型--概述

前言


圖片發(fā)自簡書App



上次只是籠統(tǒng)的概述了機器學習是什么以及能解決什么問題,這一篇就開始正式探討機器學習使用的算法了。

背景

假如我們有一組數(shù)據(jù),它是關于房子的大小和最終成交價格的數(shù)據(jù)。我們最后要做到的就是通過讓機器對這些數(shù)據(jù)的‘學習’,最后能對新的房子也能正確預測出它大概的成交價格。

如何進行預測

現(xiàn)在假設x,y變量,x表示房子的面積,y表示房子的成交價格。那么每個房子的(x,y)就對應坐標軸上的一個點。例如房子面積是100,價格1000000。那么這個點就是(100,1000000)。把這些點都畫在坐標軸上就會得到如下的樣子

橫坐標是房子面積,縱坐標是房子價格

對于這么大堆密密麻麻的點,下一步該做什么呢,既然有x又有y,能不能找出x和y之間的關聯(lián),換句話說就是找到個函數(shù)能盡可能多的擬合這些點,讓這些點盡可能多的落在我們的線上。這就是線性回歸(概率論大佬正在趕來QAQ)。

所以擬合后的樣子應該是這樣的


可以看到這條線已經(jīng)讓盡可能多的點落在了它身上。說到這里,如何進行預測是不是就變得顯而易見了。只要找到這樣一條直線,盡可能多的擬合了自己的數(shù)據(jù),那么對于新來的x值,它在圖上的坐標就確定了,也就是y(房價)確定了(換句話說也就是找到y(tǒng)關于x的函數(shù)啦,就像y=10+x這樣)。那么我們的這個模型就可以比較正確預測房價了。想想還有點小激動呢~

對于這個模型需要注意什么

由上面的圖其實不難看出來,還是有部分的點偏離在我們的線外面的。但是我們畢竟不可能找到符合所有點的函數(shù),只能少數(shù)服從多數(shù),對于偏離的點,我們不需要在意他們(還可以用一些曲線來擬合,不過這里只用線性的)?;谶@個原因,模型成熟后,對于新房價的預測只是大概的,可以理解為它只是代表了一個趨勢,房子面積越大,它的價格就越高。只不過我們基于這個趨勢,可以給出大約的預測值。

結尾

對于這些枯燥的東西,并不想一口氣寫一堆,看到就讓人難受。所以這篇文章還并不算真正開始學習了它的算法。下面就會開始真正進入算法的細節(jié),當模型處于初始狀態(tài)怎樣判斷它與我們的最終模型有多大差距呢,以及如何縮小這些差距,這都是需要解決的問題。當這兩個問題解決了,那么我們的模型就會逐漸變得成熟,預測房價,登上人生巔峰指日可待~


這些都是基于我最近自己學習整理的,希望加強自己的理解,也方便以后查看。希望大佬目睹過后給予指正。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容