
前言
上回說到,通過Python幫助小姐姐解決論文問題,在結(jié)尾我也說過,論文并沒有想象的那么簡(jiǎn)單,下面就是本人最近整理的扎心語錄。
- 爬蟲可以獲取數(shù)據(jù),但有的時(shí)候你連數(shù)據(jù)都不知道在哪。
- 數(shù)據(jù)亂成稀巴爛,我還笑著把它算。
- 建模出錯(cuò)的概率,還真是沒讓我失望過。
總結(jié)來說:論文虐我千百遍,我?guī)д撐娜绯鯌佟?/p>
R2為負(fù)數(shù),接近崩潰
今天要說的坑,就是建模的坑。前文說過,我自己的專業(yè)學(xué)的不是很扎實(shí)(最近在惡補(bǔ)),導(dǎo)致很多問題,當(dāng)我全部解決的時(shí)候,拿到了處理后的數(shù)據(jù),我以為展現(xiàn)我的Python技術(shù)的時(shí)候到了。
萬萬沒想到,我使用回歸算法(包括KNN,集成算法,SVM),結(jié)果都驚人的類似,精度R2全部為負(fù)數(shù)。

一首涼涼送給我,第一次碰到R2為負(fù)數(shù)~我還是太年輕啊,書上的都是挑的案例還真是好。
找原因
出現(xiàn)問題,當(dāng)然只能去找問題了。在網(wǎng)上查了一下,總結(jié)如下:
- 數(shù)據(jù)間沒規(guī)律
- 數(shù)據(jù)量太小
- 特征太少
看到第一條,我都要嚇尿了,排除第一條,開始做處理啦~
處理
數(shù)據(jù)量少的問題,我當(dāng)時(shí)也是找有想到,后面只能重新處理二調(diào)數(shù)據(jù)(就是林業(yè)上的數(shù)據(jù)),講數(shù)據(jù)擴(kuò)充了10倍。
建??纯矗l(fā)現(xiàn)為0.2左右,有進(jìn)步,不錯(cuò),繼續(xù)。
然后對(duì)類別數(shù)據(jù)進(jìn)行了啞變量處理,還組合了一些特征。
現(xiàn)在穩(wěn)定平均在0.5左右。
當(dāng)然,模型是有超參數(shù)的,這里參數(shù)調(diào)整還在繼續(xù)~
現(xiàn)在在0.8左右。
總結(jié)
對(duì)于其他坑,多出于專業(yè)本身,我會(huì)在畢業(yè)后,全部分享給大家。