畢業(yè)論文爬坑記(建模篇)

前言

上回說到,通過Python幫助小姐姐解決論文問題,在結(jié)尾我也說過,論文并沒有想象的那么簡(jiǎn)單,下面就是本人最近整理的扎心語錄。

  • 爬蟲可以獲取數(shù)據(jù),但有的時(shí)候你連數(shù)據(jù)都不知道在哪。
  • 數(shù)據(jù)亂成稀巴爛,我還笑著把它算。
  • 建模出錯(cuò)的概率,還真是沒讓我失望過。

總結(jié)來說:論文虐我千百遍,我?guī)д撐娜绯鯌佟?/p>

R2為負(fù)數(shù),接近崩潰

今天要說的坑,就是建模的坑。前文說過,我自己的專業(yè)學(xué)的不是很扎實(shí)(最近在惡補(bǔ)),導(dǎo)致很多問題,當(dāng)我全部解決的時(shí)候,拿到了處理后的數(shù)據(jù),我以為展現(xiàn)我的Python技術(shù)的時(shí)候到了。

萬萬沒想到,我使用回歸算法(包括KNN,集成算法,SVM),結(jié)果都驚人的類似,精度R2全部為負(fù)數(shù)。

一首涼涼送給我,第一次碰到R2為負(fù)數(shù)~我還是太年輕啊,書上的都是挑的案例還真是好。

找原因

出現(xiàn)問題,當(dāng)然只能去找問題了。在網(wǎng)上查了一下,總結(jié)如下:

  • 數(shù)據(jù)間沒規(guī)律
  • 數(shù)據(jù)量太小
  • 特征太少

看到第一條,我都要嚇尿了,排除第一條,開始做處理啦~

處理

數(shù)據(jù)量少的問題,我當(dāng)時(shí)也是找有想到,后面只能重新處理二調(diào)數(shù)據(jù)(就是林業(yè)上的數(shù)據(jù)),講數(shù)據(jù)擴(kuò)充了10倍。
建??纯矗l(fā)現(xiàn)為0.2左右,有進(jìn)步,不錯(cuò),繼續(xù)。

然后對(duì)類別數(shù)據(jù)進(jìn)行了啞變量處理,還組合了一些特征。
現(xiàn)在穩(wěn)定平均在0.5左右。

當(dāng)然,模型是有超參數(shù)的,這里參數(shù)調(diào)整還在繼續(xù)~
現(xiàn)在在0.8左右。

總結(jié)

對(duì)于其他坑,多出于專業(yè)本身,我會(huì)在畢業(yè)后,全部分享給大家。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容