數(shù)據(jù)清洗對于缺失值的常用插補法

在數(shù)據(jù)清洗中,處理缺失值就像“猜謎游戲”,而插補法就是根據(jù)已知線索(數(shù)據(jù)點)合理猜測缺失值的方法。以下是幾種常用插補法的通俗解析:


1. 線性插補:兩點連線的“直尺”

  • 原理:在已知的兩個點之間畫一條直線,用這條直線上的值填補缺失點。
    例如:已知第1天溫度10℃,第3天20℃,第2天的溫度按直線增長估算為15℃。

  • 公式:若已知點 ((x_1, y_1)) 和 ((x_2, y_2)),則 (x) 處的插值為:

    1747040026445.png

  • 特點

    • ? 簡單快速,適合數(shù)據(jù)變化平緩的場景。
    • ? 假設數(shù)據(jù)是線性增長,可能不符合實際復雜趨勢。

2. 多項式插補:過山車式的“曲線擬合”

  • 原理:構(gòu)造一條經(jīng)過所有已知點的光滑曲線(多項式),用曲線上的值填補缺失點。
    例如:用拋物線(二次多項式)連接三個點,或更高階曲線通過更多點。
  • 拉格朗日法
    • 為每個點設計一個“專屬基函數(shù)”,組合后形成唯一多項式。
    • 公式復雜但直觀,適合理論理解。
  • 牛頓法
    • 用“差商”逐步構(gòu)建多項式,計算更高效,方便動態(tài)添加新點。
    • 結(jié)果與拉格朗日法相同,但計算方式不同。
  • 特點
    • ? 靈活適應復雜趨勢,完美穿過所有已知點。
    • ? 點數(shù)多時,多項式次數(shù)高,容易“過山車式震蕩”(過擬合)。
    • ? 對噪聲敏感,可能放大數(shù)據(jù)中的小波動。

3. 樣條插值:樂高積木式的“分段拼接”

  • 原理:將數(shù)據(jù)區(qū)間分成多個小段,每段用低次多項式(如三次)連接,并保證拼接處平滑。
    例如:用多個三次曲線片段拼成整體曲線,每段連接處“無縫光滑”。
  • 三次樣條
    • 每段是三次多項式,連接處一階、二階導數(shù)連續(xù)(平滑無棱角)。
    • 需要解方程組確定參數(shù),計算較復雜但結(jié)果穩(wěn)定。
  • 特點
    • ? 平衡靈活性與穩(wěn)定性,避免高階多項式震蕩。
    • ? 適合數(shù)據(jù)點較多或有局部波動的場景(如股價、溫度序列)。
    • ? 計算量大于線性插值,但通常比全局多項式更可靠。

如何選擇?

  • 線性插補:數(shù)據(jù)簡單、趨勢接近直線,或追求速度(如實時處理)。
  • 多項式插補:嚴格經(jīng)過所有點,且數(shù)據(jù)點少、趨勢復雜(慎防過擬合)。
  • 樣條插值:數(shù)據(jù)點多、需要平滑且避免震蕩的場景(如自然現(xiàn)象建模)。

通俗比喻

  • 線性插補:用直尺連接兩點,直接讀取中間值。
  • 多項式插補:像用一根軟鐵絲彎曲穿過所有圖釘(數(shù)據(jù)點),但鐵絲可能甩來甩去。
  • 樣條插值:像用多段柔韌的塑料條拼接,每段局部調(diào)整,整體平滑穩(wěn)定。

根據(jù)數(shù)據(jù)特性選擇合適的“工具”,才能在清洗時既填好坑,又不“創(chuàng)造”虛假信息!

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容