電商業(yè)務(wù)中的預(yù)測(cè)場(chǎng)景與實(shí)踐

本文主要闡述預(yù)測(cè)技術(shù)在電商業(yè)務(wù)的應(yīng)用場(chǎng)景, 實(shí)踐思路和技術(shù)挑戰(zhàn). 一方面它列舉了預(yù)測(cè)相關(guān)的業(yè)務(wù)場(chǎng)景和目標(biāo), 便于技術(shù)方案與業(yè)務(wù)目標(biāo)保持高度契合; 另一方面它從技術(shù)的角度闡述了預(yù)測(cè)的方法和實(shí)踐, 方便業(yè)務(wù)方了解技術(shù)的效果和瓶頸, 從而更好地利用預(yù)測(cè)數(shù)據(jù).

業(yè)務(wù)場(chǎng)景

假設(shè)我們是一家自營(yíng)電商. 基本的業(yè)務(wù)模式是向供應(yīng)商采購(gòu)商品, 然后通過自有渠道(例如APP和線下店)向用戶出售商品. 在這個(gè)過程中, 我們負(fù)責(zé)商品的采購(gòu), 庫(kù)存管理和銷售. 下面我們描述預(yù)測(cè)技術(shù)在該業(yè)務(wù)中的一些應(yīng)用場(chǎng)景.

商品采購(gòu)

如果商品采購(gòu)量遠(yuǎn)大于實(shí)際需求, 不僅占用采購(gòu)資金, 而且增加庫(kù)存成本; 反之, 采購(gòu)量太少則會(huì)造成銷售損失. 如果能預(yù)知商品在未來(lái)一段時(shí)間的需求量, 則會(huì)降低投資的機(jī)會(huì)成本和庫(kù)存成本, 并增加收益. 因此, 在商品采購(gòu)的業(yè)務(wù)中, 銷量預(yù)測(cè)是實(shí)現(xiàn)降本增收的關(guān)鍵. 我們把銷量預(yù)測(cè)問題簡(jiǎn)要描述如下.

預(yù)測(cè)問題. 預(yù)測(cè)商品未來(lái)某個(gè)時(shí)段的總銷量, 其中預(yù)測(cè)時(shí)段的長(zhǎng)短決于商品采購(gòu)的 提前期(Lead time).

一般來(lái)說, 商品采購(gòu)的提前期取決于商品的生產(chǎn)周期和最小起訂量(短則數(shù)周, 長(zhǎng)則數(shù)月).

站在業(yè)務(wù)的角度, 我們希望預(yù)測(cè)的準(zhǔn)確度越高越好. 但在實(shí)際中, 面臨的挑戰(zhàn)非常多:

  1. 銷量的可預(yù)測(cè)性. 影響銷量的因素錯(cuò)綜復(fù)雜, 例如商品的口碑, 促銷玩法, 展示的位置, 市場(chǎng)推廣, 節(jié)假日, 天氣, 以及用戶的心情等. 因此, 銷量預(yù)測(cè)的可預(yù)測(cè)性從某種程度上取決于業(yè)務(wù)自身的屬性, 例如業(yè)務(wù)規(guī)模, 業(yè)務(wù)的變化, 業(yè)務(wù)需要預(yù)測(cè)的粒度(SKU/商品/品類等).

  2. 歷史數(shù)據(jù)的質(zhì)量. 商品屬性, 可售狀態(tài), 實(shí)際售價(jià), 庫(kù)存量, 補(bǔ)貨狀態(tài), 活動(dòng)信息等. 實(shí)際的歷史數(shù)據(jù)往往存在大量難以清洗的臟數(shù)據(jù), 而且它們對(duì)預(yù)測(cè)效果的影響是關(guān)鍵的.

  3. 季節(jié)性商品. 服裝類目基本都是季節(jié)性商品. 預(yù)測(cè)這類商品不僅需要有較長(zhǎng)的歷史數(shù)據(jù), 而且要求業(yè)務(wù)相對(duì)穩(wěn)定, 否則歷史的銷售規(guī)律對(duì)未來(lái)的參考意義較低.

  4. 促銷活動(dòng)和節(jié)假日. 它們對(duì)銷量的影響非常大, 但難點(diǎn)在于促銷活動(dòng)一般不具有重復(fù)性, 例如活動(dòng)主題, 玩法, 資源投放, 定價(jià)一般都不相同. 這樣一來(lái), 促銷活動(dòng)信息難以結(jié)構(gòu)化, 能利用的數(shù)據(jù)非常有限.

  5. 商品更新?lián)Q代. 新品替代老品之后的銷售規(guī)律很有可能發(fā)生較大變化, 從而增加不可預(yù)測(cè)性.

原材料采購(gòu)

假設(shè)我們不考慮商品的制造過程, 那么電商業(yè)務(wù)中的原材料主要是包材, 例如紙箱, 塑料袋, 包裝填充材料等. 包材采購(gòu)與商品采購(gòu)業(yè)務(wù)相比有如下不同:

  1. 包材占用的存儲(chǔ)空間較小, 因此存儲(chǔ)成本相對(duì)較低.
  2. 包材缺貨造成的損失較小. 以紙箱為例, 當(dāng)小箱型缺貨時(shí)可以用大箱型替代.
  3. 包材的提前期較短(一般不超過一個(gè)月), 而且可以對(duì)訂單加急.

預(yù)測(cè)問題. 預(yù)測(cè)包材在未來(lái)某個(gè)時(shí)段的消耗量.

站在業(yè)務(wù)的角度, 預(yù)測(cè)的準(zhǔn)確度不是首要目標(biāo), 而是要保證預(yù)測(cè)結(jié)果的穩(wěn)定性和可靠性. 即, 預(yù)測(cè)誤差在某個(gè)可接受的范圍內(nèi)且預(yù)測(cè)結(jié)果不會(huì)出現(xiàn)異常值.

活動(dòng)定價(jià)

策劃一個(gè)促銷活動(dòng)一般包含四個(gè)基本要素: 主題, 玩法, 選品和定價(jià). 其中定價(jià)決定了營(yíng)銷帶來(lái)的銷量和銷售額. 如果能預(yù)知不同折扣下的商品銷量, 我們就能選擇最優(yōu)的價(jià)格, 從而最大化銷售額.

預(yù)測(cè)問題. 輸入商品的售價(jià), 預(yù)測(cè)商品活動(dòng)期間的銷量.

它的預(yù)測(cè)要求與商品采購(gòu)業(yè)務(wù)中的預(yù)測(cè)問題是相同的, 即預(yù)測(cè)越準(zhǔn)越好. 但這里的預(yù)測(cè)問題更難. 因?yàn)榇黉N活動(dòng)的重復(fù)性非常低, 導(dǎo)致可用的數(shù)據(jù)不多且規(guī)律性較弱.

庫(kù)存管理

自營(yíng)電商一般有多個(gè)倉(cāng)庫(kù), 分布在全國(guó)不同的地區(qū), 目的是為了降低配送成本和縮短配送時(shí)效. 為了保證各倉(cāng)庫(kù)中商品的庫(kù)存水位, 一般的做法是預(yù)估商品未來(lái)1-2周的需求量, 然后對(duì)倉(cāng)庫(kù)之間的商品進(jìn)行主動(dòng)的調(diào)撥. 我們面臨的預(yù)測(cè)問題如下:

預(yù)測(cè)問題. 預(yù)測(cè)未來(lái)某個(gè)時(shí)段每個(gè)倉(cāng)庫(kù)中商品的出庫(kù)量.

下面我們簡(jiǎn)單分析一下預(yù)測(cè)對(duì)業(yè)務(wù)的影響:

  1. 如果每個(gè)倉(cāng)支持全國(guó)發(fā)貨, 那么庫(kù)存平衡策略不會(huì)影響銷售. 因此預(yù)測(cè)偏差只會(huì)對(duì)配送成本和時(shí)效造成影響. 一般來(lái)說, 這個(gè)成本是可控的.
  2. 如果各倉(cāng)只負(fù)責(zé)固定的區(qū)域, 那么庫(kù)存平衡策會(huì)影響銷售. 雖然如此, 但我們認(rèn)為應(yīng)該主要通過優(yōu)化采購(gòu)策略來(lái)解決問題(而不是庫(kù)存平衡策略).

綜上所述, 站在業(yè)務(wù)方的角度, 我們希望保證預(yù)測(cè)結(jié)果的穩(wěn)定性和可靠性.

人力安排

電商業(yè)務(wù)的部分人力需求是通過招聘外包人員滿足的, 例如倉(cāng)庫(kù)作業(yè)人員和客服人員. 這些人力在平時(shí)需求不大, 但是在大促期間的需求比較多. 因此我們通過預(yù)估 業(yè)務(wù)量 來(lái)提前實(shí)施招聘和培訓(xùn)工作. 考慮到招聘和培訓(xùn)的耗時(shí), 一般需要預(yù)測(cè)未來(lái)3個(gè)月的業(yè)務(wù)量.

預(yù)測(cè)問題.

  1. 預(yù)測(cè)未來(lái)某個(gè)時(shí)段總的訂單量.
  2. 預(yù)測(cè)未來(lái)某個(gè)時(shí)段總的(客服)咨詢量.

如果預(yù)測(cè)偏低則導(dǎo)致服務(wù)水平的降低, 例如客戶體驗(yàn)差. 預(yù)測(cè)偏高則會(huì)導(dǎo)致人力成本的增加. 一般來(lái)說, 外包的人力成本占比不高, 因而造成的損失可控. 因此, 站在業(yè)務(wù)的角度, 我們希望訂單量和咨詢量的預(yù)測(cè)值不要寧可偏高, 而不能偏低.

預(yù)測(cè)問題分類

按預(yù)測(cè)結(jié)果的不同我們把上述預(yù)測(cè)問題分為三類:

  • 點(diǎn)預(yù)測(cè). 預(yù)測(cè)結(jié)果為 . 點(diǎn)預(yù)測(cè)在實(shí)際業(yè)務(wù)中使用最廣泛. 優(yōu)點(diǎn)在于容易理解和使用. 缺點(diǎn)是決策時(shí)對(duì)預(yù)測(cè)風(fēng)險(xiǎn)的抵抗力弱. 換句話說, 當(dāng)預(yù)測(cè)偏差較大時(shí)可能對(duì)業(yè)務(wù)造成較大的損失.

  • 區(qū)間預(yù)測(cè). 預(yù)測(cè)結(jié)果為 區(qū)間. 區(qū)間預(yù)測(cè)是點(diǎn)預(yù)測(cè)的拓展. 由于預(yù)測(cè)結(jié)果是一個(gè)范圍, 其覆蓋真實(shí)值的概率大大增加. 因此, 如果決策時(shí)考慮區(qū)間預(yù)測(cè)可以降低由于預(yù)測(cè)不準(zhǔn)確所造成的業(yè)務(wù)損失.

  • 概率分布預(yù)測(cè). 預(yù)測(cè)結(jié)果為 概率分布. 概率分布預(yù)測(cè)是區(qū)間預(yù)測(cè)的拓展. 它不僅能輸出一個(gè)區(qū)間, 而且能給出不同區(qū)間的可能性(即, 置信度). 決策時(shí)我們可以考慮所有的置信區(qū)間, 從而全面地考慮預(yù)測(cè)風(fēng)險(xiǎn), 進(jìn)而降低損失.

Remark 點(diǎn)預(yù)測(cè)簡(jiǎn)單易用, 因此在業(yè)務(wù)中使用最廣泛, 但其帶來(lái)的業(yè)務(wù)風(fēng)險(xiǎn)最大. 而概率分布預(yù)測(cè)可以理解為輸出 所有可能的預(yù)測(cè)值. 決策時(shí)使用概率分布預(yù)測(cè)的本質(zhì)是枚舉所有可能性, 并選擇收益最大的策略. 因此, 在風(fēng)險(xiǎn)大的業(yè)務(wù)決策中應(yīng)該盡可能使用概率分布預(yù)測(cè)(例子可以參考文章<為什么需要考慮銷量的隨機(jī)性?><報(bào)童問題 (The Newsvendor Problem)>).

按預(yù)測(cè)結(jié)果的時(shí)效性可以分兩類:

  • 離線預(yù)測(cè). 離線預(yù)測(cè)一般預(yù)測(cè)的需求是固定的(輸入?yún)?shù)不變). 例如計(jì)算未來(lái)30天商品的日銷量. 預(yù)測(cè)服務(wù)每日更新預(yù)測(cè)結(jié)果即可.

  • 實(shí)時(shí)預(yù)測(cè). 它包含兩個(gè)方面: 一是預(yù)測(cè)時(shí)段的實(shí)時(shí)性, 例如預(yù)測(cè)當(dāng)天每個(gè)時(shí)刻的訂單量; 二是預(yù)測(cè)結(jié)果計(jì)算的實(shí)時(shí)性. 例如模型根據(jù)用戶輸入的參數(shù)實(shí)時(shí)給出預(yù)測(cè)結(jié)果.

按預(yù)測(cè)的維度和顆粒度進(jìn)行分類如下:

維度 示例
來(lái)源 主站APP/線上渠道/線下店/全站
實(shí)體 SKU/商品/三級(jí)類目/二級(jí)類目/一級(jí)類目/所有商品
時(shí)段 天/周/日/月/季/年

預(yù)測(cè)模型分類

預(yù)測(cè)模型的輸入是一維或多維的時(shí)序數(shù)據(jù), 而具體模型的輸出根據(jù)用戶的要求而定, 例如點(diǎn)預(yù)測(cè), 區(qū)間預(yù)測(cè), 概率分布預(yù)測(cè). 根據(jù)前文描述的業(yè)務(wù)場(chǎng)景, 我們按 用戶輸入?yún)?shù) 的不同對(duì)模型進(jìn)行粗略的分類.

時(shí)序模型

  • 用戶輸入: 預(yù)測(cè)的起始日期.
  • 應(yīng)用場(chǎng)景: 商品和原材料采購(gòu), 庫(kù)存管理, 銷售計(jì)劃等.
  • 特點(diǎn): 研發(fā)難度適中; 對(duì)數(shù)據(jù)量要求低.

需求模型

  • 用戶輸入: 預(yù)測(cè)的起始日期和對(duì)應(yīng)的售價(jià).
  • 應(yīng)用場(chǎng)景: 商品定價(jià).
  • 特點(diǎn): 研發(fā)難度偏高; 對(duì)數(shù)據(jù)量要求高.

活動(dòng)模型

  • 用戶輸入: 預(yù)測(cè)的起始日期和對(duì)應(yīng)的售價(jià), 活動(dòng)信息(流量, 活動(dòng)類型等)
  • 應(yīng)用場(chǎng)景: 運(yùn)營(yíng)活動(dòng)的選品和定價(jià).
  • 特點(diǎn): 研發(fā)難度非常高; 對(duì)數(shù)據(jù)量要求非常高.

預(yù)測(cè)實(shí)踐

預(yù)測(cè)模型的研發(fā)和迭代一般是個(gè)長(zhǎng)期的過程, 原因是:

  1. 業(yè)務(wù)的變化會(huì)導(dǎo)致數(shù)據(jù)規(guī)律的變化.
  2. 業(yè)務(wù)系統(tǒng)的更新迭代會(huì)影響數(shù)據(jù)的質(zhì)量.
  3. 模型的預(yù)測(cè)效果需要在實(shí)際業(yè)務(wù)中進(jìn)行驗(yàn)證.
  4. 模型的改進(jìn)需要結(jié)合實(shí)際的業(yè)務(wù)經(jīng)驗(yàn).

預(yù)測(cè)模型研發(fā)的基本流程如下圖所示.

下面強(qiáng)調(diào)一下研發(fā)流程中需要注意的事項(xiàng).

可靠性

雖然業(yè)界有完善的測(cè)試方法來(lái)保障軟件的質(zhì)量, 但是對(duì)預(yù)測(cè)軟件而言, 保障軟件功能只是第一步, 更關(guān)鍵的是保障 數(shù)據(jù)質(zhì)量 的可靠性. 具體來(lái)說, 我們希望做到:

  1. 自動(dòng)驗(yàn)證模型輸出結(jié)果的正確性;
  2. 自動(dòng)檢測(cè)輸入數(shù)據(jù)(包含訓(xùn)練數(shù)據(jù))中的異常值;
  3. 自動(dòng)檢測(cè)輸出結(jié)果的異常值;

評(píng)估

評(píng)估工作主要考慮兩個(gè)方面: 一是對(duì)預(yù)測(cè)結(jié)果的評(píng)估; 二是對(duì)預(yù)測(cè)模型自身的評(píng)估. 評(píng)估工作產(chǎn)出的是評(píng)估報(bào)告, 其作用相當(dāng)于一份預(yù)測(cè)數(shù)據(jù)使用說明書, 用來(lái)向業(yè)務(wù)方告知使用風(fēng)險(xiǎn).

  1. 預(yù)測(cè)偏差的評(píng)估.

    評(píng)估指標(biāo)的選擇應(yīng)該與業(yè)務(wù)目標(biāo)保持契合. 以業(yè)界常用的誤差指標(biāo)MAPE(Mean absolute percentage error)為例. 當(dāng)預(yù)測(cè)偏低時(shí), 誤差的上界為100%; 反之, 當(dāng)預(yù)測(cè)偏高時(shí), 誤差的上界是無(wú)窮大. 換句話說, MAPE值對(duì)預(yù)測(cè)偏高的懲罰較大. 因此, 使用MAPE作為評(píng)價(jià)指標(biāo)容易造成預(yù)測(cè)值偏低. 在這種情況下, 如果用MAPE值來(lái)評(píng)估話務(wù)量預(yù)測(cè)是不合適的, 因?yàn)闃I(yè)務(wù)方不希望話務(wù)量預(yù)測(cè)值偏低. 更多關(guān)于評(píng)價(jià)指標(biāo)的討論可以參考<銷量預(yù)測(cè)中的誤差指標(biāo)分析>. 此外, 區(qū)間預(yù)測(cè)和概率分布預(yù)測(cè)如何評(píng)估區(qū)? (感興趣的讀者可以參考<概率預(yù)測(cè)的評(píng)估方法簡(jiǎn)介>)

  2. 預(yù)測(cè)模型的評(píng)估.

    評(píng)估預(yù)測(cè)模型的目的是為了模型的研發(fā)和迭代. 由于業(yè)務(wù)會(huì)發(fā)生變化, 對(duì)同一個(gè)模型而言, 它在不同業(yè)務(wù)階段的表現(xiàn)也會(huì)有差異. 為了避免由于業(yè)務(wù)變化帶來(lái)的差異性影響模型評(píng)估, 我們可以考慮兩個(gè)方法:

    • 制定標(biāo)準(zhǔn)數(shù)據(jù)集. 需要根據(jù)模型的特點(diǎn)篩選出合適的數(shù)據(jù)集. 例如季節(jié)性數(shù)據(jù)集, 一維時(shí)序數(shù)據(jù)集, 多維時(shí)序數(shù)據(jù)集, 節(jié)假日數(shù)據(jù)集, 促銷活動(dòng)數(shù)據(jù)集等.

    • 制定基準(zhǔn)的模型. 基準(zhǔn)模型一般是結(jié)合業(yè)務(wù)現(xiàn)狀而制定的規(guī)則模型. 它容易理解, 易于實(shí)施且有很好的解釋性. 制定基準(zhǔn)模型的目的是為了對(duì)比當(dāng)前模型. 我們要求新上線的模型效果必須好于基準(zhǔn)模型.

可解釋性

用戶在使用預(yù)測(cè)數(shù)據(jù)時(shí)可能會(huì)發(fā)現(xiàn)一些不符合預(yù)期的結(jié)果. 此時(shí)預(yù)測(cè)服務(wù)應(yīng)該需要對(duì)產(chǎn)出的數(shù)據(jù)給出一些合理的解釋. 具體來(lái)說, 可以嘗試考慮如下措施:

  • 輸出模型考慮的特征, 并分析特征與輸出結(jié)果之間的對(duì)應(yīng)關(guān)系.
  • 輸出歷史數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)的統(tǒng)計(jì)規(guī)律, 例如均值, 中位數(shù), 方差等.
  • 使用可解釋的預(yù)測(cè)模型.

可預(yù)測(cè)性

前文提到預(yù)測(cè)模型的研發(fā)和迭代是一個(gè)長(zhǎng)期的過程. 一般來(lái)說, 隨著迭代次數(shù)的增加, 預(yù)測(cè)效果的提升越來(lái)越不顯著. 這個(gè)時(shí)候我們不禁要問: 是預(yù)測(cè)問題本身的極限達(dá)到了? 還是我們自身的研發(fā)能力不夠? 換句話說, 我們要回答如下問題:

給定歷史時(shí)序數(shù)據(jù)和需要預(yù)測(cè)的時(shí)段長(zhǎng)度. 我們預(yù)測(cè)的準(zhǔn)確率最高能達(dá)到多少?

由于影響預(yù)測(cè)結(jié)果的因素是復(fù)雜的, 對(duì)這個(gè)問題我們很難給出理論證明. 我們的思路是先做一些適當(dāng)?shù)募僭O(shè), 然后基于假設(shè)給出預(yù)測(cè)的極限.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容