出于計算資源的限制或效率的要求,深度學習模型在部署推斷時往往需要進行壓縮,模型蒸餾是其中一種常見方法。將原始數據集上訓練的重量級(cumbersome)模型作為教師,讓一個相對更輕量的模型作為學生。
對于相同的輸入,讓學生模型輸出的概率分布盡可能的逼近教師模型輸出的分布,則大模型的知識就通過這種監(jiān)督訓練的方式「蒸餾」到了小模型里。小模型的準確率往往下降很小,卻能大幅度減少參數量,從而降低推斷時對 CPU、內存、能耗等資源的需求。
參考資料
https://mp.weixin.qq.com/s/-L5_S3iC4kSAbplMOcA21w