深度學習-知識蒸餾

出于計算資源的限制或效率的要求,深度學習模型在部署推斷時往往需要進行壓縮,模型蒸餾是其中一種常見方法。將原始數據集上訓練的重量級(cumbersome)模型作為教師,讓一個相對更輕量的模型作為學生。

對于相同的輸入,讓學生模型輸出的概率分布盡可能的逼近教師模型輸出的分布,則大模型的知識就通過這種監(jiān)督訓練的方式「蒸餾」到了小模型里。小模型的準確率往往下降很小,卻能大幅度減少參數量,從而降低推斷時對 CPU、內存、能耗等資源的需求。



參考資料

https://mp.weixin.qq.com/s/-L5_S3iC4kSAbplMOcA21w

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容