https://jackgittes.github.io/2018/08/24/paper-reading-10/
https://zhuanlan.zhihu.com/p/36051603
https://zhuanlan.zhihu.com/p/57410790
https://www.sohu.com/a/232047203_473283
一、常見模型壓縮方法
1.蒸餾
2.量化
3.剪枝
4.低秩分解->張量分解
5.TS
二、模型量化
量化是指將信號(hào)的連續(xù)取值近似為有限多個(gè)離散值的過(guò)程??衫斫獬梢环N信息壓縮的方法。在計(jì)算機(jī)系統(tǒng)上考慮這個(gè)概念,一般用“低比特”來(lái)表示。也有人稱量化為“定點(diǎn)化”,但是嚴(yán)格來(lái)講所表示的范圍是縮小的。定點(diǎn)化特指scale為2的冪次的線性量化,是一種更加實(shí)用的量化方法。
(一)、Deep Compression

image.png
使用k-measn聚類,讓相近的數(shù)值聚類到同一個(gè)聚類中心,服用同一個(gè)數(shù)值,從而達(dá)到用更少的數(shù)值表示更多的數(shù)。