記錄一下tensorflow tflite模型訓(xùn)練后量化的操作。
訓(xùn)練后Float16量化
對(duì)于一般訓(xùn)練得到的模型,在pb轉(zhuǎn)tflite過(guò)程中加入以下代碼:
converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.target_spec.supported_types = [tf.lite.constants.FLOAT16]
tflite_quant_model = converter.convert()
在筆者的模型上,模型大小從684K壓縮至368K,驗(yàn)證集精度百分?jǐn)?shù)小數(shù)點(diǎn)后兩位沒(méi)有差異。
這里主要的一個(gè)坑在于,使用tf1.15及以上版本就可以使用上述代碼得到量化后的tflite模型,但在python里加載tflite模型時(shí),卻會(huì)報(bào)一個(gè)不支持reshape操作的錯(cuò)誤。測(cè)試下來(lái)tf1.15.0到1.15.2都會(huì)報(bào)錯(cuò),tf2.0.0也有相同錯(cuò)誤,最后使用tf-nightly版本(筆者使用的是tf-nightly-gpu 2.3.0)終于加載成功。
Tensorflow Object Detection Api模型量化
Tensorflow Object Detection Api得到的pb模型有兩個(gè),默認(rèn)名稱(chēng)分別為frozen_inference_graph.pb和tflite_graph.pb,前者用于直接推理,由于輸入節(jié)點(diǎn)image_tensor的數(shù)據(jù)類(lèi)型為uint8,所以不能直接進(jìn)行float16量化。
在tf1.15及以上版本中, tflite_convert.py的參數(shù)有所增加,除了MobileNet SSD V2模型的壓縮與tflite格式的轉(zhuǎn)換(補(bǔ)充版) - 簡(jiǎn)書(shū)中所提到的參數(shù)以外,新增了 --post_training_quantize和--quantize_to_float16。在將tflite_graph.pb轉(zhuǎn)為tflite模型的過(guò)程中中,只要將這兩個(gè)參數(shù)賦值為true即可。
在筆者的模型上,模型大小從580K壓縮至346K,驗(yàn)證集精度下降0.05%。