離線語(yǔ)音喚醒詞筆記

喚醒詞

相關(guān)資料

  1. Snowboy
    Snowboy 是 KITT.AI(后被百度收購(gòu))2016 年推出的輕量級(jí)喚醒詞框架,基于DTW(動(dòng)態(tài)時(shí)間規(guī)整)+ 高斯混合模型(GMM),曾因輕量、開(kāi)源被廣泛使用,但如今被淘汰的核心原因:
1. 精度低:傳統(tǒng)機(jī)器學(xué)習(xí)方法,抗噪性、遠(yuǎn)場(chǎng)識(shí)別率遠(yuǎn)低于深度學(xué)習(xí)模型;
2. 無(wú)硬件加速:僅支持 CPU 推理,無(wú)法利用移動(dòng)端 / 嵌入式 NPU(瑞芯微 / 全志 / 高通 NPU);
3. 維護(hù)停止:2020 年后無(wú)更新,適配安卓 10+、新芯片架構(gòu)(如 ARMv9)存在兼容性問(wèn)題;
4. 定制化差:新增喚醒詞需重新訓(xùn)練,且多喚醒詞并發(fā)檢測(cè)效率低。
  1. 深度學(xué)習(xí)輕量級(jí)模型
a.) CNN + DS-CNN
    深度可分離卷積(Depthwise Separable CNN),參數(shù)量 < 100 萬(wàn),推理 < 50ms
    安卓端 / 嵌入式(瑞芯微 / 全志 NPU)
b.) CRNN/LSTM + CNN 
    結(jié)合時(shí)序特征(語(yǔ)音是時(shí)序數(shù)據(jù)),抗噪性更好,參數(shù)量≈200 萬(wàn)
    遠(yuǎn)場(chǎng)喚醒(智能音箱)
c.) TDNN(時(shí)延神經(jīng)網(wǎng)絡(luò)
    專為語(yǔ)音優(yōu)化的時(shí)序卷積,低功耗,適配藍(lán)牙耳機(jī)等超低算力設(shè)備
    可穿戴設(shè)備(耳機(jī) / 手表)
  1. 開(kāi)源深度學(xué)習(xí)框架
a.) Porcupine
    CNN + 量化
    跨平臺(tái)(安卓 / IOS/Linux),輕量

b.) HeySnips Wake Word
    CRNN + 端側(cè)優(yōu)化 
    開(kāi)源可商用,支持自定義喚醒詞

c.) WeNet-WWD
    TDNN + Transformer
    語(yǔ)音識(shí)別 + 喚醒詞一體化,中文優(yōu)化

  1. 廠商自研喚醒詞引擎
a.) 百度 UNIT 喚醒引擎 (安卓 / IoT 設(shè)備)
    中文喚醒詞優(yōu)化,抗噪性強(qiáng),支持自定義喚醒詞

b.) 阿里 AliGenie (智能家居 / 車載)
    遠(yuǎn)場(chǎng)喚醒(5 米 +),適配阿里智能音箱生態(tài)  

c.) 高通 SNPE (安卓手機(jī) / 藍(lán)牙耳機(jī))
    深度適配高通驍龍 NPU,低功耗(<1mA)

d.) 瑞芯微 RKVoice (嵌入式安卓設(shè)備)
    適配 RK3568/RK3588 NPU,推理 < 30ms
    
e.) 全志 AWVoice (耳機(jī) / 手表 / 低功耗 IoT)
    超低功耗(可穿戴設(shè)備),支持多喚醒詞并發(fā)

落地方案

  1. 百度 UNIT 喚醒引擎
1. 官方文檔
    https://ai.baidu.com/ai-doc/SPEECH/3ltwvtg6u#%E5%94%A4%E9%86%92%E8%AF%8D
    
2. Android SDK
    bdasr_V3_20250507_b610f20.jar   
    https://platform-new.cdn.bcebos.com/sdk/asr/android/baidu_speech_ASR_V3_20250521_b610f20_3.4.5.zip
    WP_WORDS_FILE設(shè)置bin文件路徑(喚醒詞bin文件)
    
3. 預(yù)定義喚醒詞
    百度提供了近15個(gè)預(yù)定義喚醒詞,一個(gè)bin文件最多包好10個(gè)喚醒詞
    已經(jīng)支持的預(yù)定義喚醒詞有:
    相機(jī)類:拍照、茄子
    音樂(lè)類:增大音量、減小音量、播放、停止、暫停、上一首、下一首
    電燈類:打開(kāi)電燈、關(guān)閉電燈、增大亮度、減小亮度
    手電筒類:打開(kāi)手電筒、關(guān)閉手電筒
    
4. 自定義喚醒詞
    自定義喚醒詞不超過(guò)3個(gè),http://ai.baidu.com/tech/speech/wake

5. 相關(guān)授權(quán)文件
    使用APPID+包名首次聯(lián)網(wǎng)自動(dòng)下載授權(quán)文件進(jìn)行驗(yàn)證(在聯(lián)網(wǎng)時(shí)會(huì)獲取自動(dòng)獲取離線正式授權(quán)。有特殊原因可用在官網(wǎng)下載臨時(shí)授權(quán)文件)
    需要用包名在百度平臺(tái)創(chuàng)建相關(guān)KEY
    
6. 費(fèi)用
    離線的喚醒詞應(yīng)用的付費(fèi)方式待確認(rèn)
    
  1. 阿里 AliGenie
1. 官方文檔 
https://www.aligenie.com/doc/10974248/etqf5x

2. Android SDK
maven { url "http://mvnrepo.alibaba-inc.com/mvn/repository" }
implementation "com.alibaba.ailabs.genie:agui:{VERSION}"
implementation 'com.alibaba.ailabs.aligenie.opensdk:comm:{VERSION}'
implementation 'com.alibaba.ailabs.aligenie.opensdk:multirouter:{VERSION}'

3. 預(yù)定義喚醒詞
    28個(gè)
    https://aligenie.com/doc/10974248/fnwsqv

4. 自定義喚醒詞
    個(gè)人開(kāi)發(fā)未找到入口

  1. 瑞芯微 RKVoice
1. 官方文檔
    http://t.rock-chips.com

2. 自定義喚醒詞 
    需要自己訓(xùn)練(官方是否有對(duì)應(yīng)工具待定),聲音樣本需要提供,用于模型訓(xùn)練
    
3. 

  1. 全志 AWVoice
1. 官方文檔
    https://www.aw-ol.com/
    
2. 自定義喚醒詞
    需要自己訓(xùn)練(官方是否有對(duì)應(yīng)工具待定)

  1. aiui(訊飛)
1. 官方文檔
    https://aiui-doc.xf-yun.com/project-1/doc-22/
    
2. SDK
    離線能力需聯(lián)系訊飛商務(wù)申請(qǐng)線下提供AIUI SDK和引擎資源

3. 自定義喚醒詞
    通過(guò)https:/aiui.xfyun.cn/ 設(shè)置自定義喚醒詞

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容