第四章 產(chǎn)品模式
?????? 人工智能產(chǎn)品的3個(gè)層次: 計(jì)算智能、感知智能和認(rèn)知智能。其中感知智能指自然語(yǔ)言處理、語(yǔ)音識(shí)別、語(yǔ)音合成、計(jì)算機(jī)視覺四大應(yīng)用類型。后續(xù)學(xué)習(xí)以此分類為主要視角。
語(yǔ)音識(shí)別產(chǎn)品應(yīng)用
1、產(chǎn)品形態(tài):根據(jù)識(shí)別內(nèi)容的范圍可分:封閉域識(shí)別和開放域識(shí)別
?????? 1)封閉域識(shí)別
????????????? 只能夠識(shí)別預(yù)先指定的字詞集合,無(wú)法識(shí)別預(yù)定范圍之外的語(yǔ)音
?????? 2)開放域識(shí)別
????????????? 對(duì)輸入的語(yǔ)音都能識(shí)別,無(wú)須預(yù)先指定識(shí)別詞集合
????????????? 這一類產(chǎn)品基本都以云端的形式呈現(xiàn),聲學(xué)模型核語(yǔ)音模型的計(jì)算量一般較大,引擎運(yùn)算量也較大。
????????????? 實(shí)時(shí)性要求不同
?????????????????????????????????? 同步識(shí)別:實(shí)時(shí)要求高
?????????????????????????????????? 異步識(shí)別:準(zhǔn)確率要求高
2、常見功能
???????????????????? 語(yǔ)音控制
???????????????????? 語(yǔ)音轉(zhuǎn)錄
???????????????????? 語(yǔ)言翻譯
???????????????????? 衍生應(yīng)用
??????????????????????????? 聲紋識(shí)別(屬于生物識(shí)別)
??????????????????????????? 情感識(shí)別
??????????????????????????? 哼唱識(shí)別
3、產(chǎn)品設(shè)計(jì)及評(píng)價(jià)
?????? 1)設(shè)計(jì)難點(diǎn)
??????????????????????????? 口音問題
??????????????????????????? 噪聲問題
??????????????????????????? 說(shuō)話模式影響
??????????????????????????? 單通道核多人會(huì)話
??????????????????????????? 上下文理解
??????????????????????????? 延遲
??????????????????????????? 其他因素
?????? 2)細(xì)節(jié)設(shè)計(jì)
??????????????????????????? 語(yǔ)音激活檢測(cè)
??????????????????????????? 語(yǔ)音喚醒
??????????????????????????? 語(yǔ)音自適應(yīng)回聲消除AEC
??????????????????????????? 低信噪比SNR和混響
?????? 3)產(chǎn)品評(píng)價(jià)指標(biāo)
??????????????????????????? 評(píng)價(jià)語(yǔ)音識(shí)別系統(tǒng)的性能指標(biāo)
?????????????????????????????????? 詞匯表范圍
?????????????????????????????????? 說(shuō)話人限制
?????????????????????????????????? 訓(xùn)練要求
?????????????????????????????????? 正確識(shí)別率:詞錯(cuò)誤率WER、語(yǔ)義錯(cuò)誤率