當(dāng)前主流的人機(jī)對話系統(tǒng)主要包括5個(gè)部分:
- 語音識(shí)別模塊(ASR):語音轉(zhuǎn)文本
- 自然語言理解模塊(NLU):對用戶問題進(jìn)行處理,得到對話意圖和實(shí)體
- 對話管理模塊(DM):按照當(dāng)前對話狀態(tài)決定系統(tǒng)反應(yīng)
- 自然語言生成模塊(NLG):反饋給用戶的回答
-
語音合成模塊(TTS):將反饋的文本回答轉(zhuǎn)為語音。
image.png
關(guān)于五個(gè)模塊,多個(gè)書籍都有涉及,此處不再詳記本書的此處內(nèi)容。
