炸裂的開源AI語音生成模型ChatTTS

今天看到GitHub上開源了一個非常厲害的AI語音生成模型ChatTTS,可以生成和人類聲音非常接近的語音,而且有語氣、語調(diào)、可以停頓和發(fā)出笑聲,再也沒有了以前的AI味道

體驗地址:https://colab.research.google.com/drive/1MYep5f0-BJevVdUZoBuMbjafTy1sfiCr?usp=sharing

ChatTTS是專門為對話場景設(shè)計的文本轉(zhuǎn)語音模型,例如LLM助手對話任務。它支持英文和中文兩種語言。最大的模型使用了10萬小時以上的中英文數(shù)據(jù)進行訓練。在HuggingFace中開源的版本為4萬小時訓練且未SFT的版本。

大鵬自己運行了下,發(fā)現(xiàn)效果很不錯,可以看下面的示例效果

抖音演示地址

體驗方法

感興趣的朋友可以自己去嘗試,HuggingFace地址是:https://huggingface.co/2Noise/ChatTTS

HuggingFace上面可能資源不足無法運行,可以使用谷歌的colab來運行

體驗地址:https://colab.research.google.com/drive/1MYep5f0-BJevVdUZoBuMbjafTy1sfiCr?usp=sharing

將下面的代碼放入其中執(zhí)行即可,其中第一次運行估計要10分鐘左右

先clone代碼和安裝包

!git clone https://github.com/2noise/ChatTTS
!mv ChatTTS test
!mv test/* .

!cat ChatTTS/__init__.py
!pip install omegaconf
!pip install vocos
!pip install vector_quantize_pytorch
!pip install nemo_text_processing

再運行chatTTS

import torch
import ChatTTS
from IPython.display import Audio

chat = ChatTTS.Chat()
chat.load_models()

texts = [
'''我覺得mdnice是非常優(yōu)秀的markdown編輯器[laugh],
可以用來作微信排版還有寫作[uv_break],
歡迎大家多多使用,使用了之后我請您吃葡萄,
吃葡萄不吐葡萄皮[laugh],不吃葡萄倒吐葡萄皮
''']

params_refine_text = {
    'prompt': '[oral_2][laugh_0][break_6]'
}

wavs = chat.infer(texts, params_refine_text=params_refine_text, use_decoder=True)

Audio(wavs[0], rate=24_000, autoplay=True)

本文由mdnice多平臺發(fā)布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容