今天看到GitHub上開源了一個非常厲害的AI語音生成模型ChatTTS,可以生成和人類聲音非常接近的語音,而且有語氣、語調(diào)、可以停頓和發(fā)出笑聲,再也沒有了以前的AI味道
體驗地址:https://colab.research.google.com/drive/1MYep5f0-BJevVdUZoBuMbjafTy1sfiCr?usp=sharing
ChatTTS是專門為對話場景設(shè)計的文本轉(zhuǎn)語音模型,例如LLM助手對話任務。它支持英文和中文兩種語言。最大的模型使用了10萬小時以上的中英文數(shù)據(jù)進行訓練。在HuggingFace中開源的版本為4萬小時訓練且未SFT的版本。
大鵬自己運行了下,發(fā)現(xiàn)效果很不錯,可以看下面的示例效果
體驗方法
感興趣的朋友可以自己去嘗試,HuggingFace地址是:https://huggingface.co/2Noise/ChatTTS
HuggingFace上面可能資源不足無法運行,可以使用谷歌的colab來運行
體驗地址:https://colab.research.google.com/drive/1MYep5f0-BJevVdUZoBuMbjafTy1sfiCr?usp=sharing
將下面的代碼放入其中執(zhí)行即可,其中第一次運行估計要10分鐘左右
先clone代碼和安裝包
!git clone https://github.com/2noise/ChatTTS
!mv ChatTTS test
!mv test/* .
!cat ChatTTS/__init__.py
!pip install omegaconf
!pip install vocos
!pip install vector_quantize_pytorch
!pip install nemo_text_processing
再運行chatTTS
import torch
import ChatTTS
from IPython.display import Audio
chat = ChatTTS.Chat()
chat.load_models()
texts = [
'''我覺得mdnice是非常優(yōu)秀的markdown編輯器[laugh],
可以用來作微信排版還有寫作[uv_break],
歡迎大家多多使用,使用了之后我請您吃葡萄,
吃葡萄不吐葡萄皮[laugh],不吃葡萄倒吐葡萄皮
''']
params_refine_text = {
'prompt': '[oral_2][laugh_0][break_6]'
}
wavs = chat.infer(texts, params_refine_text=params_refine_text, use_decoder=True)
Audio(wavs[0], rate=24_000, autoplay=True)
本文由mdnice多平臺發(fā)布