簡評:聲紋識別可以說是非??崃?~
戳鏈接直接試用:Voice Vector Webpage
每個人都有自己的聲音,不同的人會有不同的聲音。
有些人是蘿莉音,有些人則是鐵觀音。
有些人的聲音聽起來很像,有些人則完全不同。
(突然正經(jīng))
這個項目基于分類模型的體系結(jié)構(gòu),利用神經(jīng)網(wǎng)絡(luò),使用 VoxCeleb 數(shù)據(jù)集來查找單個語音向量(voice vectors),其中包含 1251 名好萊塢明星的 145379 句話語。數(shù)據(jù)集概況:
- 性別分布:690 名男性;561 名女性
- 年齡分布:20+, 30+, 40+, 50+, 60+(歲)分別為 136, 351, 318, 210, 236

Architectures
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的每一步,演講者都是隨機的。語音向量與文本無關(guān),這意味著來自同一講話者的任何一對話語都具有相似的語音向量。矢量距離越近,聲音越相似。

使用 t-SNE 進行可視化時,聲音有明顯地依性別分類的趨勢:

上方藍點為 male,下方藍點為 female
不過并沒有年齡相關(guān)性的表現(xiàn):

由此也一定程度上解釋了,為什么有些人能完美模仿正太音、蘿莉音、少女音和御姐音。(一個猜測,不一定對)
好了快回到文首玩玩這個聲紋識別吧 ~
Github:andabi/voice-vector
推薦閱讀:用 150 行 Python 代碼寫的量子計算模擬器