如何創(chuàng)建音頻數(shù)據(jù)集并上傳至huggingface

創(chuàng)建數(shù)據(jù)集

目錄結(jié)構(gòu)

hfdataset/
└── train/
    └── metadata.jsonl
    └── sdsdyk.wav
    └── ylfbnqsds.wav
└── test/
    └── metadata.jsonl
    └── sdsdyk.wav
    └── ylfbnqsds.wav

metadata.jsonl內(nèi)容格式

{"file_name": "sdsdyk.wav", "sentence": "圣燈山的游客"}
{"file_name": "ylfbnqsds.wav", "sentence": "巴南區(qū)圣燈山"}

上傳數(shù)據(jù)集

以命令行的方式上傳數(shù)據(jù)集

  • 進入hfdataset目錄,登錄huggingface
PS D:\software\hfdataset> huggingface-cli login
  • 執(zhí)行上傳命令
PS D:\software\hfdataset> hf upload my-cool-dataset . . --repo-type dataset

my-cool-dataset為自己的數(shù)據(jù)集名稱,沒有的話會自動創(chuàng)建,有的話會替換內(nèi)容。

備注說明

值得注意的是,一些命令已被棄用,但文檔中并非更新,執(zhí)行時如報一警告錯誤,例如在huggingface中創(chuàng)建空數(shù)據(jù)集文檔(my-cool-dataset)的命令:

huggingface-cli repo create my-cool-dataset --type dataset

首先,huggingface-cli已被棄用,需改為hf。其次,hf識別不到--type這個參數(shù),去掉即可,修改后的命令如下:

hf repo create my-cool-dataset

參考文章:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容