精準(zhǔn)字幕生成新手文檔
本文檔將詳細(xì)介紹如何調(diào)用 /api/stt/audiototexturls 接口完成音頻轉(zhuǎn)文字,并基于接口返回的時間軸數(shù)據(jù)生成 SRT 等格式的精準(zhǔn)字幕,幫助開發(fā)者快速實(shí)現(xiàn)相關(guān)功能。
一、接口核心信息梳理
你需要調(diào)用的是一個支持批量音頻 URL 轉(zhuǎn)文字的接口,核心功能分為提交轉(zhuǎn)寫任務(wù)和查詢轉(zhuǎn)寫結(jié)果兩步,以下是接口的關(guān)鍵信息匯總:
1.1 基礎(chǔ)請求信息
項(xiàng)? 內(nèi)容
接口地址 /api/stt/audiototexturls
請求方式 POST
Content-Type application/json
核心功能 提交音頻 URL 轉(zhuǎn)寫任務(wù)(type=start)、查詢轉(zhuǎn)寫結(jié)果(type=query)
1.2 請求參數(shù)說明
參數(shù)名 必填 類型 示例值 / 格式 說明
key 是 string 35kj5jnlj53453kl5j43nj5 接口密鑰(控制臺 -> 密鑰管理獲?。?/p>
type 是 string start/query start:提交任務(wù)(返回 task_id);query:查詢?nèi)蝿?wù)結(jié)果
audio_urls 否 object {"audio_urls": ["https://xxx/xxx.mp3", "https://xxx/yyy.mp3"]} 批量音頻 URL 數(shù)組,僅 type=start 時有效(免費(fèi)測試僅支持 10 秒內(nèi)音頻)
task_id 否 string b68b6285901bb8621f680fbabe796d6e 任務(wù) ID,僅 type=query 時有效(用于查詢指定任務(wù)的轉(zhuǎn)寫結(jié)果)
1.3 返回參數(shù)核心字段說明
接口返回 JSON 格式數(shù)據(jù),核心字段如下:
字段名 類型 說明
code int 狀態(tài)碼(200 表示成功,其他為失敗)
msg string 狀態(tài)信息(如 “識別成功”“任務(wù)處理中”)
data object 核心結(jié)果數(shù)據(jù)集,包含 task_id、display、audio_urls 等
data.display array 每個音頻的識別信息組,對應(yīng)單個音頻的轉(zhuǎn)寫結(jié)果
phrases array 音頻的句子級轉(zhuǎn)寫結(jié)果,包含文本、置信度、時間軸、單字信息
words array 單字的時間軸信息(start_ticks/offsetMilliseconds、duration 等)
exec_time float 接口執(zhí)行耗時
二、開發(fā)步驟(Python 示例)
以下以 Python 為例,展示完整的開發(fā)流程:提交任務(wù) → 輪詢查詢結(jié)果 → 生成 SRT 字幕文件。
來源:酷虎云api