精準(zhǔn)字幕生成api開發(fā)新手文檔

精準(zhǔn)字幕生成新手文檔

本文檔將詳細(xì)介紹如何調(diào)用 /api/stt/audiototexturls 接口完成音頻轉(zhuǎn)文字,并基于接口返回的時間軸數(shù)據(jù)生成 SRT 等格式的精準(zhǔn)字幕,幫助開發(fā)者快速實(shí)現(xiàn)相關(guān)功能。

一、接口核心信息梳理

你需要調(diào)用的是一個支持批量音頻 URL 轉(zhuǎn)文字的接口,核心功能分為提交轉(zhuǎn)寫任務(wù)和查詢轉(zhuǎn)寫結(jié)果兩步,以下是接口的關(guān)鍵信息匯總:

1.1 基礎(chǔ)請求信息

項(xiàng)? 內(nèi)容

接口地址 /api/stt/audiototexturls

請求方式 POST

Content-Type application/json

核心功能 提交音頻 URL 轉(zhuǎn)寫任務(wù)(type=start)、查詢轉(zhuǎn)寫結(jié)果(type=query)

1.2 請求參數(shù)說明

參數(shù)名 必填 類型 示例值 / 格式 說明

key 是 string 35kj5jnlj53453kl5j43nj5 接口密鑰(控制臺 -> 密鑰管理獲?。?/p>

type 是 string start/query start:提交任務(wù)(返回 task_id);query:查詢?nèi)蝿?wù)結(jié)果

audio_urls 否 object {"audio_urls": ["https://xxx/xxx.mp3", "https://xxx/yyy.mp3"]} 批量音頻 URL 數(shù)組,僅 type=start 時有效(免費(fèi)測試僅支持 10 秒內(nèi)音頻)

task_id 否 string b68b6285901bb8621f680fbabe796d6e 任務(wù) ID,僅 type=query 時有效(用于查詢指定任務(wù)的轉(zhuǎn)寫結(jié)果)

1.3 返回參數(shù)核心字段說明

接口返回 JSON 格式數(shù)據(jù),核心字段如下:

字段名 類型 說明

code int 狀態(tài)碼(200 表示成功,其他為失敗)

msg string 狀態(tài)信息(如 “識別成功”“任務(wù)處理中”)

data object 核心結(jié)果數(shù)據(jù)集,包含 task_id、display、audio_urls 等

data.display array 每個音頻的識別信息組,對應(yīng)單個音頻的轉(zhuǎn)寫結(jié)果

phrases array 音頻的句子級轉(zhuǎn)寫結(jié)果,包含文本、置信度、時間軸、單字信息

words array 單字的時間軸信息(start_ticks/offsetMilliseconds、duration 等)

exec_time float 接口執(zhí)行耗時

二、開發(fā)步驟(Python 示例)

以下以 Python 為例,展示完整的開發(fā)流程:提交任務(wù) → 輪詢查詢結(jié)果 → 生成 SRT 字幕文件。

來源:酷虎云api

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容