騰訊云OCR Python3實(shí)現(xiàn)

參考文檔:https://www.cnblogs.com/semishigure/p/7690789.html

對(duì)于通用印刷體識(shí)別,騰訊云只提供API調(diào)用,不提供Python-SDK。

簽名算法

獲取簽名信息

appid = '控制臺(tái)獲得'
secret_id = '控制臺(tái)獲得'
secret_key = b'控制臺(tái)獲得'
bucket = 'BUCKET'

expired = time.time() + 2592000
current = time.time()
rdm = ''.join(random.choice("0123456789") for i in range(10))

拼接多次有效簽名串

info = "a=" + appid + "&b=" + bucket + "&k=" + secret_id + "&e=" + str(expired) + "&t=" + str(current) + "&r=" + str(
    rdm) + "&f="
info = info.encode("utf-8")

加密編碼

signindex = hmac.new(secret_key, info, hashlib.sha1).digest()  # HMAC-SHA1加密
sign = signindex + info
sign = base64.b64encode(sign)  # base64轉(zhuǎn)碼

hmac模塊介紹
注意此處secret_key和info都要求是bytes格式,如果是str格式,需要進(jìn)行bytes編碼,另外騰訊要求SHA1算法加密后的輸出必須是原始的二進(jìn)制數(shù)據(jù),所以應(yīng)該使用digest(),而不是hexdigest(),也就是輸出的signindex也是bytes格式的。

構(gòu)建請(qǐng)求頭和請(qǐng)求體
url = "http://recognition.image.myqcloud.com/ocr/general"
headers = {'Host': 'recognition.image.myqcloud.com',
           "Authorization": sign
           }
files = {'appid': (None, appid),
         'bucket': (None, bucket),
         'image': ('英文.PNG', open(r'英文.PNG', 'rb'), 'image/png')
         }     

此處content-type 自動(dòng)識(shí)別為multipart/form-data格式,requests模塊會(huì)自動(dòng)轉(zhuǎn)換格式,所以image只需要寫成上述元組即可,分別為文件名、文件、文件類型。

請(qǐng)求結(jié)果
r = requests.post(url, files=files,headers=headers)
responseinfo = str(r.content,encoding = 'utf-8')#返回結(jié)果為bytes型,轉(zhuǎn)為str型
print(responseinfo)
r_index = r'"itemstring":"(.*?)"'  # 做一個(gè)正則匹配
result = re.findall(r_index, responseinfo)

for i in result:
    print(i)

下面是測(cè)試中文識(shí)別的結(jié)果,除了有一處換行錯(cuò)了以外,基本正確,識(shí)別效果較好。


中文.PNG

Tencent中文.PNG
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容