武漢實習周記(五六)

工作之后,感覺時間過得很快,總是錯把周四當成周三。想要時間過的慢一點,還是需要多記錄、多感知,給自己一個坐標系,不然連實習到第幾周都是模糊的。

寫道這里想到湯質(zhì)老師曾經(jīng)分享過:“創(chuàng)作者的本質(zhì)都是極其自私的,他首先解決的是自己的問題,比如經(jīng)濟來源、復盤自己的經(jīng)驗與方法、影響力的獲取等等”

這篇文章的目的很明確,記錄一下,加深自己對時間的感知度。

步入正題,還是分為三個部分,技術篇、認知篇、游玩篇。

技術篇

1. ShardingSphere-Proxy的任務交付了,項目本身存在問題,分表方案沒有被采用,目前公司僅使用proxy進行數(shù)據(jù)遷移和對分表進行管理。

2. 學習Python,目前已分配到的任務是編寫一個和gpt-4o的實時對話demo。通過這個任務,讓我對大模型有了一些接觸。

拿最近一個驚嘆到我的例子來說吧!

——openai的whisper語音識別模型

該模型的主要作用是將語音轉(zhuǎn)錄成文字和將識別到的任何語言翻譯成英文。

先放一張具體處理流程圖:

wisper

過程比較復雜,我也不是很明白。讓我震驚的不是模型構(gòu)建的多么地復雜,而是訓練時間。

680000小時

68萬小時,這是一個什么概念呢?打個比方,一個人每天訓練14個小時,一年按照365天計算,大概需要133年。

識別效果怎么樣呢?

下圖是兩次調(diào)用的結(jié)果,第一次調(diào)用沒有用prompt,導致有一些錯字和缺失標點符號。

openapi-whisper-1調(diào)用

這個模式主要訓練材料是英語,英文識別會更好一點。

語音識別只是第一步,識別到之后,就可以在上層構(gòu)架各種各樣的應用了。比如:給音視頻添加字幕、從音視頻中提出文本、會議或者B站視頻實時字幕、AI換音等等。

認知篇

佛陀存在的本身,比它的任何理論都更值得令人敬畏。一切認知都要回歸現(xiàn)實、回歸生產(chǎn),不然的話,就是消遣,就是欺騙自己。

游玩篇

武漢比較著名的幾個地方基本上都去過了,躺在家里呆了四天。以刷手機為主,輔以各種雜事。

這四天呆下來的感受是周末兩天還是需要抽出來一天出去走走,哪怕是全當散步,也比呆在屋子里面要好很多。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容