工作之后，感覺時間過得很快，總是錯把周四當成周三。想要時間過的慢一點，還是需要多記錄、多感知，給自己一個坐標系，不然連實習到第幾周都是模糊的。

寫道這里想到湯質(zhì)老師曾經(jīng)分享過：“創(chuàng)作者的本質(zhì)都是極其自私的，他首先解決的是自己的問題，比如經(jīng)濟來源、復盤自己的經(jīng)驗與方法、影響力的獲取等等”

這篇文章的目的很明確，記錄一下，加深自己對時間的感知度。

步入正題，還是分為三個部分，技術篇、認知篇、游玩篇。

技術篇

1. ShardingSphere-Proxy的任務交付了，項目本身存在問題，分表方案沒有被采用，目前公司僅使用proxy進行數(shù)據(jù)遷移和對分表進行管理。

2. 學習Python，目前已分配到的任務是編寫一個和gpt-4o的實時對話demo。通過這個任務，讓我對大模型有了一些接觸。

拿最近一個驚嘆到我的例子來說吧！

——openai的whisper語音識別模型

該模型的主要作用是將語音轉(zhuǎn)錄成文字和將識別到的任何語言翻譯成英文。

先放一張具體處理流程圖：

wisper

過程比較復雜，我也不是很明白。讓我震驚的不是模型構(gòu)建的多么地復雜，而是訓練時間。

680000小時

68萬小時，這是一個什么概念呢？打個比方，一個人每天訓練14個小時，一年按照365天計算，大概需要133年。

識別效果怎么樣呢？

下圖是兩次調(diào)用的結(jié)果，第一次調(diào)用沒有用prompt，導致有一些錯字和缺失標點符號。

openapi-whisper-1調(diào)用

這個模式主要訓練材料是英語，英文識別會更好一點。

語音識別只是第一步，識別到之后，就可以在上層構(gòu)架各種各樣的應用了。比如：給音視頻添加字幕、從音視頻中提出文本、會議或者B站視頻實時字幕、AI換音等等。

認知篇

佛陀存在的本身，比它的任何理論都更值得令人敬畏。一切認知都要回歸現(xiàn)實、回歸生產(chǎn)，不然的話，就是消遣，就是欺騙自己。

武漢比較著名的幾個地方基本上都去過了，躺在家里呆了四天。以刷手機為主，輔以各種雜事。

這四天呆下來的感受是周末兩天還是需要抽出來一天出去走走，哪怕是全當散步，也比呆在屋子里面要好很多。