目錄:
1、什么是Token
2、什么是上下文
3、什么是參數(shù)
4、其它概念
1、什么是token:
大語(yǔ)言模型中的 Token(標(biāo)記/詞元) 是文本處理的基本單位,類似于人類語(yǔ)言中的“單詞”或“詞組”,但它的粒度更靈活。以下是直觀解釋:
- 定義:Token 是模型處理文本的最小單元,可以是一個(gè)單詞、子詞、字符,甚至標(biāo)點(diǎn)符號(hào)。
- 核心作用:將自然語(yǔ)言轉(zhuǎn)換為模型可理解的數(shù)字序列,簡(jiǎn)單的說(shuō)就是將最小單位的文字內(nèi)容映射為一個(gè)編號(hào)(例如,"Hello!" → [15496, 0])。
直觀類比: - 對(duì)人類:文本被拆分成單詞(如 ["I", "love", "cats"]這個(gè)3個(gè)token)。
- 對(duì)模型:文本被拆分為 Token(如 ["I", " love", " cat", "s"]這4個(gè)token)。
1)、Token 的生成方式:
模型通過 Tokenizer(分詞器) 將文本分割為 Token,然后給這些token進(jìn)行編號(hào),模型輸入和輸出的時(shí)候就可以根據(jù)這些編號(hào)來(lái)轉(zhuǎn)換對(duì)應(yīng)的人類或者機(jī)器能看的懂的內(nèi)容,常見的分詞方法:
(1)、基于單詞的分詞(Word-based):
按空格分割,直接映射單詞。示例:
"unhappy" → ["unhappy"]
缺點(diǎn):無(wú)法處理未見過的新詞(如 "unhappily" 需要單獨(dú)存儲(chǔ))。
(2)、基于子詞的分詞(Subword-based)主流方法:
將單詞拆分為更小的語(yǔ)義單元(如前綴、后綴、詞根)。
常用算法:
- BPE(Byte-Pair Encoding):GPT 系列使用(如 "unhappy" → ["un", "happy"])。
- WordPiece:BERT 使用(如 "playing" → ["play", "##ing"])。
- Unigram:基于概率統(tǒng)計(jì)的子詞拆分。
優(yōu)勢(shì):平衡詞典大小與泛化能力,可處理未知詞。
(3)、基于字符的分詞(Character-based):
按字符拆分(如 "A" → 1個(gè) Token)。
優(yōu)點(diǎn):詞典極?。ˋSCII 字符僅需 256 個(gè) Token)。
缺點(diǎn):序列過長(zhǎng),模型難以捕捉語(yǔ)義。
2)、Token 在模型中的實(shí)際應(yīng)用:
(1)、輸入輸出流程:
文本 → Token化 → 數(shù)字ID → 模型處理 → 輸出Token ID → 反Token化 → 文本
示例:
輸入:"Hello!" → Token化 → [15496, 0] → 模型生成 → [15496, 0, 345] → 反Token化 → "Hello! How"。
(2)、Token 與模型資源的關(guān)系:
詞典大小(Vocab Size):例如 GPT-4 的詞典約 10萬(wàn) Token,直接影響模型參數(shù)量。
上下文長(zhǎng)度(Context Length):例如 GPT-4 支持 128k Token 的輸入,決定模型能處理多長(zhǎng)的文本。
2、什么是上下文:
在大模型中,“上下文”(Context)是一個(gè)核心概念,直接決定了模型對(duì)輸入的理解能力和輸出的質(zhì)量。簡(jiǎn)單來(lái)說(shuō),上下文就是模型在處理當(dāng)前任務(wù)時(shí)“看到”的所有相關(guān)信息。
1)、基礎(chǔ)定義:上下文 = 模型需要參考的信息范圍
- 類比:就像人類聊天時(shí),你需要知道對(duì)方之前說(shuō)了什么,才能理解當(dāng)前這句話的含義。
- 大模型的上下文:模型生成回答時(shí),除了當(dāng)前的輸入(如問題),還會(huì)依賴它“記住”或“看到”的前文信息。
2)、技術(shù)角度:
- 定義:模型單次處理的最大文本長(zhǎng)度(如GPT-4的128k tokens約等于10萬(wàn)字)。
關(guān)鍵點(diǎn):
- 窗口外的信息會(huì)被遺忘:如果輸入超過這個(gè)長(zhǎng)度,模型無(wú)法處理多余部分。
- 分塊處理:對(duì)于超長(zhǎng)文本(如整本書),需切割成多個(gè)片段分別輸入。
例如:若用4k tokens窗口的模型處理一篇5k tokens的文章,模型只能“看到”前4k tokens,后1k tokens被丟棄。
3.1、上下文3中常見的形式:
(1)、輸入文本的上下文(短上下文):
場(chǎng)景:?jiǎn)未螁柎鸹蛭谋旧伞?br> 示例:
用戶輸入:"它是什么動(dòng)物?"
上下文補(bǔ)充:"這只動(dòng)物有黑白條紋,生活在非洲。"
模型實(shí)際看到的輸入:
"這只動(dòng)物有黑白條紋,生活在非洲。它是什么動(dòng)物?"
輸出:斑馬(模型通過上下文中的“黑白條紋”“非洲”推斷結(jié)果)。
(2)、對(duì)話歷史(多輪上下文)
場(chǎng)景:聊天機(jī)器人或多輪對(duì)話。
示例:
用戶第1輪:推薦一部科幻電影。
助理回答:《沙丘》值得一看。
用戶第2輪:為什么推薦它?
模型實(shí)際看到的輸入(包含對(duì)話歷史):
[用戶] 推薦一部科幻電影。
[助理] 《沙丘》值得一看。
[用戶] 為什么推薦它?
輸出:模型結(jié)合之前的推薦,解釋《沙丘》的優(yōu)點(diǎn)(如世界觀、視覺效果)。
(3)、長(zhǎng)文本上下文(如文檔、代碼)
場(chǎng)景:總結(jié)長(zhǎng)文章、分析代碼庫(kù)。
示例:
輸入一篇3000字的論文,讓模型總結(jié)核心觀點(diǎn)。
模型行為:逐段讀取全文,在生成總結(jié)時(shí)綜合所有段落的信息。
3.2、上下文在大模型中的使用:
- 顯性上下文:直接輸入給模型的文本(如對(duì)話歷史、文檔內(nèi)容)。
- 隱性上下文:模型預(yù)訓(xùn)練時(shí)學(xué)到的知識(shí)(如“斑馬有黑白條紋”這類常識(shí),即使輸入中沒有明確說(shuō)明,模型也能調(diào)用隱性知識(shí)補(bǔ)全信息)。
3.3、上下文和token之間關(guān)系:
可以理解為“上下文”為一張白紙,Token是白紙上面的字。而這張白紙上面能放多少字則由每個(gè)字體大小決定(即單個(gè)Token),比如如 GPT-4 Turbo 支持 128k Token,約 10 萬(wàn)漢字那一個(gè)Token大概等于1.2,具體怎么計(jì)算的這個(gè)是由各家大模型平臺(tái)用的分詞器系數(shù)決定。
所以Token可以看作是上下文的“尺子”,上下文長(zhǎng)度、成本、性能均由 Token 數(shù)量直接決定。同時(shí)對(duì)Token管理可以看作是對(duì)ai計(jì)算資源管理,像優(yōu)化內(nèi)存和CPU一樣優(yōu)化 Token 使用。
3、什么是大模型的參數(shù)
大模型的參數(shù)就是一堆數(shù)字,比如DeepSeek R1模型的參數(shù)為671B,可以簡(jiǎn)單的理解為有個(gè)表格存放這671B的參數(shù)(數(shù)值,這些數(shù)值都是在訓(xùn)練期間根據(jù)輸入的信息學(xué)習(xí)到的對(duì)應(yīng)信息的特征值和權(quán)重信息等),而這些參數(shù)一般都是占了大模型體積的90%。下面從2個(gè)方面介紹參數(shù)、token、上下文之間的關(guān)系。
1)、參數(shù)是什,直觀體現(xiàn):
參數(shù)是什么:參數(shù)是模型內(nèi)部存儲(chǔ)的“知識(shí)”,通過海量數(shù)據(jù)訓(xùn)練得到,類似于廚師通過多年做菜積累的經(jīng)驗(yàn)。示例,模型參數(shù)中可能存儲(chǔ):
- “西紅柿”常和“雞蛋”搭配(語(yǔ)義關(guān)聯(lián))。
- 寫代碼時(shí)“for循環(huán)”后通常接縮進(jìn)(語(yǔ)法規(guī)則)。
參數(shù)的直觀體現(xiàn):
- 參數(shù)越多(如GPT-4有1.8萬(wàn)億參數(shù)),模型“經(jīng)驗(yàn)”越豐富,能處理更復(fù)雜的任務(wù)。
- 參數(shù)數(shù)值是模型對(duì)Token之間關(guān)系的“記憶強(qiáng)度”(比如“貓→動(dòng)物”的關(guān)聯(lián)權(quán)重高,“貓→汽車”的權(quán)重低)。
2)、參數(shù)與Token、上下文關(guān)系:
(1)、參數(shù)決定如何處理Token:
Token是食材,參數(shù)是廚藝:給定同樣的食材(Token輸入),不同參數(shù)(廚藝水平)會(huì)做出不同的菜(輸出)。
示例,輸入“寫一首關(guān)于春天的詩(shī)”:
- 參數(shù)少的模型(如7B)可能生成平庸的句子。
- 參數(shù)多的模型(如70B)可能生成更押韻、意象豐富的詩(shī)。
參數(shù)控制Token之間的關(guān)聯(lián):
- 模型通過參數(shù)中的權(quán)重(Weight)判斷哪些Token應(yīng)該組合在一起。
示例:處理句子“貓?jiān)谧_”,參數(shù)會(huì)讓“老鼠”(而非“天空”)的Token概率更高。
(2)、參數(shù)如何與上下文聯(lián)動(dòng)?:
參數(shù)是記憶,上下文是臨時(shí)黑板:
- 參數(shù)存儲(chǔ)長(zhǎng)期知識(shí)(如“水的沸點(diǎn)是100℃”)。
- 上下文存儲(chǔ)臨時(shí)信息(如當(dāng)前對(duì)話中的用戶偏好)。
示例,用戶說(shuō):“我不吃辣?!?→ 這個(gè)信息存在上下文中,參數(shù)會(huì)根據(jù)它調(diào)整后續(xù)推薦的菜品(Token生成)。
參數(shù)決定上下文的理解深度:大參數(shù)模型能從上下文中提取更隱晦的關(guān)聯(lián),這里提取指的就是將輸入的文本信息轉(zhuǎn)變?yōu)閠oken然后計(jì)算這些token對(duì)應(yīng)的維度向量值,然后在根據(jù)存儲(chǔ)的記憶(參數(shù))進(jìn)行計(jì)算擬合出最接近我們想要的結(jié)果值。
示例:上下文提到“莫奈”,參數(shù)讓模型聯(lián)想到“印象派”“睡蓮”,從而生成更相關(guān)的Token。
4、其它概念
除了上述三者,大模型中還有以下重要概念:
1、注意力機(jī)制(Attention Mechanism)
作用:決定模型在處理某個(gè) Token 時(shí),應(yīng)關(guān)注上下文中的Token和其他Token之間的語(yǔ)義關(guān)系等。
關(guān)聯(lián)示例:
- 參數(shù)中的注意力權(quán)重矩陣,控制 Token 之間的關(guān)聯(lián)強(qiáng)度。
- 上下文窗口越大,注意力機(jī)制需處理更多 Token 的關(guān)系(計(jì)算量指數(shù)級(jí)增長(zhǎng))。
2、訓(xùn)練數(shù)據(jù)(Training Data)
作用:模型參數(shù)是通過海量數(shù)據(jù)訓(xùn)練得到的,數(shù)據(jù)質(zhì)量直接影響模型能力。
關(guān)聯(lián)示例:
- 訓(xùn)練數(shù)據(jù)中的 Token 分布影響模型的分詞規(guī)則(Tokenizer)。
- 數(shù)據(jù)多樣性決定模型能否處理不同領(lǐng)域的上下文(如代碼、醫(yī)學(xué)文獻(xiàn))。
3、微調(diào)(Fine-Tuning)
作用:在預(yù)訓(xùn)練模型基礎(chǔ)上,用特定領(lǐng)域數(shù)據(jù)調(diào)整參數(shù),適應(yīng)具體任務(wù)。
關(guān)聯(lián)示例:
- 微調(diào)可優(yōu)化模型對(duì)特定上下文的理解(如法律合同中的專業(yè)術(shù)語(yǔ) Token)。
4、溫度(Temperature)
作用:控制生成 Token 的隨機(jī)性(高溫度=更多創(chuàng)意,低溫度=更確定)。
關(guān)聯(lián)示例:
- 參數(shù)中的概率分布被溫度參數(shù)調(diào)整,影響生成 Token 的選擇策略。
5、 損失函數(shù)(Loss Function)
作用:訓(xùn)練時(shí)衡量模型預(yù)測(cè) Token 的誤差,驅(qū)動(dòng)參數(shù)優(yōu)化。
關(guān)聯(lián)示例:
- 參數(shù)通過損失函數(shù)反向傳播更新,使模型更準(zhǔn)確預(yù)測(cè)上下文中的下一個(gè) Token。
6、詞嵌入和位置嵌入
1)、詞嵌入:
是什么:將每個(gè)詞(Token)轉(zhuǎn)換為一個(gè)數(shù)字向量(數(shù)值),表示這個(gè)詞的“含義”。
作用:告訴模型這個(gè)詞的語(yǔ)義特征(如“貓”是動(dòng)物,“編程”是技術(shù)動(dòng)作)。
直觀類比:
想象你有一堆快遞包裹,詞嵌入就像在包裹上貼標(biāo)簽:
- 一個(gè)包裹上面貼著“蘋果”這個(gè)標(biāo)簽表示:水果、紅色、可食用
- 一個(gè)包裹上面貼著“蘋果”這個(gè)標(biāo)簽表示:手機(jī)品牌、科技(根據(jù)上下文動(dòng)態(tài)調(diào)整!)
- 一個(gè)包裹上面貼著“代碼”這個(gè)標(biāo)簽表示:計(jì)算機(jī)、文本、邏輯
關(guān)鍵技術(shù):
- 動(dòng)態(tài)性:現(xiàn)代大模型(如Transformer)中,詞嵌入會(huì)根據(jù)上下文調(diào)整(同一個(gè)詞在不同句子中的向量不同)。
- 維度:通常為數(shù)百到數(shù)千維(如dim=768),維度越高表達(dá)能力越強(qiáng)。
2)、位置嵌入:
是什么:給每個(gè)詞的位置(如第1個(gè)詞、第5個(gè)詞)分配一個(gè)數(shù)字向量,表示它在句子中的順序。
作用:告訴模型詞的位置關(guān)系(如“貓追狗”和“狗追貓”含義不同)。
直觀類比:
快遞包裹在傳送帶上流動(dòng),位置嵌入就像記錄每個(gè)包裹的到達(dá)順序:
- 一個(gè)貼著"貓"標(biāo)簽的包裹在傳送帶的第一個(gè)位置;
- 一個(gè)貼著"追"標(biāo)簽的包裹在傳送帶上的的第二個(gè)位置;
- 一個(gè)貼著"狗"標(biāo)簽的包裹在傳送帶的第三個(gè)位置;
關(guān)鍵技術(shù)點(diǎn):
- 必要性:Transformer模型并行處理所有詞(而非像RNN逐詞處理),必須顯式告訴模型詞的位置;
- 編碼方式:絕對(duì)位置(如sin/cos函數(shù)生成);相對(duì)位置(關(guān)注詞之間的距離,如“相鄰詞權(quán)重更高”);
3)、協(xié)同工作:
步驟拆解
1.輸入句子:“人工智能改變世界”
2.詞嵌入:將每個(gè)詞轉(zhuǎn)為向量(“人工”→[0.3, -0.2, ...])以此類推對(duì)每個(gè)token進(jìn)行詞嵌入處理。
3.位置嵌入:為每個(gè)位置生成向量(位置1→[0.1, 0.5, ...])。
4.融合:詞向量 + 位置向量 → 最終輸入模型的表示。
類比解釋,快遞分揀系統(tǒng)需要同時(shí)知道:
- 包裹內(nèi)容(詞嵌入 → 決定送往哪個(gè)區(qū)域)。
- 包裹順序(位置嵌入 → 決定處理的優(yōu)先級(jí))。
- 只有兩者結(jié)合,才能正確分揀(生成合理的輸出)。
至于為什么需要位置嵌入,是因?yàn)閠ransformer的并行處理的缺陷,傳統(tǒng)的模型(如RNN)天然能感知順序(即逐一順序進(jìn)行詞處理),但是transformer是同時(shí)并發(fā)的處理所有詞,默認(rèn)無(wú)法區(qū)分順序,例如:“沒有位置嵌入時(shí),“貓吃魚”和“魚吃貓”的輸入表示完全相同,模型無(wú)法區(qū)分”。通過添加位置編碼,讓模型知道“貓”在第1位,“魚”在第3位,從而理解動(dòng)作方向。