常識
關(guān)鍵字
原始精度:
fp32: Float32, 全精度, 每個(gè)參數(shù)4字節(jié), 只在訓(xùn)練初期使用
bf16: Bfloat16, 主流格式, GoogleBrain開發(fā), 專門為深度學(xué)習(xí)優(yōu)化, 不容易出現(xiàn)數(shù)值溢出
fp16: Flat16, 傳統(tǒng)半精度, 比BF16更精準(zhǔn)但數(shù)值范圍窄, 容易NaN
量化精度:
- 8bit/Int8/q8_0: 幾乎無損
- 6bit(q6_k): 在統(tǒng)計(jì)學(xué)上, 它的PPL(困惑度)已經(jīng)無限接近原版bf16
- 5bit(q5_0/q5_k_m): 如果你發(fā)現(xiàn)4-bit模型在寫代碼時(shí)有小Bug, 切到5-bit通常就能解決
- 4bit(q4_0/q4_k_m)
- q4_k_m: 智力損失約1-3%,但體積只有原版的1/4
- M: 中等壓縮, 權(quán)重和激活值平衡得最好, 是最推薦的下載版本
- S: 極致壓縮, 體積更小但智力受損稍明顯
- L: 壓縮較少, 智力最高, 但體積直逼8bit
- nvfp4: 精度最高速度最快, 僅限Blackwell
- mxfp4: 4位壓縮, 引入微縮放機(jī)制讓4bit模型擁有接近8bit的精度, 精度略遜于nvfp4
- q4_k_m: 智力損失約1-3%,但體積只有原版的1/4
- 3bit(q3_k_l/iq3_m): 對于70B以上的大模型勉強(qiáng)可用,對于7B/8B模型邏輯會大幅縮水
- 2bit(q2_k,iq2_xxs/iq2_m): 智力損耗極高, 模型可能會變得"前言不搭后語"或者出現(xiàn)明顯的邏輯斷層
- iq4_xs/iq4_nl: 重要性量化, 比傳統(tǒng)的q4更聰明, "最重要的參數(shù)"不被壓壞
- fp6: 介于fp和int4
- mxfp8: 8位壓縮, 引入微縮放機(jī)制讓8bit模型擁有接近16bit的精度
- nf4: 顯存有限的情況下微調(diào)模型的工業(yè)界的標(biāo)準(zhǔn), 比q4_0效果好得多
- jang: 針對AppleSilicon深度優(yōu)化的量化格式
架構(gòu)與結(jié)構(gòu):
- MoE: 專家混合結(jié)構(gòu), 模型雖然很大但每次處理問題只激活小部分參數(shù), 用更快的推理速度實(shí)現(xiàn)更強(qiáng)的智力
- GQA: 分組查詢注意力, 大幅減少推理時(shí)的KVCache顯存占用, 在同樣的顯存下跑更長的對話
- Dense: 稠密模型, 相對于MoE而言, 推理時(shí)所有參數(shù)都會參與計(jì)算
訓(xùn)練與對齊算法:
- SFT: 有監(jiān)督微調(diào), 模型學(xué)習(xí)了大量"問-答"對
- RLHF: 人類反饋強(qiáng)化學(xué)習(xí), 這是模型擁有"價(jià)值觀"和"邏輯條理"的關(guān)鍵
- DPO/ORPO: 直接偏好優(yōu)化, 目前替代RLHF的主流技術(shù), 能讓模型在更小的算力下變得更聰明
- GRPO: DeepSeekR1帶火的算法, 不需要昂貴的判分模型, 通過組內(nèi)對比讓模型實(shí)現(xiàn)"自我反思"和"長考"
- Dynamic: Dynamic Activation Scaling, 動(dòng)態(tài)激活值縮放, 推理時(shí)實(shí)時(shí)計(jì)算縮放比例, 無需校準(zhǔn)數(shù)據(jù)集, 對Int8/FP8等精度有極強(qiáng)的保護(hù)作用, 能有效壓制異常值導(dǎo)致的邏輯崩壞
模型版本及功能:
- IT(Instruct): 指令微調(diào)版, 即對話版, 能聽懂人類要求, 適合聊天&寫代碼
- Base(Foundation): 基座版, 超級續(xù)寫機(jī), 不會回答問題
- Chat: 等同于IT, 適合聊天
- VLM/MLLM/VL(Vision): 多模態(tài)版, 支持圖片
- Coder: 適合寫代碼
- Abliterated/Uncensored: 去限制版
- RP: 角色扮演版, 針對小說創(chuàng)作/角色模仿優(yōu)化過的版本
容器格式:
- GGUF: 單文件, 自帶元數(shù)據(jù), 跨平臺兼容性最強(qiáng), 對Apple Silicon優(yōu)化
- Safetensors: HuggingFace標(biāo)準(zhǔn)格式, 安全且加載快
- EXL2: 極致壓縮, 專為 NVIDIA 顯卡深度優(yōu)化
- AWQ/GPTQ: 通常以特定的量化方式存在, 依賴專用的加速內(nèi)核
- MLX: 對Apple Silicon優(yōu)化
- ONNX/OpenVINO: 跨平臺與Intel優(yōu)化
開源模型
通用全能:
- Llama: 開源界的工業(yè)標(biāo)準(zhǔn), 生態(tài)系統(tǒng)極其完善. 無論你想做量化/微調(diào)/部署, Llama永遠(yuǎn)是適配最快Bug最少的選擇
- Qwen: 國產(chǎn)模型甚至全球開源界的頂尖水平, 數(shù)學(xué)、編程和中文能力極強(qiáng)
- GLM: 中英翻譯質(zhì)量極佳, 在學(xué)術(shù)理解/復(fù)雜指令遵循上非常硬核
- Grok: 參數(shù)量巨大
- Hermes: 極致的指令遵循與邏輯靈活性, 回答更具擬人感, 且在處理復(fù)雜長指令時(shí)現(xiàn)極其驚艷
- Dolphin: 去限制化的全能助手
邏輯/編程/長思考模型:
- DeepSeek: 極致的代碼與邏輯, 開啟了開源模型的"長思考"時(shí)代, 非常適合解決那種需要"想很久"的難題
- Codestral: 代碼補(bǔ)全
- Mistral/Mixtral: MoE架構(gòu)的先驅(qū), 推理速度極快, 顯存占用低
- InternLM: 工具調(diào)用與邏輯鏈路極穩(wěn), 適合寫自動(dòng)化腳本
- StarCoder/CodeLlama: 早期的代碼專家, 目前多作為特定領(lǐng)域的微調(diào)基座
多模態(tài)與多媒體:
- 視覺理解
- InternVL/Qwen-VL: 視覺問答, 分析復(fù)雜的圖表/識別路牌
- CLIP/ViT: 圖像識別與理解, 圖像搜索+以圖搜圖
- 內(nèi)容生成
- StableDiffusion/Flux: 畫師級產(chǎn)出
- CogVideoX: 對"復(fù)雜動(dòng)作"描述支持最好
- HuanYuan: 生成邏輯最縝密尤其是人物的動(dòng)作一致性非常強(qiáng)
- 語音處理
- Whisper: 語音轉(zhuǎn)文字(STT): 目前世界上最準(zhǔn)確支持語種最多的語音識別模型
- FishSpeech/GPT-SoVITS: 語音克隆(TTS), 只需要幾秒鐘的素材就能模仿一個(gè)人的聲音
端側(cè),輕量與調(diào)度:
- Phi: 以小博大, 高質(zhì)量數(shù)據(jù)勝過模型參數(shù), 非常適合本地個(gè)人助手
- Gemma: 學(xué)術(shù)與研究背景深厚
- MiniCPM: 手機(jī)端也能跑的最強(qiáng)大腦
- Smollm: 用于推測解碼加速大模型輸出
專業(yè)功能與架構(gòu)創(chuàng)新:
- CommandR: RAG與搜索專家, 自帶引文功能, 處理海量搜索結(jié)果時(shí)幻覺最少
- Mamba/Jamba: 無限長度的上下文+極速推理, 傳統(tǒng)的Transformer隨著對話變長速度會越來越慢, 而Mamba架構(gòu)的推理速度是恒定的且內(nèi)存占用極低
- Granite: 企業(yè)級合規(guī)與安全性, 用完全透明/經(jīng)過法律審計(jì)的數(shù)據(jù)訓(xùn)練的
技術(shù)
2025之前:
- LoRA: Low-Rank Adaptation, 參數(shù)高效微調(diào)的開端. 通過凍結(jié)原模型參數(shù)/僅訓(xùn)練低秩分解矩陣將微調(diào)顯存需求降低了數(shù)倍, 開啟了私有化定制時(shí)代
- S-LoRA: Scalable LoRA, 大規(guī)模適配器服務(wù)化. 通過統(tǒng)一管理成千上萬個(gè)LoRA算子并利用高效的內(nèi)存調(diào)度, 使得一臺服務(wù)器能同時(shí)支持?jǐn)?shù)千個(gè)不同任務(wù)的推理, 奠定了Model-as-a-Service的基礎(chǔ)
- QLoRA: 將微調(diào)顯存從多卡降到單卡可訓(xùn)70B
- Grouped-Query Attention (GQA) / Multi-Query Attention (MQA): KVcache共享, 推理顯存下降2-8x, 是后面MLA/長上下文的前置條件
- FlashAttention-3: FP8訓(xùn)練的算力解放. 利用Hopper架構(gòu)的TensorCore特性實(shí)現(xiàn)了異步數(shù)據(jù)處理, 將內(nèi)存帶寬利用率推向極致, 是后來2025年能進(jìn)行百萬量級Token原生訓(xùn)練的工程基石
- Native Multimodality: 原生多模態(tài), 告別了外掛視覺編碼器的模式. 模型在第一天訓(xùn)練時(shí)就將音頻/視頻和文本統(tǒng)一為同一套Token流, 這是2026年"世界模型"的前置條件
- vLLM: PagedAttention(虛擬內(nèi)存式KV管理), 吐提升 3-10x
- TensorRT-LLM: kernel fusion + KVcache優(yōu)化
- DeepSpeed ZeRO-3/ZeRO-Infinity: 解決超大模型訓(xùn)練內(nèi)存瓶頸
2025:
- System-2 Distillation: 系統(tǒng)2蒸餾, 將慢速思考的推理痕跡蒸餾進(jìn)快速思考的小模型中, 這使得無需大量CoT的模型也能擁有極高的邏輯直覺
- Hybrid SSM-Transformer: 混合架構(gòu), 像Mamba-2/Jamba這樣的架構(gòu)走向成熟. 通過在Transformer層中穿插SSM層實(shí)現(xiàn)了推理時(shí)的O(1)顯存復(fù)雜度.
- TTA: Test-Time Adaptation, 實(shí)時(shí)測試時(shí)適配, 模型在推理階段根據(jù)當(dāng)前輸入的context動(dòng)態(tài)調(diào)整自身參數(shù)或狀態(tài). 它比LoRA更實(shí)時(shí), 比Prompting更深入, 讓模型具備了"臨場反應(yīng)"的能力
- Self-Correction: 自我修正訓(xùn)練, 模型在訓(xùn)練階段就學(xué)會識別自己的錯(cuò)誤并回溯重寫
- Scaling Test-time Compute: 思維鏈縮放, 自適應(yīng)思維鏈(Adaptive CoT)和搜索樹搜索(Tree-of-thought Search), 即使是較小的模型, 通過在推理時(shí)分配更多算力, 其邏輯表現(xiàn)能追平大模型
- MLA: Multi-head Latent Attention, 通過將KVCache壓縮進(jìn)低維潛在空間, 再在計(jì)算時(shí)動(dòng)態(tài)解壓, 解決了長文本推理的內(nèi)存瓶頸, 使得在消費(fèi)級GPU上跑超長上下文(128k+)成為可能
- DSA: DeepSeek Sparse Attention, 深求索稀疏注意力機(jī)制, 通過Token級別的稀疏注意力進(jìn)一步優(yōu)化訓(xùn)練和推理開銷, 支持高達(dá)數(shù)百萬Token的原生上下文
- Parallel & Tree-based Speculative Decoding: 平行與樹狀推測, 改變傳統(tǒng)的單序列推測, 通過AMUSD/PEARL等框架實(shí)現(xiàn)并行驗(yàn)證或利用SwiftSpec/SpecBranch進(jìn)行樹狀推測, 推理速度提升2x-4x
- ATLAS(Adaptive-Learning Speculator System): 自適應(yīng)學(xué)習(xí)推測器,運(yùn)行時(shí)動(dòng)態(tài)優(yōu)化draft模型, 實(shí)現(xiàn)實(shí)時(shí)適應(yīng)工作負(fù)載,推理吞吐進(jìn)一步提升
- QuantSpec: 自推測解碼+分層量化KVCache
- 1.58-bit極簡量化與BitNet架構(gòu): 模型參數(shù)從FP16/INT8極限壓縮至三值邏輯(-1,0,1), 替代了浮點(diǎn)乘法計(jì)算, 相比INT8進(jìn)一步提升約2.5x的推理吞吐量且能耗大幅下降
- MoE專家預(yù)取與異步調(diào)度, 將MoE的輸出延遲(TPOT)降低10%-15%
- Continuous Batching: 動(dòng)態(tài)拼接不同請求, GPU利用率接近100%
- Prefix Caching/Prompt Cache: 重用歷史上下文KV, 長對話推理成本下降10x+
- Chunked Prefill: Prefill/Decode分離, 將長輸入分塊處理, 延遲降低 + 吞吐提升
- Ring Attention/Streaming Attention: 環(huán)形分布式注意力, 支持百萬級上下文分布式訓(xùn)練
- Infini-Attention: 歷史信息壓縮成記憶狀態(tài), 上下文“理論無限”
- Medusa: 多頭并行預(yù)測token, 速度提升2-3x(無需draft模型)
- Recurrent Drafting: 小模型遞歸預(yù)測草稿, 比傳統(tǒng)speculative更穩(wěn)定
- Data Efficiency Scaling: 高質(zhì)量數(shù)據(jù)>大規(guī)模數(shù)據(jù), 訓(xùn)練token下降5-10x
- Synthetic Data Engine: 自動(dòng)數(shù)據(jù)生成, 減少人工標(biāo)注
- Token Dropping/Routing Sparsity: MoE訓(xùn)練成本下降30%+
2026
Thought Compression: 思維壓縮, 將漫長的中間思考過程壓縮為緊湊的潛在特征向量, 既保留了推理能力又減少了Token消耗
World Model Integration: 世界模型集成, 模型不再僅僅是在預(yù)測文本而是內(nèi)置了物理仿真引擎. 在生成關(guān)于物理世界/工程邏輯的描述時(shí)模型會先在內(nèi)部的潛在模擬器中跑一遍預(yù)測確保邏輯不違背物理常識
Latent Reasoning: 不再生成CoT token, 推理成本下降一個(gè)數(shù)量級
Neural Execution Engine: 模型調(diào)用內(nèi)部程序模塊替代部分推理token
Fully Asynchronous Inference Pipeline: Prefill/Decode/Verification全異步, GPU無空閑周期
Memory-centric Inference: 推理瓶頸從算力轉(zhuǎn)向帶寬
Continual Pretraining: 持續(xù)預(yù)訓(xùn)練, 不再"訓(xùn)練->凍結(jié)", 模型持續(xù)更新
Parameter Routing: 參數(shù)級MoE, 不是token選專家,而是任務(wù)選參數(shù)子空間, LoRA的終極形態(tài)
TurboQuant: KVCache極致壓縮, 結(jié)合PolarQuant+Quantized Johnson-Lindenstrauss實(shí)現(xiàn)海量上下文下內(nèi)存開銷大幅降低
Sparse FP8 Decoding+異構(gòu)推測解碼: 稀疏FP8解碼帶來1.8x推理加速, Dovetail等CPU/GPU異構(gòu)推測進(jìn)一步降低通信開銷
DFlash: Diffusion-based Flash Speculative Decoding, 通過一個(gè)輕量級的擴(kuò)散模型作為Drafter, 一次性生成一整塊Token, 然后由主模型并行驗(yàn)證, 從而實(shí)現(xiàn)數(shù)倍的推理提速
DDTree: DFlash的進(jìn)一步升華, 它利用擴(kuò)散模型在推理時(shí)動(dòng)態(tài)構(gòu)建一個(gè)"候選解碼樹", 推理速度在保持邏輯嚴(yán)密的前提下再次提升3x以上
推理加速: KV Cache -> MQA/GQA -> MLA -> Speculative -> DFlash/DDTree -> Latent Reasoning
訓(xùn)練加速: LoRA -> QLoRA -> Synthetic Data -> Self-Correction -> Continual Training
架構(gòu): Transformer -> Hybrid SSM -> Sparse/MoE -> World Model
| 維度 | 早期 (2021-2023) | 中期 (2025) | 當(dāng)前 (2026) |
|---|---|---|---|
| 適配方式 | LoRA / S-LoRA (靜態(tài)微調(diào)) | TTA / Self-Correction (動(dòng)態(tài)適配) | Thought Compression (內(nèi)化邏輯) |
| 注意力機(jī)制 | Standard Attention | MLA / DSA (KV Cache 壓縮) | Sparse-Latent Hybrid |
| 推理策略 | Autoregressive (逐字生成) | Speculative Decoding (推測) | DFlash / DDTree (擴(kuò)散解碼樹) |