一、先說結(jié)論:維度不是越大越好,而是“夠用最好”
很多人一上來就問:
“Embedding 選 384 維還是 768 維?”
“1536 維是不是一定比 768 維效果好?”
“3072 維是不是最強?”
其實不能這么理解。
Embedding 向量維度,本質(zhì)上可以理解為:
模型用多少個數(shù)字來描述一段文本的語義。
比如一句話:
用戶想查詢寬帶套餐辦理方式
Embedding 模型會把它變成一串?dāng)?shù)字。
384維,就是用384個數(shù)字描述它。
768維,就是用768個數(shù)字描述它。
3072維,就是用3072個數(shù)字描述它。
維度越高,理論上能表達(dá)的信息越細(xì),但同時也會帶來:
存儲 更大、檢索更慢、內(nèi)存更高、索引構(gòu)建更重、成本更高。
所以真正的原則是:
不是追求最高維度,而是在效果、成本、速度之間找平衡。
OpenAI 官方文檔里也明確說明,text-embedding-3-small 默認(rèn)是 1536 維,text-embedding-3-large 默認(rèn)是 3072 維,并且支持通過 dimensions 參數(shù)縮短維度。
二、Embedding維度到底是什么意思?
1、可以把向量維度理解成“語義坐標(biāo)軸”
假設(shè)我們要描述一個人。
只用3個維度:
身高、體重、年齡。
能描述嗎?
可以,但很粗。
如果用20個維度:
身高、體重、年齡、職業(yè)、城市、興趣、消費能力、教育背景、語言習(xí)慣……
描述就更豐富。
Embedding 也是類似。
384維,像是用384個角度理解文本。
768維,像是用768個角度理解文本。
3072維,像是用3072個角度理解文本。
維度越多,模型有更多空間表達(dá)細(xì)微信息。
但是注意:
維度多,不代表一定更準(zhǔn)。
因為準(zhǔn)確率還取決于:
模型訓(xùn)練數(shù)據(jù)、模型結(jié)構(gòu)、中文能力、領(lǐng)域適配、切片質(zhì)量、召回策略、Rerank精排、查詢改寫、向量庫索引參數(shù)等。
很多時候,一個優(yōu)秀的768維模型,效果可能超過一個普通的1536維模型。
三、為什么常見維度是384、768、1024、1536、3072?
1、384維:輕量、便宜、快
384維通常出現(xiàn)在輕量級 Embedding 模型里。
比如 sentence-transformers/all-MiniLM-L6-v2 官方說明就是把句子和段落映射到 384維向量空間,可用于聚類和語義搜索。
384維適合:
中小規(guī)模知識庫、FAQ搜索、語義相似度判斷、輕量級推薦、低成本RAG、邊緣設(shè)備、本地部署。
優(yōu)點是:
速度快、占用小、部署簡單、向量庫壓力小。
缺點是:
表達(dá)能力有限,遇到復(fù)雜語義、長文本、 多語言 、專業(yè)領(lǐng)域時,可能不如高維模型穩(wěn)定。
2、768維:工程里最常見的平衡點
768維是很多 base 級模型的常見維度。
例如 BGE 系列里,bge-base-en-v1.5 是 768 維,bge-small-en-v1.5 是384維,bge-large-en-v1.5 是1024維。
768維適合:
企業(yè)知識庫、客服問答、文檔檢索、RAG系統(tǒng)、搜索增強、內(nèi)容推薦、語義去重。
它的特點是:
效果比384維更穩(wěn),成本又不會像1536維、3072維那么高。
如果不知道怎么選,很多企業(yè)內(nèi)部項目可以先從768維開始。
3、1024維:更強一點,但成本也上來了
1024維常見于 large 級開源 Embedding 模型。
比如 BGE large 系列就是1024維。
1024維適合:
專業(yè)知識庫、復(fù)雜問答、長文檔檢索、金融/法律/醫(yī)療/政企文檔、對召回質(zhì)量要求較高的RAG系統(tǒng)。
它比768維更細(xì),但成本也明顯增加。
尤其當(dāng)數(shù)據(jù)量達(dá)到百萬、千萬級時,1024維比768維多出來的存儲和計算壓力會很明顯。
4、1536維:很多商業(yè)Embedding模型的經(jīng)典維度
1536維以前非常常見,比如 OpenAI 舊款 text-embedding-ada-002 是1536維;現(xiàn)在 text-embedding-3-small 默認(rèn)也是1536維。OpenAI 官方說明,text-embedding-3-small 默認(rèn)向量長度為1536。
1536維適合:
多語言檢索、復(fù)雜語義搜索、線上RAG、企業(yè)級知識庫、對效果要求較高但又不想上最高成本的場景。
它的優(yōu)勢是:
表達(dá)能力強,通用性好,適合復(fù)雜業(yè)務(wù)。
但問題也很明顯:
向量庫體積更大,檢索成本更高,索引構(gòu)建更慢。
5、3072維:效果上限更高,但不是所有項目都需要
3072維通常屬于更大規(guī)模的 Embedding 模型。
OpenAI 官方介紹,text-embedding-3-large 可以生成最高3072維的向量,并且是性能更強的 embedding 模型。
3072維適合:
高價值搜索、復(fù)雜跨語言檢索、海量文檔RAG、對召回質(zhì)量要求極高的系統(tǒng)、知識密集型場景。
比如:
法律條款檢索、醫(yī)學(xué)文獻(xiàn)檢索、科研論文檢索、金融研報檢索、多語言客服知識庫。
但普通項目沒必要一上來就用3072維。
因為它貴、重、慢。
如果你的數(shù)據(jù)本身質(zhì)量一般,切片混亂,標(biāo)題缺失,元數(shù)據(jù)不完整,直接上3072維也救不了效果。
四、維度越高,成本到底高在哪里?
1、存儲成本會直接變大
向量通常用 float32 存儲,一個數(shù)字占4字節(jié)。
所以:
384維:384 × 4 = 1536字節(jié),約1.5KB。
768維:768 × 4 = 3072字節(jié),約3KB。
1024維:1024 × 4 = 4096字節(jié),約4KB。
1536維:1536 × 4 = 6144字節(jié),約6KB。
3072維:3072 × 4 = 12288字節(jié),約12KB。
Milvus 也解釋過,Embedding 存儲主要受向量數(shù)量、維度和數(shù)值精度影響,例如1024維 float32 向量約4KB,100萬個就是約4GB。
如果有100萬條數(shù)據(jù):
384維大約1.5GB。
768維大約3GB。
1024維大約4GB。
1536維大約6GB。
3072維大約12GB。
這還只是原始向量。
真實線上還要加:
索引空間、元數(shù)據(jù)、主鍵、分片、副本、緩存、日志、備份。
所以實際占用通常會更高。
2、檢索速度會受影響
向量檢索 要比較相似度。
維度越高,比較一次需要看的數(shù)字越多。
384維比較一次,看384個數(shù)字。
3072維比較一次,看3072個數(shù)字。
后者是前者的8倍。
雖然向量數(shù)據(jù)庫會用索引優(yōu)化,比如 HNSW、IVF、DiskANN 等,但維度越高,計算壓力仍然更大。
Milvus 的技術(shù)資料也提到,向量維度和索引類型會直接影響檢索速度、準(zhǔn)確率和資源使用,維度更高通常會帶來更大的計算開銷。
3、內(nèi)存壓力會變大
很多向量庫為了加速檢索,會把索引和部分向量加載到內(nèi)存。
維度越高:
內(nèi)存越大。
緩存命中壓力越大。
機器規(guī)格越高。
擴容成本越高。
如果只是幾萬條數(shù)據(jù),問題不明顯。
如果是幾百萬、幾千萬條數(shù)據(jù),維度選擇就非常關(guān)鍵。
4、索引構(gòu)建會更慢
向量庫不是把向量存進(jìn)去就完事了。
通常還要建索引。
維度越高,索引構(gòu)建時間越長,CPU/GPU消耗越大,更新成本越高。
如果你的知識庫經(jīng)常更新,比如每天同步大量文檔、商品、工單、文章,那么高維度會讓構(gòu)建和更新變得更重。
五、不同維度怎么選?
1、384維:適合“夠用就行”的輕量場景
推薦場景:
客服FAQ。
簡單語義匹配。
短文本相似度。
中小知識庫。
個人項目。
測試原型。
低成本部署。
比如你做一個內(nèi)部FAQ:
問題是:
“怎么修改密碼?”
“寬帶怎么續(xù)費?”
“套餐怎么取消?”
“發(fā)票在哪里開?”
這種問題語義比較短,結(jié)構(gòu)比較清晰,384維通常就夠用了。
但如果你的問題變成:
“用戶投訴寬帶安裝延期,涉及多個責(zé)任部門和合同條款,如何判斷該走哪個處理流程?”
這種就復(fù)雜了,384維可能不夠穩(wěn)。
2、768維:適合大多數(shù)企業(yè)RAG項目
推薦場景:
企業(yè)知識庫。
運營知識庫。
客服知識庫。
產(chǎn)品文檔檢索。
內(nèi)部制度問答。
標(biāo)準(zhǔn)文檔問答。
768維是非常穩(wěn)的起點。
它不像384維那么輕,也不像1536維那么重。
如果你不知道怎么選,可以先用:
768維 + 混合檢索 + Rerank精排
這通常比盲目上3072維更劃算。
因為RAG效果不是只靠Embedding。
很多時候,真正提升效果的是:
切片策略優(yōu)化。
標(biāo)題增強。
問題改寫。
關(guān)鍵詞檢索補充。
RRF融合。
Rerank精排。
上下文壓縮。
答案后處理。
3、1024維:適合稍微復(fù)雜的知識密集型場景
推薦場景:
專業(yè)文檔。
政策制度。
法律條款。
技術(shù)文檔。
復(fù)雜知識庫。
多層級問答。
1024維適合作為768維和1536維之間的增強選擇。
如果768維召回效果不穩(wěn)定,但1536維成本又太高,可以考慮1024維。
尤其是一些開源模型,例如 BGE large 系列,就是1024維。
4、1536維:適合中大型線上RAG
推薦場景:
線上客服機器人。
復(fù)雜企業(yè)問答。
多業(yè)務(wù)線知識庫。
多語言檢索。
長文本檢索。
高準(zhǔn)確率要求系統(tǒng)。
1536維的優(yōu)勢是通用能力強。
如果預(yù)算允許,業(yè)務(wù)對準(zhǔn)確率要求高,1536維是一個比較穩(wěn)的商業(yè)選擇。
特別是使用 OpenAI text-embedding-3-small 這類模型時,默認(rèn)就是1536維。
5、3072維:適合高價值、高復(fù)雜度場景
推薦場景:
法律檢索。
醫(yī)學(xué)檢索。
金融研報。
科研論文。
跨語言檢索。
復(fù)雜知識推理前的高質(zhì)量召回。
3072維的目標(biāo)不是省錢,而是追求更高質(zhì)量。
但要注意:
只有當(dāng)你的數(shù)據(jù)質(zhì)量、切片策略、檢索鏈路、精排策略都做得不錯時,3072維的價值才更明顯。
否則就是:
成本上去了,效果沒明顯提升。
六、一個非常實用的選型口訣
可以記住這句話:
小數(shù)據(jù)、短文本、低成本,用384。
企業(yè)知識庫、常規(guī)RAG,用768。
專業(yè)文檔、復(fù)雜檢索,用1024。
線上高質(zhì)量RAG,用1536。
高價值復(fù)雜場景,用3072。
再簡單一點:
先用768維打底,再根據(jù)評測結(jié)果升級或降級。
七、為什么不能只看維度,還要看模型本身?
1、維度只是“容器大小”,模型能力才是“內(nèi)容質(zhì)量”
一個大水桶不一定裝的是好水。
一個3072維模型,如果訓(xùn)練得不好,中文能力差,領(lǐng)域不匹配,效果可能不如一個優(yōu)秀的768維中文模型。
所以選Embedding不能只問:
“多少維?”
還要問:
是否支持中文?
是否支持多語言?
是否適合長文本?
是否適合檢索任務(wù)?
是否開源可私有化?
是否支持降維?
是否有 MTEB、C-MTEB、MIRACL 等評測結(jié)果?
是否適合當(dāng)前業(yè)務(wù)語料?
2、中文場景要特別注意
有些模型英文效果很好,但中文一般。
如果你的知識庫主要是中文,比如:
客服知識庫。
運營文檔。
合同制度。
產(chǎn)品說明。
技術(shù)方案。
政策文件。
那應(yīng)該優(yōu)先考慮中文表現(xiàn)好的 Embedding 模型。
比如:
BGE 系列。
bge-m3。
m3e 系列。
text2vec 系列。
Qwen Embedding 系列。
OpenAI embedding 模型。
具體選哪個,不要只看排行榜,最好用自己的業(yè)務(wù)數(shù)據(jù)評測。
八、向量維度和召回效果是什么關(guān)系?
1、維度高,一般更容易表達(dá)復(fù)雜語義
比如下面兩個問題:
問題A:
“寬帶辦理流程是什么?”
問題B:
“用戶新裝寬帶后無法訪問部分網(wǎng)站,可能涉及哪些排查步驟?”
A很簡單。
B更復(fù)雜。
B里面有:
業(yè)務(wù)場景。
故障現(xiàn)象。
技術(shù)排查。
可能原因。
處理流程。
復(fù)雜問題需要更細(xì)的語義表達(dá)。
這時候高維模型可能更有優(yōu)勢。
2、但召回效果不只由維度決定
RAG系統(tǒng)里,召回效果至少受這些因素影響:
文檔解析質(zhì)量。
切片大小。
切片重疊。
標(biāo)題是否保留。
表格是否結(jié)構(gòu)化。
圖片是否OCR。
Embedding模型。
向量維度。
向量庫索引。
相似度算法。
關(guān)鍵詞召回。
混合檢索。
Rerank精排。
Query改寫。
同義詞擴展。
元數(shù)據(jù)過濾。
所以不要把“召回差”簡單歸因到“維度不夠”。
很多時候召回差,是因為:
文檔切片切碎了。
標(biāo)題丟了。
表格亂了。
PDF解析錯了。
用戶問題沒有改寫。
只做了向量檢索,沒有做關(guān)鍵詞檢索。
沒有做Rerank。
這些問題比維度更致命。
九、384維、768維、1024維、1536維、3072維對比表
|
維度 |
特點 |
優(yōu)點 |
缺點 |
適合場景 |
|
384維 |
輕量 |
快、省、便宜 |
表達(dá)能力有限 |
FAQ、短文本、小知識庫 |
|
768維 |
均衡 |
成本和效果平衡 |
極復(fù)雜場景可能不夠 |
企業(yè)知識庫、常規(guī)RAG |
|
1024維 |
增強 |
語義表達(dá)更細(xì) |
成本上漲 |
專業(yè)文檔、復(fù)雜檢索 |
|
1536維 |
高質(zhì)量 |
通用能力強 |
存儲和檢索成本高 |
中大型線上RAG |
|
3072維 |
高上限 |
復(fù)雜語義更強 |
貴、慢、重 |
法律、醫(yī)學(xué)、金融、科研 |
十、從成本角度看,維度差距有多大?
假設(shè)100萬條文本,每條一個向量,float32存儲。
|
維度 |
單條向量大小 |
100萬條原始向量 |
|
384維 |
約1.5KB |
約1.5GB |
|
768維 |
約3KB |
約3GB |
|
1024維 |
約4KB |
約4GB |
|
1536維 |
約6KB |
約6GB |
|
3072維 |
約12KB |
約12GB |
注意:
這只是原始向量。
真實生產(chǎn)環(huán)境還要考慮:
索引膨脹。
副本數(shù)量。
分片數(shù)量。
元數(shù)據(jù)字段。
冷熱數(shù)據(jù)。
備份數(shù)據(jù)。
內(nèi)存加載。
所以實際成本可能是這個數(shù)字的數(shù)倍。
十一、什么情況下應(yīng)該選低維?
1、數(shù)據(jù)量特別大
如果你有幾千萬、上億條向量,維度越高,成本越夸張。
這時候可能寧愿用384或768維,再配合:
混合檢索。
倒排索引。
Rerank。
分層召回。
冷熱分層。
量化壓縮。
這樣整體性價比更高。
2、文本比較短
比如:
商品標(biāo)題。
FAQ問題。
標(biāo)簽。
短評論。
工單標(biāo)題。
搜索關(guān)鍵詞。
這些文本信息量不大,384或768維通常夠用。
3、實時性要求高
如果用戶要求毫秒級響應(yīng),高維向量會增加檢索壓力。
尤其在高并發(fā)下,低維向量更容易保證性能。
4、預(yù)算有限
如果項目還在驗證階段,不建議一開始就上3072維。
可以先用低維模型快速驗證鏈路,再根據(jù)評測結(jié)果升級。
十二、什么情況下應(yīng)該選高維?
1、文本語義復(fù)雜
比如:
合同條款。
法律解釋。
醫(yī)學(xué)診療指南。
技術(shù)規(guī)范。
金融研報。
論文摘要。
這些文本語義密度高,低維模型可能抓不住細(xì)節(jié)。
2、問題表達(dá)很繞
用戶不一定會按文檔原話提問。
比如文檔里寫:
“用戶辦理銷戶需攜帶本人有效身份證件。”
用戶問:
“我想不用這個手機號了,需要準(zhǔn)備什么材料?”
這就需要模型理解“銷戶”和“不用手機號了”的語義關(guān)系。
復(fù)雜表達(dá)越多,對Embedding能力要求越高。
3、多語言場景
如果系統(tǒng)同時支持中文、英文、日文、韓文等,高質(zhì)量多語言 Embedding 更重要。
OpenAI 也提到 text-embedding-3-large 是更強的英文和非英文任務(wù) embedding 模型。
4、召回錯誤代價很高
比如:
醫(yī)療建議。
法律條款。
金融風(fēng)控。
政企制度。
這種場景召回錯了,后面大模型回答再強也沒用。
因為RAG有一句話:
召回錯了,生成必錯。
十三、維度可以隨便改嗎?
1、同一個向量庫字段,維度必須一致
向量庫里通常會定義字段維度。
比如:
embedding: float_vector(768)
那你插入的數(shù)據(jù)就必須是768維。
不能一部分384維,一部分768維。
否則會報錯。
2、換維度通常要重建索引
如果你原來用768維,后來改成1536維,一般需要:
重新生成所有文檔向量。
重新入庫。
重新建索引。
重新評測。
重新上線灰度。
所以維度選擇最好在項目前期想清楚。
不要今天384,明天768,后天1536,反復(fù)重建成本很高。
3、有些模型支持輸出指定維度
OpenAI 的新 embedding 模型支持通過 dimensions 參數(shù)縮短輸出維度。
這意味著你可以用一個強模型,但輸出較短向量。
比如:
用 text-embedding-3-large,但輸出1024維或1536維。
這樣可以在效果和成本之間折中。
不過是否適合,要用業(yè)務(wù)評測驗證。
十四、RAG項目里,推薦怎么做維度選型?
1、第一步:先定業(yè)務(wù)目標(biāo)
先問清楚:
是FAQ?
是文檔問答?
是客服機器人?
是合同檢索?
是論文檢索?
是商品搜索?
是內(nèi)容推薦?
不同業(yè)務(wù)的維度選擇不一樣。
2、第二步:先用中等維度做基線
一般建議:
中文企業(yè)知識庫:先試768維或1024維。
多語言復(fù)雜場景:先試1536維。
高價值專業(yè)場景:可以試1536維和3072維對比。
不要一上來拍腦袋選最高。
3、第三步:建立評測集
評測集至少包括:
用戶真實問題。
標(biāo)準(zhǔn)答案。
正確文檔片段。
相似問題。
口語化問題。
錯別字問題。
多輪追問問題。
長問題。
短問題。
邊界問題。
然后對比不同維度的召回效果。
4、第四步:看TopK召回率
比如用戶問一個問題,正確答案所在的文檔片段有沒有被召回。
可以看:
Top1是否命中。
Top3是否命中。
Top5是否命中。
Top10是否命中。
如果768維 Top5 已經(jīng)很穩(wěn),那沒必要上3072維。
如果1536維明顯比768維好,再考慮升級。
5、第五步:加入Rerank再評測
很多項目不要只測向量召回。
因為真實線上一般是:
先召回一批候選。
再用Rerank重新排序。
Rerank可以大幅提升排序質(zhì)量。
所以應(yīng)該對比:
768維 + Rerank
1536維 + Rerank
3072維 + Rerank
有時候:
768維 + 好的Rerank
可能比
1536維 + 沒有Rerank
效果更好。
十五、一個企業(yè)級選型方案
1、小型知識庫方案
數(shù)據(jù)量:
1萬到10萬條切片。
推薦:
384維或768維。
檢索方式:
向量檢索 + BM25關(guān)鍵詞檢索。
排序方式:
RRF融合 + Rerank。
適合:
內(nèi)部FAQ、產(chǎn)品幫助中心、運營手冊。
2、中型知識庫方案
數(shù)據(jù)量:
10萬到100萬條切片。
推薦:
768維或1024維。
檢索方式:
混合檢索。
優(yōu)化方式:
標(biāo)題增強、元數(shù)據(jù)過濾、Query改寫、Rerank精排。
適合:
企業(yè)知識庫、客服系統(tǒng)、技術(shù)文檔問答。
3、大型知識庫方案
數(shù)據(jù)量:
百萬到千萬級切片。
推薦:
768維、1024維、1536維做對比。
檢索方式:
分層召回、冷熱分層、混合檢索、精排。
優(yōu)化方式:
索引調(diào)參、向量壓縮、分片、副本、緩存。
適合:
大型企業(yè)知識庫、多業(yè)務(wù)線客服、內(nèi)容平臺搜索。
4、高價值專業(yè)知識庫方案
數(shù)據(jù)量:
不一定最大,但準(zhǔn)確率要求高。
推薦:
1536維或3072維。
檢索方式:
高質(zhì)量Embedding + 混合檢索 + Rerank + 引用校驗。
適合:
法律、醫(yī)療、金融、科研、政企政策。
十六、常見誤區(qū)
1、誤區(qū)一:維度越高,效果一定越好
不一定。
如果數(shù)據(jù)質(zhì)量差,3072維也沒用。
垃圾進(jìn),垃圾出。
2、誤區(qū)二:只要Embedding強,就不用關(guān)鍵詞檢索
不對。
向量檢索擅長語義相似。
關(guān)鍵詞檢索擅長精確匹配。
比如:
合同編號。
產(chǎn)品型號。
政策編號。
人名。
地名。
專業(yè)術(shù)語。
這些場景關(guān)鍵詞檢索很重要。
最好的方式通常是:
向量檢索 + 關(guān)鍵詞檢索 + 融合排序 + Rerank。
3、誤區(qū)三:低維一定差
不對。
384維在很多短文本場景非常好用。
尤其是數(shù)據(jù)量大、并發(fā)高、成本敏感時,低維反而更適合。
4、誤區(qū)四:換模型不用重建數(shù)據(jù)
不對。
換Embedding模型,一般必須重新生成向量。
因為不同模型生成的向量空間不一樣。
就像不同地圖的坐標(biāo)系不一樣,不能混著用。
5、誤區(qū)五:只看排行榜,不看業(yè)務(wù)數(shù)據(jù)
排行榜只能參考。
真正決定效果的,是你的業(yè)務(wù)語料。
同一個模型,在公開數(shù)據(jù)集上強,不代表在你的客服文檔、合同文檔、運營文檔里一定強。
十七、可以直接套用的選型建議
1、如果你是普通RAG項目
建議:
先選768維。
原因:
成本適中。
效果穩(wěn)定。
工程壓力不大。
后續(xù)可升級。
2、如果你是客服FAQ
建議:
384維或768維。
如果問題短、標(biāo)準(zhǔn)化強,384維夠用。
如果問題口語化嚴(yán)重,選768維更穩(wěn)。
3、如果你是企業(yè)知識庫
建議:
768維或1024維。
再配合:
混合檢索、Rerank、標(biāo)題增強、元數(shù)據(jù)過濾。
4、如果你是法律、金融、醫(yī)療
建議:
1536維起步,有條件測試3072維。
但必須做嚴(yán)格評測。
5、如果你數(shù)據(jù)量特別大
建議:
優(yōu)先考慮768維。
然后通過索引優(yōu)化、量化壓縮、冷熱分層降低成本。
十八、最終總結(jié)
Embedding向量維度選擇,本質(zhì)上不是一道數(shù)學(xué)題,而是一道工程題。
384維輕量、省錢、速度快,適合FAQ和短文本。
768維最均衡,適合大多數(shù)企業(yè)RAG項目。
1024維更適合專業(yè)文檔和復(fù)雜檢索。
1536維適合中大型線上知識庫,對效果要求更高。
3072維適合高價值、高復(fù)雜度、高準(zhǔn)確率場景。
真正落地時,不要只看維度。
要同時看:
模型能力。
中文效果。
數(shù)據(jù)質(zhì)量。
切片策略。
向量庫成本。
檢索速度。
召回準(zhǔn)確率。
Rerank效果。
線上并發(fā)。
預(yù)算限制。
一句話總結(jié):
Embedding維度不是越大越好,而是越適合越好。
最穩(wěn)妥的做法是:
先用768維或1024維建立基線,再用真實業(yè)務(wù)評測決定是否升級到1536維或3072維。