基于博文 Advanced RAG Techniques: an Illustrated Overview 的學(xué)習(xí)和練習(xí)的記錄。
中文內(nèi)容可以查看博主@寶玉的譯文 高級(jí) RAG 技術(shù):圖解概覽 [譯]
系列筆記:
RAG 學(xué)習(xí)筆記(一)
RAG 學(xué)習(xí)筆記(二)
RAG 學(xué)習(xí)筆記(三)
RAG 學(xué)習(xí)筆記(四)
RAG 學(xué)習(xí)筆記(五)
RAG 學(xué)習(xí)筆記(六)
RAG 學(xué)習(xí)筆記(七)
RAG 學(xué)習(xí)筆記(八)
性能評(píng)估
Ragas 評(píng)估框架

ragas 評(píng)估指標(biāo)
Ragas 框架中的評(píng)估指標(biāo)分為兩類
- 評(píng)估答案生成效果的指標(biāo):
- 忠實(shí)程度(Faithfulness):生成的答案與給定上下文的一致程度
- 回答的相關(guān)度(Answer relevancy):生成的答案與問題的相關(guān)程度
- 評(píng)估檢索效果的指標(biāo):
- 上下文準(zhǔn)確率(Context precision):檢索結(jié)果是否準(zhǔn)確
- 上下文召回率(Context recall):該出現(xiàn)的結(jié)果是否檢索到了
- 上下文相關(guān)度(Context relevancy):檢索的內(nèi)容與問題的相關(guān)程度(和文檔分割策略相關(guān))
Truelens 評(píng)估框架

RAG 三元組
Truelens 框架 介紹了 RAG 三元組:
- 上下文相關(guān)度(context relevance):檢索的內(nèi)容與問題的相關(guān)程度
- 依據(jù)性(groundedness):回答內(nèi)容基于給定上下文的程度
- 回答相關(guān)度(answer relevance):生成的答案與問題的相關(guān)程度
其他指標(biāo)
OpenAI cookbook 中演示的指標(biāo):
- 命中率(hit rate)
- 平均倒數(shù) 排名(Mean Reciprocal Rank):常見的搜索引擎指標(biāo)
與高級(jí) RAG pipeline 的關(guān)系

高級(jí) RAG pipeline
- 第 1-7 部分、Encoder 和 Ranker 微調(diào)部分,都為了提高檢索的相關(guān)度
- 第 8 部分、LLM 微調(diào)部分,都為了提高回答內(nèi)容的相關(guān)度和依據(jù)性(groundedness)。
圖片中涉及的內(nèi)容:請看系列筆記(二)到(七)
資源
- 吳恩達(dá)課程:構(gòu)建并評(píng)估高級(jí) RAG
- 簡單實(shí)現(xiàn)檢索器評(píng)估 pipeline,并對(duì)微調(diào)的 Encoder 效果進(jìn)行評(píng)估
- LangChain 評(píng)估框架 LangSmith:可以監(jiān)控 RAG 管道內(nèi)運(yùn)行的情況,使系統(tǒng)更加透明。
- LlamaIndex 生態(tài)中的評(píng)估工具包:RAG Evaluation Pack,提供工具和相關(guān)開放數(shù)據(jù)集。
結(jié)語
除了之前介紹到的內(nèi)容外,還有其他的技術(shù):
- 基于網(wǎng)絡(luò)搜索的 RAG,比如:LlamaIndex 的 RAGs、weblangchain
- 深入 Agent 架構(gòu),比如 OpenAI 在 Agent 這項(xiàng)技術(shù)的“押注”
- 關(guān)于 LLM 長期記憶的討論
生產(chǎn)中 RAG 的挑戰(zhàn)除了檢索效果和回答效果外,就是運(yùn)行速度了。因此 Mixtral 和 Phi-2 這類小模型是比較有前景的。
完結(jié)撒花 ??ヽ(°▽°)ノ?