RAG 學(xué)習(xí)筆記(四)

基于博文 Advanced RAG Techniques: an Illustrated Overview 的學(xué)習(xí)和練習(xí)的記錄。

中文內(nèi)容可以查看博主@寶玉的譯文 高級 RAG 技術(shù):圖解概覽 [譯]

系列筆記:
RAG 學(xué)習(xí)筆記(一)
RAG 學(xué)習(xí)筆記(二)
RAG 學(xué)習(xí)筆記(三)

搜索索引(第二部分)

豐富上下文

主要有兩點(diǎn):

  1. 檢索較小的文本塊來獲得更好的搜索質(zhì)量
  2. 增加文本塊周圍的上下文供 LLM 推理

有兩種方式:

  1. 增加文本塊周圍的句子來擴(kuò)展文本
  2. 通過遞歸的的方式,將文本分割為具有父子關(guān)系的大小塊。

句子窗口檢索

句子窗口檢索
  1. 每個(gè)句子獨(dú)立 embedding,可以提供很高的查詢準(zhǔn)確性。
  2. 獲得到最相關(guān)的句子,并在句子前后擴(kuò)展 K 個(gè)句子
  3. 將擴(kuò)展后的內(nèi)容做為上下文提供給 LLM。

自合并檢索器(即父文檔檢索器)

父文檔檢索器
  1. 將文檔分割成為具有父子關(guān)系的大小文本塊,較小的子文本塊引用較大的父文本塊,只對子文本塊進(jìn)行 embedding
  2. 搜索較小子文本塊,如果前 k 個(gè)檢索結(jié)果中超過 n 個(gè)結(jié)果屬于同一父文本塊,就使用該父文本塊作為上下文提供給 LLM。

深入了解資源:

融合檢索/混合搜索

傳統(tǒng)的基于關(guān)鍵字的搜索方法有:

  1. 稀疏檢索方法 tf/idf
  2. 搜索行業(yè)標(biāo)準(zhǔn)方法 BM25

現(xiàn)代檢索方法有:語義或者向量搜索方法

可以將傳統(tǒng)和現(xiàn)代方法結(jié)合起來,將兩種類方法的結(jié)果整合成一個(gè)檢索結(jié)果。

融合檢索/混合搜索

優(yōu)點(diǎn):融合/混合搜索結(jié)合了兩類方法,同時(shí)考慮了語義相似度和關(guān)鍵詞匹配,通常會(huì)有更好的檢索結(jié)果

難點(diǎn):將不同打分規(guī)則獲得到的結(jié)果正確地整合排序

解決方法倒序排序融合(Reciprocal Rank Fusion)

實(shí)現(xiàn)

  1. LangChain: Ensemble Retriever
  2. LlamaIndex: Reciprocal Rerank Fusion Retriever

動(dòng)手練習(xí)融合檢索 LangChian 實(shí)現(xiàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容