最新的論文或者必看榜單
2023-RAG-非常全面: Retrieval-Augmented Generation for Large Language Models: A Survey
overview或者說摘要看這篇:
https://acl2023-retrieval-lm.github.io/
目前常用的幾種:
- 最直接的RAG,query檢索數(shù)據(jù)庫一次。
- 訓練retriever+llm,可以單獨訓練Retriver 本身, REPLUG Retrieval-Augmented Black-Box Language Models。這是一種成本比較小的方法,比如我就固定gpt4,我可以把retriver訓練到和他特別契合。
- 不斷的調(diào)整retriever的方式,比如使用生成的句子,每N個字,再去做一次檢索,和我們搜索段落增強方法相似。針對when和what,可以有很多方法都需要嘗試,比如Active Retrieval Augmented Generation,里面就是根據(jù)輸出token的困惑度來決定是否繼續(xù)去query??傊梢哉{(diào)試的空間很多。
- 另外retrieve本身的目標也可以調(diào)整,是chunk,還是page,還是 block 對結果都有可能有影響。
做深度報告的一種嘗試
- 讓gpt生產(chǎn)query,構建框架。替代事前的知識圖譜,成本太高,并且用不用的上也不一定。
- 生產(chǎn)10個query,去檢索,然后生產(chǎn)效評估。這其中可以引入投研知識來評價query好不好,現(xiàn)有生成好不好。
- 如果有必要,將query繼續(xù)拆分做召回。
- 召回的方式,嘗試多種,比如para,block,page, title block。
- 對 indexer再進行訓練,比如選定gpt3.5或者gpt4再次做一次訓練。
長文總結的一類新的方式
- 當前我們的做法,一個query,召回的基本都是相似性,可以理解為一個聚類。
- 長文總結,可能需要找到10個最能代表整篇文章的para。
- 所以還是要召回聚類,讓后從聚類里面找最合適的chunk。
- 感覺內(nèi)核和section召回差不多。因為文檔結構本身是聚類的放在一塊。