多模態(tài)RAG

# 多模態(tài)RAG調(diào)研 # 建立多模態(tài)RAG技術(shù)能力,需要解決以下幾點(diǎn)問題 ## 如何有效地解析和索引多模態(tài)文檔 MRAG系統(tǒng)需要對(duì)多模態(tài)文檔進(jìn)行解析和索引。這包括**提取文本內(nèi)容(使用OCR或特定格式的解析技術(shù)從多模態(tài)文檔中提取文本內(nèi)容)、檢測文檔布局并將其分割成結(jié)構(gòu)化元素(如標(biāo)題、段落、圖像、視頻等)**。 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-d6aa49d650b8b992.png) ## 如何建立多模態(tài)index與進(jìn)行多模態(tài)檢索 方法分為三類: (a) 單模態(tài)單stream檢索,將所有模態(tài)統(tǒng)一到單一(文本)的綜合模態(tài)中; (b) 跨模態(tài)單stream檢索,將所有模態(tài)嵌入到一個(gè)共享的向量空間中; (c) 單模態(tài)多stream檢索,為每種模態(tài)分別維護(hù)獨(dú)立的數(shù)據(jù)庫。 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-1f8deb95cad8edba.png) ## 2.3 如何在生成過程中整合多模態(tài)數(shù)據(jù) 多模態(tài)大型語言模型(MLLM)是基于Transformer的LLM,它們經(jīng)過多模態(tài)數(shù)據(jù)(包括文本、圖像、表格、音頻和視頻)的預(yù)訓(xùn)練和微調(diào),以分析和理解各種數(shù)據(jù)格式 ,代表性模型包括GPT-4o。 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-1d3074aec01d6877.png) ## 2.4 如何評(píng)估和改進(jìn)MRAG系統(tǒng)的性能 **評(píng)估MRAG系統(tǒng)的質(zhì)量分為三個(gè)方面** **檢索評(píng)估:** * **命中率:** 查詢中正確文檔出現(xiàn)在前N個(gè)結(jié)果中的百分比 。 * **平均倒數(shù)排名(MRR):** 量化最有用的文檔是否排名更高 。 * **相關(guān)性分?jǐn)?shù)(RS):** 評(píng)估檢索到的條目與查詢的相關(guān)性(適用于多模態(tài)數(shù)據(jù)),例如評(píng)估檢索到的圖像或文本與用戶意圖的對(duì)齊程度 。 * **上下文召回率:** 衡量檢索到的上下文與真實(shí)答案的匹配程度 。 * **上下文精度:** 評(píng)估最相關(guān)的上下文項(xiàng)是否排名高于不相關(guān)的項(xiàng) 。 **生成評(píng)估:** * **正確性分?jǐn)?shù)(CS):** 評(píng)估生成響應(yīng)相對(duì)于原始上下文的準(zhǔn)確性 。 * **多模態(tài)答案相關(guān)性:** 衡量多模態(tài)RAG管道生成器輸出與提供輸入的關(guān)聯(lián)程度 。 * **多模態(tài)忠實(shí)度:** 評(píng)估生成輸出是否與檢索上下文的內(nèi)容事實(shí)性對(duì)齊 。 * **圖像連貫性:** 評(píng)估圖像與伴隨文本的對(duì)齊程度 。 * **圖像幫助性:** 評(píng)估圖像對(duì)用戶理解的有效貢獻(xiàn) 。 * **圖像引用:** 衡量文本引用或解釋圖像的準(zhǔn)確性 。 * 傳統(tǒng)的NLP指標(biāo)(BLEU、ROUGE)可以使用,但單獨(dú)使用往往不足 。事實(shí)一致性檢查(例如使用BERTScore)至關(guān)重要 。 **端到端性能:** * **延遲:** 查詢的端到端處理時(shí)間 。 * **吞吐量:** 單位時(shí)間內(nèi)處理的查詢數(shù)量 。 * **資源利用率:** CPU、GPU和內(nèi)存使用情況 。 * **錯(cuò)誤率、用戶滿意度和任務(wù)成功率(A/B測試)** 。 * **人工評(píng)估**對(duì)于判斷正確性、清晰度、完整性以及識(shí)別幻覺至關(guān)重要 。 **評(píng)估MRAG系統(tǒng)的基準(zhǔn)與數(shù)據(jù)集** **MRAG-Bench**,以視覺為中心的LVLM基準(zhǔn) **M2RAG**,用于評(píng)估MLLM利用多模態(tài)檢索文檔能力的基準(zhǔn) **TEMPRAGEVAL**,針對(duì)時(shí)間敏感型問答 # 多模態(tài)RAG的三個(gè)版本 ## MRAG1.0 MRAG1.0 被稱為"偽MRAG”,通過將多模態(tài)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的文本表示,利用現(xiàn)有的文本檢索和生成機(jī)制實(shí)現(xiàn)了從RAG到MRAG的無縫銜接 ### 框架圖 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-6da0c123ad970aa5.png) ## MRAG2.0 MRAG2.0進(jìn)入了"真正的多模態(tài)”時(shí)代,**支持用戶具有多模態(tài)輸入的查詢,并保留知識(shí)庫中的原始多模態(tài)數(shù)據(jù)**。通過利用MLLMs的能力,生成模塊可以直接處理多模態(tài)數(shù)據(jù),從而最小化數(shù)據(jù)轉(zhuǎn)換期間的信息損 失。 ### 框架圖 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-ef22fb102392e720.png) ## MRAG3.0 MRAG3.0代表了一個(gè)重要的進(jìn)化,引入了結(jié)構(gòu)和功能創(chuàng)新,增強(qiáng)了多個(gè)維度的能力。新范式的特點(diǎn)包括增強(qiáng)的文檔解析、端到端多模態(tài)性和場景擴(kuò)展。在輸出階段,**多模態(tài)檢索增強(qiáng)組合模塊通過將純文本轉(zhuǎn)換為多模態(tài)格式來增強(qiáng)答案生成**,從而豐富信息傳遞 ### 框架圖 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-a41b0857cb17fd73.png) ## 在現(xiàn)有 Demo 中( dify) 需要補(bǔ)足的能力 | **RAG流程** | **功能/模型** | **哪個(gè)版本需要(1指MRAG1.0版本)** | | ------------- | ------------------------------------------ | -------------------------------- | | 文檔智能 | 多格式文檔解碼工具 | 1,2,3 | | | CV,目標(biāo)檢測,版面分析模型 | 1,2,3 | | | CV,文本檢測與識(shí)別ocr模型 | 1,2,3 | | | CV,表格識(shí)別模型 | 1 | | | MLLM模型,圖像理解方向 | ### 2,3 | | | image/table caption知識(shí)庫,文本格式 | ### 1,2,3 | | | 多模態(tài)知識(shí)庫,圖片格式 | 2,3 | | | 文件單頁截圖知識(shí)庫 | 3 | | 檢索 | 多模態(tài)embeding模型 | 2,3 | | | 多模態(tài)向量庫 | 2,3 | | | 多模態(tài)rerank模型 | 2,3 | | | 文件單頁截圖檢索模型 | 3 | | | 文件單頁截圖向量庫 | 3 | | | 文本web搜索功能 | 3 | | | 多模態(tài)web搜索功能 | 3 | | query與上下文 | 多輪對(duì)話文本中帶有圖片信息 | 2,3 | | | 多模態(tài)query搜索規(guī)劃模型 | 3 | | | query是否觸發(fā)web搜索判斷模型 | 3 | | 生成 | 多模態(tài)prompt設(shè)計(jì) | 2,3 | | | MLLM模型,文本生成方向 | 2,3 | | | 多模態(tài)augment輸出,文生圖模型,版面編排模型 | 3 | ## 三個(gè)版本的區(qū)別 | **特性** | **MRAG1.0 (偽MRAG)** | **MRAG2.0 (真多模態(tài))** | **MRAG3.0 (結(jié)構(gòu)與功能創(chuàng)新)** | | ------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | | 數(shù)據(jù)處理方式 | 將多模態(tài)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的文本表示,再進(jìn)行檢索和生成 | 保留原始多模態(tài)數(shù)據(jù),直接利用MLLMs處理多模態(tài)數(shù)據(jù) | 在輸入、檢索和輸出階段均支持端到端多模態(tài)處理,引入了多模態(tài)輸出能力 | | 檢索能力 | 基于文本向量的檢索技術(shù),無法充分利用跨模態(tài)信息的優(yōu)勢 | 支持跨模態(tài)檢索,能夠結(jié)合文本和多模態(tài)數(shù)據(jù)進(jìn)行更精確的檢索 | 引入動(dòng)態(tài)檢索規(guī)劃模塊,優(yōu)化檢索效率并減少無關(guān)信息的干擾。 | | 生成能力 | 生成純文本答案,容易因數(shù)據(jù)轉(zhuǎn)換導(dǎo)致信息丟失 | 能夠生成結(jié)合多模態(tài)數(shù)據(jù)的答案,顯著減少信息損失 | 支持多模態(tài)輸出(如圖文結(jié)合),進(jìn)一步豐富生成內(nèi)容的表現(xiàn)形式。 | | 主要局限性 | * 數(shù)據(jù)轉(zhuǎn)換過程復(fù)雜 * 易丟失細(xì)粒度跨模式信息 * 檢索準(zhǔn)確率受限 | * 業(yè)界多模態(tài)檢索baseline能力不及文件檢索 * 需要高效組織多樣化數(shù)據(jù)格式 | 系統(tǒng)復(fù)雜度極高,對(duì)計(jì)算資源要求更高 | | 應(yīng)用場景 | 主要適用于以文本為主、多模態(tài)為輔的應(yīng)用場景 | 更適合需要結(jié)合多模態(tài)數(shù)據(jù)進(jìn)行理解和生成的任務(wù),如視覺問答(VQA) | 覆蓋范圍更廣包括檢索增強(qiáng)、視覺問答(VQA)、圖像描述等多種場景實(shí)現(xiàn)理解和生成能力的統(tǒng)一 | # 參考資料 [https://arxiv.org/pdf/2504.08748](https://arxiv.org/pdf/2504.08748) [https://gemini.google.com/app/4569e251136cfbd9?hl=zh](https://gemini.google.com/app/4569e251136cfbd9?hl=zh) [https://mp.weixin.qq.com/s/kA53TFmcRcrXq6tenVKapg](https://mp.weixin.qq.com/s/kA53TFmcRcrXq6tenVKapg) [https://mp.weixin.qq.com/s/MEgilART1t9KNEi82BScGQ](https://mp.weixin.qq.com/s/MEgilART1t9KNEi82BScGQ) [https://mp.weixin.qq.com/s/l1NcfmuQ9CZKB0BIFu9m5g](https://mp.weixin.qq.com/s/l1NcfmuQ9CZKB0BIFu9m5g) [https://mp.weixin.qq.com/s/Nn1GFGUniEPtOpeLa1\_I5Q](https://mp.weixin.qq.com/s/Nn1GFGUniEPtOpeLa1_I5Q) 本文由[mdnice](https://mdnice.com/?platform=6)多平臺(tái)發(fā)布
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容