9久精品视频,伊人国产亚洲AV,日韩欧美逼痒 3D

# 多模態(tài)RAG調(diào)研 # 建立多模態(tài)RAG技術(shù)能力，需要解決以下幾點(diǎn)問題 ## 如何有效地解析和索引多模態(tài)文檔 MRAG系統(tǒng)需要對(duì)多模態(tài)文檔進(jìn)行解析和索引。這包括**提取文本內(nèi)容(使用OCR或特定格式的解析技術(shù)從多模態(tài)文檔中提取文本內(nèi)容)、檢測文檔布局并將其分割成結(jié)構(gòu)化元素（如標(biāo)題、段落、圖像、視頻等）**。 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-d6aa49d650b8b992.png) ## 如何建立多模態(tài)index與進(jìn)行多模態(tài)檢索方法分為三類： (a) 單模態(tài)單stream檢索，將所有模態(tài)統(tǒng)一到單一（文本）的綜合模態(tài)中； (b) 跨模態(tài)單stream檢索，將所有模態(tài)嵌入到一個(gè)共享的向量空間中； (c) 單模態(tài)多stream檢索，為每種模態(tài)分別維護(hù)獨(dú)立的數(shù)據(jù)庫。 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-1f8deb95cad8edba.png) ## 2.3 如何在生成過程中整合多模態(tài)數(shù)據(jù) 多模態(tài)大型語言模型（MLLM）是基于Transformer的LLM，它們經(jīng)過多模態(tài)數(shù)據(jù)（包括文本、圖像、表格、音頻和視頻）的預(yù)訓(xùn)練和微調(diào)，以分析和理解各種數(shù)據(jù)格式 ,代表性模型包括GPT-4o。 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-1d3074aec01d6877.png) ## 2.4 如何評(píng)估和改進(jìn)MRAG系統(tǒng)的性能 **評(píng)估MRAG系統(tǒng)的質(zhì)量分為三個(gè)方面** **檢索評(píng)估：** * **命中率：** 查詢中正確文檔出現(xiàn)在前N個(gè)結(jié)果中的百分比。 * **平均倒數(shù)排名（MRR）：** 量化最有用的文檔是否排名更高。 * **相關(guān)性分?jǐn)?shù)（RS）：** 評(píng)估檢索到的條目與查詢的相關(guān)性（適用于多模態(tài)數(shù)據(jù)），例如評(píng)估檢索到的圖像或文本與用戶意圖的對(duì)齊程度。 * **上下文召回率：** 衡量檢索到的上下文與真實(shí)答案的匹配程度。 * **上下文精度：** 評(píng)估最相關(guān)的上下文項(xiàng)是否排名高于不相關(guān)的項(xiàng) 。 **生成評(píng)估：** * **正確性分?jǐn)?shù)（CS）：** 評(píng)估生成響應(yīng)相對(duì)于原始上下文的準(zhǔn)確性。 * **多模態(tài)答案相關(guān)性：** 衡量多模態(tài)RAG管道生成器輸出與提供輸入的關(guān)聯(lián)程度。 * **多模態(tài)忠實(shí)度：** 評(píng)估生成輸出是否與檢索上下文的內(nèi)容事實(shí)性對(duì)齊。 * **圖像連貫性：** 評(píng)估圖像與伴隨文本的對(duì)齊程度。 * **圖像幫助性：** 評(píng)估圖像對(duì)用戶理解的有效貢獻(xiàn) 。 * **圖像引用：** 衡量文本引用或解釋圖像的準(zhǔn)確性。 * 傳統(tǒng)的NLP指標(biāo)（BLEU、ROUGE）可以使用，但單獨(dú)使用往往不足。事實(shí)一致性檢查（例如使用BERTScore）至關(guān)重要。 **端到端性能：** * **延遲：** 查詢的端到端處理時(shí)間。 * **吞吐量：** 單位時(shí)間內(nèi)處理的查詢數(shù)量。 * **資源利用率：** CPU、GPU和內(nèi)存使用情況。 * **錯(cuò)誤率、用戶滿意度和任務(wù)成功率（A/B測試）** 。 * **人工評(píng)估**對(duì)于判斷正確性、清晰度、完整性以及識(shí)別幻覺至關(guān)重要。 **評(píng)估MRAG系統(tǒng)的基準(zhǔn)與數(shù)據(jù)集** **MRAG-Bench**，以視覺為中心的LVLM基準(zhǔn) **M2RAG**，用于評(píng)估MLLM利用多模態(tài)檢索文檔能力的基準(zhǔn) **TEMPRAGEVAL**，針對(duì)時(shí)間敏感型問答 # 多模態(tài)RAG的三個(gè)版本 ## MRAG1.0 MRAG1.0 被稱為"偽MRAG”，通過將多模態(tài)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的文本表示，利用現(xiàn)有的文本檢索和生成機(jī)制實(shí)現(xiàn)了從RAG到MRAG的無縫銜接 ### 框架圖 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-6da0c123ad970aa5.png) ## MRAG2.0 MRAG2.0進(jìn)入了"真正的多模態(tài)”時(shí)代，**支持用戶具有多模態(tài)輸入的查詢，并保留知識(shí)庫中的原始多模態(tài)數(shù)據(jù)**。通過利用MLLMs的能力，生成模塊可以直接處理多模態(tài)數(shù)據(jù)，從而最小化數(shù)據(jù)轉(zhuǎn)換期間的信息損失。 ### 框架圖 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-ef22fb102392e720.png) ## MRAG3.0 MRAG3.0代表了一個(gè)重要的進(jìn)化，引入了結(jié)構(gòu)和功能創(chuàng)新，增強(qiáng)了多個(gè)維度的能力。新范式的特點(diǎn)包括增強(qiáng)的文檔解析、端到端多模態(tài)性和場景擴(kuò)展。在輸出階段，**多模態(tài)檢索增強(qiáng)組合模塊通過將純文本轉(zhuǎn)換為多模態(tài)格式來增強(qiáng)答案生成**，從而豐富信息傳遞 ### 框架圖 ![image.png](https://upload-images.jianshu.io/upload_images/27840083-a41b0857cb17fd73.png) ## 在現(xiàn)有 Demo 中（ dify）需要補(bǔ)足的能力 | **RAG流程** | **功能/模型** | **哪個(gè)版本需要(1指MRAG1.0版本)** | | ------------- | ------------------------------------------ | -------------------------------- | | 文檔智能 | 多格式文檔解碼工具 | 1,2,3 | | | CV,目標(biāo)檢測，版面分析模型 | 1,2,3 | | | CV,文本檢測與識(shí)別ocr模型 | 1,2,3 | | | CV,表格識(shí)別模型 | 1 | | | MLLM模型，圖像理解方向 | ### 2,3 | | | image/table caption知識(shí)庫，文本格式 | ### 1,2,3 | | | 多模態(tài)知識(shí)庫，圖片格式 | 2,3 | | | 文件單頁截圖知識(shí)庫 | 3 | | 檢索 | 多模態(tài)embeding模型 | 2,3 | | | 多模態(tài)向量庫 | 2,3 | | | 多模態(tài)rerank模型 | 2,3 | | | 文件單頁截圖檢索模型 | 3 | | | 文件單頁截圖向量庫 | 3 | | | 文本web搜索功能 | 3 | | | 多模態(tài)web搜索功能 | 3 | | query與上下文 | 多輪對(duì)話文本中帶有圖片信息 | 2,3 | | | 多模態(tài)query搜索規(guī)劃模型 | 3 | | | query是否觸發(fā)web搜索判斷模型 | 3 | | 生成 | 多模態(tài)prompt設(shè)計(jì) | 2,3 | | | MLLM模型，文本生成方向 | 2,3 | | | 多模態(tài)augment輸出,文生圖模型，版面編排模型 | 3 | ## 三個(gè)版本的區(qū)別 | **特性** | **MRAG1.0 (偽MRAG)** | **MRAG2.0 (真多模態(tài))** | **MRAG3.0 (結(jié)構(gòu)與功能創(chuàng)新)** | | ------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | | 數(shù)據(jù)處理方式 | 將多模態(tài)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的文本表示，再進(jìn)行檢索和生成 | 保留原始多模態(tài)數(shù)據(jù)，直接利用MLLMs處理多模態(tài)數(shù)據(jù) | 在輸入、檢索和輸出階段均支持端到端多模態(tài)處理，引入了多模態(tài)輸出能力 | | 檢索能力 | 基于文本向量的檢索技術(shù)，無法充分利用跨模態(tài)信息的優(yōu)勢 | 支持跨模態(tài)檢索，能夠結(jié)合文本和多模態(tài)數(shù)據(jù)進(jìn)行更精確的檢索 | 引入動(dòng)態(tài)檢索規(guī)劃模塊，優(yōu)化檢索效率并減少無關(guān)信息的干擾。 | | 生成能力 | 生成純文本答案，容易因數(shù)據(jù)轉(zhuǎn)換導(dǎo)致信息丟失 | 能夠生成結(jié)合多模態(tài)數(shù)據(jù)的答案，顯著減少信息損失 | 支持多模態(tài)輸出（如圖文結(jié)合），進(jìn)一步豐富生成內(nèi)容的表現(xiàn)形式。 | | 主要局限性 | * 數(shù)據(jù)轉(zhuǎn)換過程復(fù)雜 * 易丟失細(xì)粒度跨模式信息 * 檢索準(zhǔn)確率受限 | * 業(yè)界多模態(tài)檢索baseline能力不及文件檢索 * 需要高效組織多樣化數(shù)據(jù)格式 | 系統(tǒng)復(fù)雜度極高，對(duì)計(jì)算資源要求更高 | | 應(yīng)用場景 | 主要適用于以文本為主、多模態(tài)為輔的應(yīng)用場景 | 更適合需要結(jié)合多模態(tài)數(shù)據(jù)進(jìn)行理解和生成的任務(wù)，如視覺問答(VQA) | 覆蓋范圍更廣包括檢索增強(qiáng)、視覺問答(VQA)、圖像描述等多種場景實(shí)現(xiàn)理解和生成能力的統(tǒng)一 | # 參考資料 [https://arxiv.org/pdf/2504.08748](https://arxiv.org/pdf/2504.08748) [https://gemini.google.com/app/4569e251136cfbd9?hl=zh](https://gemini.google.com/app/4569e251136cfbd9?hl=zh) [https://mp.weixin.qq.com/s/kA53TFmcRcrXq6tenVKapg](https://mp.weixin.qq.com/s/kA53TFmcRcrXq6tenVKapg) [https://mp.weixin.qq.com/s/MEgilART1t9KNEi82BScGQ](https://mp.weixin.qq.com/s/MEgilART1t9KNEi82BScGQ) [https://mp.weixin.qq.com/s/l1NcfmuQ9CZKB0BIFu9m5g](https://mp.weixin.qq.com/s/l1NcfmuQ9CZKB0BIFu9m5g) [https://mp.weixin.qq.com/s/Nn1GFGUniEPtOpeLa1\_I5Q](https://mp.weixin.qq.com/s/Nn1GFGUniEPtOpeLa1_I5Q) 本文由[mdnice](https://mdnice.com/?platform=6)多平臺(tái)發(fā)布

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

多模態(tài)RAG

多模態(tài)RAG

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

多模態(tài)RAG

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av