一行命令,讓你的 Code Agent 會(huì)讀PDF

Claude Code、Cursor、Kimi Code、Codex、Cline——現(xiàn)在大家寫(xiě)代碼越來(lái)越依賴(lài) Code Agent。但大模型有一個(gè)短板:讀不了 PDF。

你丟給它一個(gè) PDF 文件路徑,它只會(huì)告訴你"這是個(gè)二進(jìn)制文件,我讀不了"。論文、技術(shù)文檔、產(chǎn)品手冊(cè)、掃描合同——全都打不開(kāi)。

解決方案只需要一行命令:

npx skills add tanis90/pdf-converter-mineru

裝完之后,你的 Code Agent 就能直接讀取、解析、總結(jié)任何 PDF 文件,包括掃描件。

這行命令做了什么

npx skills add 是 OpenClaw 的 Skill 安裝命令。OpenClaw 是 Code Agent 的技能市場(chǎng)——類(lèi)似 VS Code 的擴(kuò)展商店,但面向的是 AI 編程助手。

這行命令會(huì)拉取一個(gè)叫 pdf-converter-mineru 的 Skill,裝到你本地的 skills 目錄下。裝好之后,你的 Code Agent 就獲得了一個(gè)新能力:調(diào)用 MinerU Open API 把 PDF 轉(zhuǎn)成 Markdown,然后自己閱讀和理解內(nèi)容。

整個(gè)過(guò)程對(duì)你來(lái)說(shuō)是透明的。你不需要手動(dòng)調(diào)用任何命令,也不需要配置 MCP server——直接對(duì)你的 Code Agent 說(shuō)"幫我讀這個(gè) PDF"就行。

這個(gè) Skill 基于 OpenClaw 的開(kāi)放標(biāo)準(zhǔn),一次安裝,跨工具通用:

Code Agent支持情況Claude Code原生支持Cursor支持Cline支持Augment支持Kimi Code支持CodeBuddy支持Warp支持

不管你日常用哪個(gè) Code Agent,裝一次就行。

它能做什么

裝完 Skill 之后,你可以直接這樣對(duì)你的 Code Agent 說(shuō):

讀論文:

> 幫我讀一下 ./papers/attention-is-all-you-need.pdf,總結(jié)核心貢獻(xiàn)

提取表格:

> 把 quarterly-report.pdf 里的財(cái)務(wù)數(shù)據(jù)表格提取出來(lái)

掃描件識(shí)別:

> 這份掃描的合同 contract-scan.pdf,幫我找到付款條款

批量處理:

> 把 ./docs/ 下所有 PDF 轉(zhuǎn)成 Markdown

Code Agent 會(huì)自動(dòng)判斷用哪種模式:

  • 小文件、快速閱讀 → flash-extract(免登錄,秒出結(jié)果)
  • 大文件、需要保留表格和公式 → extract(高精度模式)

你不需要記任何命令參數(shù)。

為什么不用 MCP server

給 Code Agent 加文檔能力,很多人第一反應(yīng)是"裝個(gè) MCP server"。比如跑一個(gè)本地的 document parsing 服務(wù),配置 JSON,再寫(xiě)好 tool 的 schema。

能用,但太重了。

Skill 的優(yōu)勢(shì)是:

  1. 一行安裝,不需要 Docker、不需要額外進(jìn)程、不需要配置文件
  2. 零運(yùn)維,不用管服務(wù)是否在跑、端口有沒(méi)有沖突
  3. 跨工具通用,同一個(gè) Skill 在 Claude Code、Cursor、Kimi Code 里都能用
  4. 自動(dòng)選擇策略,Code Agent 自己決定用 flash 模式還是精度模式
  5. 開(kāi)箱即用,裝完直接說(shuō)話就行

MCP server 更適合需要長(zhǎng)期運(yùn)行、有復(fù)雜狀態(tài)管理的場(chǎng)景。而"讀一份 PDF"這種無(wú)狀態(tài)的能力,用 Skill 是更輕量的選擇。

底層的文檔解析能力到底怎么樣

底層用的是 MinerU,上海 AI Lab 開(kāi)源的文檔解析引擎,GitHub 56000+ Stars,OmniDocBench 評(píng)測(cè)綜合排名第一。

MinerU 不是簡(jiǎn)單的文本提取工具。它是一個(gè)完整的 document AI 引擎,核心能力包括:

  • 版面分析:雙欄、三欄、混合排版都能正確識(shí)別
  • 表格識(shí)別:復(fù)雜嵌套表格保留結(jié)構(gòu),不會(huì)拆碎
  • 公式識(shí)別:數(shù)學(xué)公式自動(dòng)轉(zhuǎn) LaTeX
  • OCR:掃描件、拍照文檔、圖片型 PDF 都能處理,支持 80+ 種語(yǔ)言
  • 多格式輸出:Markdown、Word、HTML、LaTeX、JSON

如果你在做 RAG pipeline,這意味著你可以直接在 Code Agent 里完成"PDF → 結(jié)構(gòu)化 Markdown → 向量化"的前兩步,不用額外寫(xiě) PDF 解析代碼。

如果你在選 best pdf parser for RAG,MinerU 在表格還原和公式識(shí)別上的精度,是大多數(shù) Python PDF parser 做不到的。

實(shí)際使用場(chǎng)景

場(chǎng)景一:讀技術(shù)文檔寫(xiě)代碼

你在用一個(gè) API,文檔只有 PDF 版本。以前你得自己打開(kāi) PDF,翻到對(duì)應(yīng)章節(jié),再?gòu)?fù)制粘貼到對(duì)話里?,F(xiàn)在:

> 讀一下 api-reference.pdf,找到認(rèn)證相關(guān)的部分,然后幫我寫(xiě)一個(gè) Python 的認(rèn)證 client

Code Agent 會(huì)自己解析 PDF,找到 auth 章節(jié),理解參數(shù)和流程,然后直接寫(xiě)代碼。

場(chǎng)景二:論文調(diào)研

你要調(diào)研某個(gè)方向的 5 篇論文:

> 把 ./papers/ 下面 5 篇 PDF 都讀一遍,給我一個(gè)對(duì)比表格,列出每篇的方法、數(shù)據(jù)集、主要結(jié)果

場(chǎng)景三:處理掃描文檔

法務(wù)給了一堆掃描的合同 PDF,你需要提取關(guān)鍵條款:

> 讀 contract-2024.pdf,這是掃描件,幫我提取合同金額、付款期限、違約條款

MinerU 的 OCR 會(huì)先把掃描件轉(zhuǎn)成文字,Code Agent 再理解內(nèi)容并提取你要的信息。

場(chǎng)景四:文檔格式轉(zhuǎn)換

> 把 report.pdf 轉(zhuǎn)成 Word 發(fā)給我> 把 paper.pdf 轉(zhuǎn)成 Markdown 存到 ./output/> 把 slides.pptx 轉(zhuǎn)成 Markdown

支持 PDF、圖片、DOCX、PPTX、Excel 等格式的輸入。

安裝

真的只有一行:

npx skills add tanis90/pdf-converter-mineru

裝完之后,如果你本地還沒(méi)有 mineru-open-api CLI,Code Agent 會(huì)自動(dòng)檢測(cè)并引導(dǎo)你安裝——不需要你自己去查文檔。flash-extract 模式免登錄可以直接用;如果需要高精度模式(大文件、導(dǎo)出 Word、批量處理),Code Agent 也會(huì)提示你做認(rèn)證。

常見(jiàn)問(wèn)題

文件大小有限制嗎?

flash-extract 模式限制 10 MB / 20 頁(yè)。extract 模式支持 200 MB / 600 頁(yè),覆蓋絕大多數(shù)文檔。

支持中文文檔嗎?

默認(rèn)就支持中英混排。MinerU 的 OCR 覆蓋 80+ 種語(yǔ)言,中日韓、阿拉伯語(yǔ)、泰語(yǔ)等都沒(méi)問(wèn)題。

和直接用 MinerU CLI 有什么區(qū)別?

直接用 CLI 你需要自己敲命令、管理輸出文件、再把結(jié)果貼給 AI。裝了 Skill 之后,Code Agent 自己完成整個(gè)流程——你只需要用自然語(yǔ)言描述你想做什么。

和 MCP server 方案怎么選?

如果你已經(jīng)有在跑的 MCP server 生態(tài),可以繼續(xù)用。如果你只是想讓 Code Agent 能讀 PDF,Skill 是更輕量的方案——一行命令搞定,不需要額外的進(jìn)程和配置。

總結(jié)

讓 Code Agent 獲得文檔閱讀能力,不需要配 MCP server,不需要寫(xiě)代碼,一行命令:

npx skills add tanis90/pdf-converter-mineru

裝完之后,PDF、掃描件、Word、PPT、圖片——直接丟給你的 Code Agent,讓它自己讀。

無(wú)論你用的是 Claude Code、Cursor、Kimi Code 還是 Cline,同一個(gè) Skill,同一行命令。

發(fā)布于 2026-03-30 18:01?上海

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容