
Claude Code、Cursor、Windsurf 這些 Code Agent 用起來很爽,但都有個共同的短板:沒法直接讀 PDF 和截圖。你讓它讀一份產(chǎn)品文檔,它會告訴你"無法讀取",開發(fā)流程就斷在這里了。
解決辦法是裝一個 MinerU 的 Skill,一行命令:
npx skills add tanis90/pdf-converter-mineru裝完之后 Code Agent 就能直接解析 PDF 了。下面說說原理和實際用起來的效果。
為什么用 Skill 而不是自己搭 MCP Server
"文檔閱讀"是個無狀態(tài)需求,用 Skill 比自己配解析服務(wù)器輕量得多:
一行命令裝好,不用 Docker,不用配環(huán)境變量,沒有后臺進(jìn)程。
基于 OpenClaw 開放標(biāo)準(zhǔn),Claude Code、Cursor、Windsurf 都能用。
免費,不需要 API Key。內(nèi)置智能判斷,會根據(jù)文檔大小自動選解析策略。
實際對比過:沒裝之前要手動打開 PDF、截取內(nèi)容、粘貼到終端,還經(jīng)常格式錯亂。裝了之后直接對話就行。
實際用起來什么樣
場景 1:解析 API 文檔寫代碼
很多老的內(nèi)部接口文檔只有 PDF 格式。直接跟 Agent 說:
"幫我讀一下這篇 api_spec.pdf,重點看認(rèn)證授權(quán)章節(jié),然后用 Python 寫一個支持重試機(jī)制的 client。"
Agent 會自動調(diào) MinerU Skill 把 PDF 轉(zhuǎn)成 Markdown(用 flash-extract),然后從里面提取認(rèn)證參數(shù)寫代碼。
場景 2:帶復(fù)雜表格和公式的論文
復(fù)現(xiàn)論文時最怕表格數(shù)據(jù)對不齊、公式變亂碼:
"解析這篇 attention.pdf,把第四章的對比表格提取出來作為代碼測試的 mocked data。"
雙欄排版的頂會論文也能還原成 Markdown,AI 可以正常讀取。
MinerU 是什么
這個 Skill 背后是上海人工智能實驗室開源的文檔解析引擎 MinerU,GitHub 56.9K+ Stars,OmniDocBench 綜合評測第一。
和 PyPDF2 這類簡單提取庫不同,MinerU 有兩套引擎(Pipeline + 基于 InternVL 的視覺多模態(tài)模型),在公式(CDM 97.29)、嵌套表格(TEDS-S 94.48%)、圖文混排上的表現(xiàn)都不錯。轉(zhuǎn)出來的 Markdown 很適合喂給 LLM 和 RAG 系統(tǒng)。