我給 Claude Code 裝了個 PDF 解析 Skill,再也不用手動轉(zhuǎn)格式了


Claude Code、Cursor、Windsurf 這些 Code Agent 用起來很爽,但都有個共同的短板:沒法直接讀 PDF 和截圖。你讓它讀一份產(chǎn)品文檔,它會告訴你"無法讀取",開發(fā)流程就斷在這里了。


解決辦法是裝一個 MinerU 的 Skill,一行命令:


npx skills add tanis90/pdf-converter-mineru


裝完之后 Code Agent 就能直接解析 PDF 了。下面說說原理和實際用起來的效果。


為什么用 Skill 而不是自己搭 MCP Server


"文檔閱讀"是個無狀態(tài)需求,用 Skill 比自己配解析服務(wù)器輕量得多:


一行命令裝好,不用 Docker,不用配環(huán)境變量,沒有后臺進(jìn)程。

基于 OpenClaw 開放標(biāo)準(zhǔn),Claude Code、Cursor、Windsurf 都能用。

免費,不需要 API Key。內(nèi)置智能判斷,會根據(jù)文檔大小自動選解析策略。


實際對比過:沒裝之前要手動打開 PDF、截取內(nèi)容、粘貼到終端,還經(jīng)常格式錯亂。裝了之后直接對話就行。


實際用起來什么樣


場景 1:解析 API 文檔寫代碼


很多老的內(nèi)部接口文檔只有 PDF 格式。直接跟 Agent 說:


"幫我讀一下這篇 api_spec.pdf,重點看認(rèn)證授權(quán)章節(jié),然后用 Python 寫一個支持重試機(jī)制的 client。"


Agent 會自動調(diào) MinerU Skill 把 PDF 轉(zhuǎn)成 Markdown(用 flash-extract),然后從里面提取認(rèn)證參數(shù)寫代碼。


場景 2:帶復(fù)雜表格和公式的論文


復(fù)現(xiàn)論文時最怕表格數(shù)據(jù)對不齊、公式變亂碼:


"解析這篇 attention.pdf,把第四章的對比表格提取出來作為代碼測試的 mocked data。"


雙欄排版的頂會論文也能還原成 Markdown,AI 可以正常讀取。


MinerU 是什么


這個 Skill 背后是上海人工智能實驗室開源的文檔解析引擎 MinerU,GitHub 56.9K+ Stars,OmniDocBench 綜合評測第一。


和 PyPDF2 這類簡單提取庫不同,MinerU 有兩套引擎(Pipeline + 基于 InternVL 的視覺多模態(tài)模型),在公式(CDM 97.29)、嵌套表格(TEDS-S 94.48%)、圖文混排上的表現(xiàn)都不錯。轉(zhuǎn)出來的 Markdown 很適合喂給 LLM 和 RAG 系統(tǒng)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容