工具档案
MinerU
上海AI实验室开源PDF解析神器,精准转换Markdown/JSON。
复杂PDF解析精度极高,公式/表格/图片均支持
专为RAG和LLM语料准备优化
提供客户端,下载即用
本地部署需要较高硬件配置(GPU推荐)
AGPL协议对商业使用有限制
处理速度相对Doc2X等云服务较慢
8.2
编辑评分
产品简介
MinerU是上海人工智能实验室OpenDataLab团队开发的开源PDF解析工具,专为大模型语料准备和RAG场景设计。能够将包含公式、表格、图片、脚注等复杂内容的PDF文档精准转化为Markdown和JSON格式。GitHub星标超25K,被开发者誉为大模型时代的文档提取神器。提供客户端下载即用,也支持本地API部署。
用户反馈摘要
解析效果强,版本体验起伏大
用户认可
- 复杂PDF解析效果被多次夸到惊艳
- 易用性和Markdown提取能力认可度高
用户顾虑
- 早期1.3版本被提到体验一般
- 对普通阅读场景来说,转成Markdown吸引力不总是够强
优点
- 复杂PDF解析精度极高,公式/表格/图片均支持
- 专为RAG和LLM语料准备优化
- 提供客户端,下载即用
- 开源社区活跃,GitHub 25K+ stars
不足
- 本地部署需要较高硬件配置(GPU推荐)
- AGPL协议对商业使用有限制
- 处理速度相对Doc2X等云服务较慢
核心功能
PDF转Markdown PDF转JSON 公式识别与转换 表格结构化提取 图片提取 版面分析 客户端应用
背景信息
- 融资
- 上海人工智能实验室(OpenDataLab)
- 技术
- YOLO + PaddleOCR + VLM