工具档案
Marker
高速PDF转Markdown开源工具,29K GitHub stars。
处理速度快,GPU加速效果显著
开源社区最受欢迎(29K GitHub stars)
支持所有语言
模型权重cc-by-nc-sa-4.0,商业使用受限
公式转LaTeX不保证完全正确
表格格式化偶有文本错列
7.8
编辑评分
产品简介
Marker是一款快速且准确的PDF转Markdown开源工具,GitHub星标超29K。基于Surya OCR引擎,结合深度学习模型进行版面检测、文本提取和格式化。支持所有语言,处理速度快,尤其适合书籍和科学论文。也提供Datalab云平台API服务。模型权重采用cc-by-nc-sa-4.0许可,个人和研究用途免费。
用户反馈摘要
样本不足,口碑集中在速度
用户认可
- 处理速度快是最常见的好评
- 扫描版PDF自动走OCR的能力被反复提到
用户顾虑
- 真实体验样本少,多数讨论停留在教程和跑分
- 细节效果反馈不多,口碑信息偏薄
优点
- 处理速度快,GPU加速效果显著
- 开源社区最受欢迎(29K GitHub stars)
- 支持所有语言
- 可搭配LLM进一步提升精度
不足
- 模型权重cc-by-nc-sa-4.0,商业使用受限
- 公式转LaTeX不保证完全正确
- 表格格式化偶有文本错列
- CPU上Surya OCR速度较慢
核心功能
PDF转Markdown PDF转JSON Surya OCR引擎 GPU加速 LLM辅助校正 多语言支持 Datalab API
背景信息
- 技术
- PyMuPDF + Surya OCR + 深度学习