工具档案
DeepSeek-OCR
3B参数视觉语言模型,上下文光学压缩实现高效文档理解。
3B轻量参数,A100单卡日处理20万页
10倍压缩率下OCR准确率达97%
硅基流动提供免费API调用
需要GPU硬件(本地部署需A100级别)
文本密度超高场景识别效果下降
硅基流动API并发较低、速度一般
7.8
编辑评分
产品简介
DeepSeek-OCR是深度求索于2025年10月开源的3B参数OCR模型,创新性地提出上下文光学压缩技术,在10倍压缩率下OCR准确率达97%。支持近百种语言识别,可解析图表、几何图形、化学公式等复杂内容。单张A100单卡日处理能力超20万页,推理速度达2500 tokens/s。硅基流动平台提供免费API调用。
用户反馈摘要
样本不足,讨论多于实测
用户认可
- 有体验提到漏字比一些方案少
- 讨论普遍看好它从读字走向看图的思路
用户顾虑
- 按评测讨论看,准确率不算顶尖
- 真实体验样本少,口碑主要来自解读帖
优点
- 3B轻量参数,A100单卡日处理20万页
- 10倍压缩率下OCR准确率达97%
- 硅基流动提供免费API调用
- 支持近百种语言识别
不足
- 需要GPU硬件(本地部署需A100级别)
- 文本密度超高场景识别效果下降
- 硅基流动API并发较低、速度一般
- 生态与工具链成熟度不如PaddleOCR
核心功能
上下文光学压缩 多语言文字识别 公式与表格识别 图表语义理解 文档转Markdown API调用
背景信息
- 融资
- 深度求索(High-Flyer)
- 技术
- Vision Language Model, MoE架构
工具档案
- 编辑评分
- 7.8/10
- 所属赛道
- AI文档解析/OCR
- 价格模式
- 免费
- 更新时间
- 2025-10
标签
OCR 开源 DeepSeek VLM 硅基流动