工具档案

DeepSeek-OCR

3B参数视觉语言模型,上下文光学压缩实现高效文档理解。

免费 MIT开源协议,硅基流动提供免费API 访问官网 →
3B轻量参数,A100单卡日处理20万页
10倍压缩率下OCR准确率达97%
硅基流动提供免费API调用
需要GPU硬件(本地部署需A100级别)
文本密度超高场景识别效果下降
硅基流动API并发较低、速度一般
7.8
编辑评分

产品简介

DeepSeek-OCR是深度求索于2025年10月开源的3B参数OCR模型,创新性地提出上下文光学压缩技术,在10倍压缩率下OCR准确率达97%。支持近百种语言识别,可解析图表、几何图形、化学公式等复杂内容。单张A100单卡日处理能力超20万页,推理速度达2500 tokens/s。硅基流动平台提供免费API调用。

用户反馈摘要

样本不足,讨论多于实测

知乎 · 2026-03
用户认可
  • 有体验提到漏字比一些方案少
  • 讨论普遍看好它从读字走向看图的思路
用户顾虑
  • 按评测讨论看,准确率不算顶尖
  • 真实体验样本少,口碑主要来自解读帖

优点

  • 3B轻量参数,A100单卡日处理20万页
  • 10倍压缩率下OCR准确率达97%
  • 硅基流动提供免费API调用
  • 支持近百种语言识别

不足

  • 需要GPU硬件(本地部署需A100级别)
  • 文本密度超高场景识别效果下降
  • 硅基流动API并发较低、速度一般
  • 生态与工具链成熟度不如PaddleOCR

核心功能

上下文光学压缩 多语言文字识别 公式与表格识别 图表语义理解 文档转Markdown API调用

背景信息

融资
深度求索(High-Flyer)
技术
Vision Language Model, MoE架构

工具档案

编辑评分
7.8/10
价格模式
免费
更新时间
2025-10

标签

OCR 开源 DeepSeek VLM 硅基流动
访问 DeepSeek-OCR 官网

同赛道其他产品