酷应用

Mistral OCR 4 – Mistral AI 推出的最新一代文档理解模型

动态来源：AI工具集 2026-06-28 11:07:27

Mistral OCR 4是什么

Mistral OCR 4 是 Mistral AI 推出的最新一代文档理解模型。模型支持从 PDF、图片、演示文稿等复杂文档中提取文本，能返回带边框定位、区域类型分类和置信度评分的结构化输出，支持 170 种语言，专为 RAG、智能体工作流和企业搜索等下游场景设计。

高精度文档解析：支持 PDF、DOC、PPT、OpenDocument 等常见企业格式，提取文本、表格、公式、图像、签名等丰富元素。
结构化输出：每个内容块附带边框坐标、类型标签，如标题、表格、公式、签名等，以及逐页/逐词置信度评分。
多语言支持：覆盖横跨 10 个语族的 170 种语言，在低资源语言上表现尤为突出。
双模式输出：同一端点支持纯提取模式，Markdown + 结构化元数据和 Document AI 模式（按自定义 Schema 输出结构化 JSON）。
超高吞吐量：单节点每分钟可处理多达 2,000 页文档，适合大规模批处理场景。

注册获取 API Key：访问 Mistral AI 开发者平台 La Plateforme，注册账号后进入”API Keys”页面创建并保存密钥。
安装 SDK：在 Python 环境中执行 pip install mistralai 安装官方 SDK。
调用 API 处理文档 使用 client.ocr.process() 方法，传入文档 URL 或本地文件，设置 model="mistral-ocr-latest"，并开启 include_blocks=True 以获取边框和类型信息，也可通过 confidence_scores_granularity="word" 获取逐词置信度。
解析结构化结果：API 返回包含 pages 数组的 JSON，每页包含 markdown 文本、images、tables、hyperlinks、dimensions 和 confidence_scores 等字段，可直接接入 RAG 或智能体工作流。
批量处理降本：高吞吐量场景建议通过 Batch Inference API 提交任务，可享受 50% 的价格折扣。

人类偏好领先：在独立人工评估中，OCR 4 的平均胜率达到 72%，在 OmniDocBench 上获得 93.07 分，OlmOCRBench 上获得 85.20 分，输出质量受人类青睐程度超越 GPT 5.5 Pro、Gemini 3.1 Pro Preview 等前沿模型。
极致性价比与速度：每千页仅 4 美元（批处理 2 美元），且单节点每分钟处理 2,000 页，Rogo 实测其成本约为领先智能体解析器的 1/8，延迟低至 1/17。
引用就绪的细粒度输出：边框 + 类型 + 置信度的三重标注，使 RAG 系统能够提供带可点击引用的溯源回答，并可将低置信度区域自动路由至人工复核。
统一端点双模式：无需切换接口，同一端点既满足工程师的原始提取需求，也满足业务人员的 Schema 化结构化输出需求。

对比维度	Mistral OCR 4	MOCR
研发方	法国 Mistral AI	华中科技大学 + 小红书 hi lab
发布时间	2026 年 6 月	2026 年 3 月
模型规模	未公开（小型聚焦模型）	3B 参数（视觉编码器 1.2B + Qwen2.5-1.5B 解码器）
开源/闭源	闭源（云端 API + 单容器自托管）	开源（Apache 2.0，HuggingFace / ModelScope / GitHub）
OmniDocBench	93.07	未公开具体分数（在 1.5 版本上测试）
OlmOCR Bench	85.20	83.9（开源模型 SOTA）
OCR Arena Elo	未公开	排名第二（仅次于 Gemini 3 Pro）
人类评估胜率	平均 72%（vs 所有竞品）	未公开独立人类评估数据
语言覆盖	170 种语言（10 个语族）	多语言（具体数量未明确，但支持中文、日文等）