Notebookcheck Logo

Mistral OCR 利用人工智能将复杂文档准确转换为可编辑文件

Mistral OCR 使用人工智能将打印文档和 PDF 文档准确地转换为可编辑的文件。(图片来源:Mistral)
Mistral OCR 使用人工智能将打印文档和 PDF 文档准确地转换为可编辑的文件。(图片来源:Mistral)
Mistral 推出了光学字符识别应用程序接口(API),供企业快速、准确地将大量文件转换为可编辑的数字文件。
Launch Business Software AI

Mistral 推出了一款名为 Mistral OCR 的新产品,这是一款由人工智能驱动的光学字符识别 API,旨在出色地将印刷文档转换为数字文件。

现有数百万印刷文档和不可编辑的 PDF 文件,包括旧的出生记录和书籍。光学字符识别软件可将这些原始资料的文本和布局转换为可编辑的数字文件。虽然 OCR 软件可以轻松准确地转换纯文本文档,但在处理复杂的表格和图形以及外语时往往会遇到困难。

Mistral OCR 是专为多语言复杂文档转换而设计的。Mistral 在 11 种语言文本转换方面的准确率最低为 97.00%,最高为 99.54%,优于微软和谷歌的人工智能 OCR 产品。在涉及数学或表格等复杂文档转换方面,其准确率也高于经过测试的竞争对手。

Mistral OCR API 目前仅限于上传大小小于 50 MB、长度小于 1,000 页的文档。打印文档必须先通过扫描仪数字化,如亚马逊上的这款扫描仪,而 PDF 文件、图像和网站则可以直接处理。

Mistral OCR 在复杂文档上的表现优于竞争对手。(图片来源:Mistral)
Mistral OCR 在复杂文档上的表现优于竞争对手。(图片来源:Mistral)
Mistral OCR 能比竞争对手更好地处理十几种语言的文本转换。(图片来源:Mistral)
Mistral OCR 能比竞争对手更好地处理十几种语言的文本转换。(图片来源:Mistral)
只需几行 Python 代码即可使用 Mistral OCR API。(图片来源:Mistral)
只需几行 Python 代码即可使用 Mistral OCR API。(图片来源:Mistral)
 

Mistral OCR

介绍世界上最好的文档理解 API。

研究

2025 年 3 月 6 日

Mistral AI 团队

纵观历史,信息抽象和检索的进步推动了人类的进步。从象形文字到纸莎草纸,从印刷术到数字化,每一次飞跃都使人类的知识更易于获取和操作,从而推动了进一步的创新。

今天,我们正处于下一次大飞跃的临界点--释放所有数字化信息的集体智慧。全球约 90% 的组织数据以文档形式存储,为了利用这一潜力,我们推出了 Mistral OCR。

Mistral OCR 是一种光学字符识别 API,为文档理解设定了新标准。与其他模型不同,Mistral OCR 可以理解文档中的每个元素--媒体、文本、表格、公式--具有前所未有的准确性和认知性。它将图像和 PDF 作为输入,并以有序交错的文本和图像提取内容。

因此,Mistral OCR 是一种理想的模型,可与将多模态文档(如幻灯片或复杂的 PDF)作为输入的 RAG 系统结合使用。

我们已将 Mistral OCR 作为乐聊上数百万用户理解文档的默认模型,并以每美元 1000 页的价格发布了 API mistral-ocr-latest(在批量推理的情况下,每美元 1000 页的价格约为原来的两倍)。该 API 目前可在我们的开发者套件 la Plateforme 上使用,并即将向我们的云和推理合作伙伴以及内部部署提供。

亮点

最先进的复杂文档理解能力

本地多语言和多模态

顶级基准

同类产品中速度最快

文档即提示,结构化输出

有选择性地为处理高度敏感或机密信息的组织提供自托管服务

让我们逐一深入了解。

最先进的复杂文档理解能力

Mistral OCR 擅长理解复杂的文档元素,包括交错图像、数学表达式、表格和高级布局(如 LaTeX 格式)。该模型可以更深入地理解内容丰富的文档,例如包含图表、图形、方程式和数字的科学论文。

下面是该模型从给定的 PDF 文件中提取文本和图像到标记符文件的示例。您可以在这里访问该笔记本。

下面是 PDF 和各自 OCR 输出结果的并排比较。悬停滑块可在输入和输出之间切换。

表格 + 图表

3 示例

OCR 结果

3 OCR

数学

4 示例

OCR 成绩

4 OCR

印地语

5 示例

OCR 结果

印地语 OCR

文档

6 示例

OCR 结果

6 OCR

阿拉伯文

7 示例

OCR 结果

阿拉伯语 OCR

顶级基准测试

在严格的基准测试中,Mistral OCR 的表现一直优于其他领先的 OCR 模型。它在文档分析的多个方面都具有卓越的准确性,具体如下。我们从文档中提取嵌入的图像和文本。下面比较的其他 LLM 不具备这种能力。为了进行公平比较,我们在内部 "纯文本 "测试集上对它们进行了评估,测试集包含各种出版论文和网络 PDF 文件;如下所示:

模型 整体 数学 多语言 扫描 表格

谷歌文档 AI 83.42 80.29 86.42 92.77 78.16

Azure OCR 89.52 85.72 87.52 94.65 89.52

Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48

Gemini-1.5-Pro-002 89.92 88.48 86.33 96.15 89.71

Gemini-2.0-Flash-001 88.69 84.18 85.80 95.11 91.46

GPT-4o-2024-11-20 89.77 87.55 86.00 94.58 91.70

Mistral OCR 2503 94.89 94.29 89.55 98.96 96.12

多语言

自 Mistral 成立之初,我们就立志用我们的模型为全世界服务,并因此努力在我们的产品中实现多语言功能。Mistral OCR 将这一目标提升到了一个新的高度,能够解析、理解和转录各大洲的数千种脚本、字体和语言。这种多功能性对于处理来自不同语言背景的文档的全球性组织以及服务于利基市场的超本地化企业都至关重要。

生成模糊匹配模型

谷歌文档人工智能 95.88

Gemini-2.0-Flash-001 96.53

Azure OCR 97.31

Mistral OCR 2503 99.02

按语言划分的基准:

语言 Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503

ru 97.35 95.56 96.58 99.09

fr 97.50 96.36 97.06 99.20

hi 96.45 95.65 94.99 97.55

ZH 91.40 90.89 91.85 97.11

pt 97.96 96.24 97.25 99.42

DE 98.39 97.09 97.19 99.51

es 98.54 97.52 97.75 99.54

TR 95.91 93.85 94.66 97.00

UK 97.81 96.24 96.70 99.29

IT 98.31 97.69 97.68 99.42

RO 96.45 95.14 95.88 98.79

同类产品中速度最快

Mistral OCR 比同类产品中的大多数型号重量更轻,速度却比同类产品快得多,单个节点每分钟可处理多达 2000 页的文件。快速处理文档的能力确保了即使在高吞吐量环境下也能不断学习和改进。

文档即提示,结构化输出

Mistral OCR 还引入了文档即提示功能,可提供更强大、更精确的指示。这一功能允许用户从文档中提取特定信息,并将其格式化为结构化输出(如 JSON)。用户可以将提取的输出串联到下游函数调用和构建代理中。请参阅本笔记本示例。

可有选择地自行托管

对于有严格数据隐私要求的组织,Mistral OCR 提供自托管选项。这可确保敏感或机密信息在您自己的基础设施内保持安全,从而符合监管和安全标准。如果您想与我们探讨自我部署,请告知我们。

使用案例

我们将测试版客户广泛的文档库转化为行动和解决方案,使他们能够提升组织知识水平。我们的技术正在产生重大影响的一些关键用例包括

科学研究数字化:领先的研究机构一直在尝试使用 Mistral OCR 将科学论文和期刊转换为人工智能就绪格式,以便下游智能引擎可以访问。这大大加快了合作速度,加速了科学工作流程。

保护历史和文化遗产:作为遗产保管人的组织和非营利机构一直在使用 Mistral OCR 对历史文件和文物进行数字化处理,以确保对其进行保存,并使更多受众能够访问这些文件和文物。

简化客户服务:客户服务部门正在探索使用 Mistral OCR 将文档和手册转化为索引知识,从而缩短响应时间并提高客户满意度。

使设计、教育、法律等领域的文献成为可能。为人工智能做好准备:Mistral OCR 还帮助企业将技术文献、工程图纸、讲义、演示文稿、监管文件等转换为索引化、可随时解答的格式,从而在数百万份文档中释放智能,提高生产力。

立即体验

您可以在 le Chat 上免费试用 Mistral OCR 功能。要试用 API,请访问 la Plateforme。我们非常希望得到您的反馈;期待该模型在未来几周内继续变得更好。作为战略合作计划的一部分,我们还将有选择地提供内部部署。

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 03 > Mistral OCR 利用人工智能将复杂文档准确转换为可编辑文件
David Chien, 2025-03-11 (Update: 2025-03-11)