首页
看点啥
插画图片
首页 看点啥 Unlimited-OCR - 百度开源的端到端长文档OCR模型

Unlimited-OCR - 百度开源的端到端长文档OCR模型

2026-06-30 0

Unlimited-OCR快速摘要

Unlimited-OCR是百度于2026年6月推出的开源OCR模型,采用3B参数MoE架构和R-SWA注意力机制,支持40页以上长文档OCR、PDF解析、表格识别和公式提取。在OmniDocBench v1.6测试中取得93.92分,推理速度达到5580 TPS,适用于企业档案数字化和学术文献处理场景。

Unlimited-OCR – 百度开源的端到端长文档OCR模型

Unlimited-OCR的核心优势

Unlimited-OCR的核心功能

Unlimited-OCR的技术原理

Unlimited-OCR与主流模型对比

维度Unlimited-OCRDeepSeek-OCRGLM-OCRMistral OCR
开发方百度DeepSeek智谱AIMistral AI
长文档支持40+页需分页支持支持
架构特点R-SWA全注意力VLMOCR模型
OmniDocBench v1.693.9290.25未公开未公开
推理速度5580 TPS4951 TPS未公开未公开
开源情况开源开源部分开放闭源

Unlimited-OCR与DeepSeek-OCR最大的区别在于长文档推理架构。DeepSeek-OCR采用传统全注意力机制,输出越长缓存开销越大;Unlimited-OCR通过R-SWA实现常数级KV Cache管理,因此在数十页文档场景中更具优势。GLM-OCR更侧重文档理解与多模态问答,而Mistral OCR主要提供云端OCR能力。从公开测试数据看,Unlimited-OCR在长文档处理效率和OmniDocBench成绩方面表现较为突出。

如何使用Unlimited-OCR

  1. 下载模型:通过GitHub baidu/Unlimited-OCR或Hugging Face baidu/Unlimited-OCR获取源码和权重文件,准备支持CUDA的GPU环境。
  2. 部署环境:安装Transformers或SGLang推理框架,并配置模型运行依赖。
  3. 上传文档:输入PDF或页面图像文件,多页文档可直接提交,无需手动分页处理。
  4. 获取结果:模型自动输出文本、公式、表格和版面结构,可保存为Markdown或结构化数据格式。

Unlimited-OCR的局限性

  • 商业服务信息有限:当前公开资料主要围绕开源模型和研究成果,尚未公布统一商业API及定价方案。
  • 部署依赖GPU资源:虽然采用MoE架构降低激活参数规模,但长文档批量处理仍需要较高算力支持。
  • 生态仍在发展:作为2026年发布的新模型,目前第三方工具链、案例和企业级集成资源相对有限。

Unlimited-OCR相关资源

  • GitHub仓库:https://github.com/baidu/Unlimited-OCR
  • HuggingFace模型库:https://github.com/baidu/Unlimited-OCR
  • 技术论文:https://arxiv.org/abs/2606.23050

Unlimited-OCR的典型应用场景

  • 企业档案数字化:批量处理扫描合同、历史档案和内部资料,输出可检索文本和结构化数据。
  • 学术论文解析:识别论文中的正文、公式和表格内容,便于知识库建设和文献检索。
  • 教育资料整理:处理教材、试卷和练习册,恢复版面结构并提取题目内容。
  • 法律文档分析:将长篇合同和法规文件转换为可搜索文本,为后续审查和分析提供基础数据。
  • 图书数字化:支持书籍、杂志和期刊内容转录,适用于数字图书馆和知识管理场景。

Unlimited-OCR常见问题

Unlimited-OCR怎么用?

下载模型权重后,通过Transformers或SGLang完成部署,上传PDF或图像即可执行OCR任务,适合本地化和私有化场景。

Unlimited-OCR免费吗?

Unlimited-OCR已开源发布,代码和模型权重可获取,但实际使用仍需承担服务器和GPU资源成本。

Unlimited-OCR和DeepSeek-OCR哪个好?

从公开测试结果看,Unlimited-OCR在OmniDocBench v1.6取得93.92分,同时更适合超长文档连续解析场景。

Unlimited-OCR支持多页PDF吗?

支持。模型可完成40页以上文档单次前向解析,无需传统分页处理流程。

Unlimited-OCR是否提供商业API?

截至目前公开资料,官方尚未公布统一商业API服务,企业用户主要通过开源方式部署使用。

喜欢(0)

上一篇

HappyHorse 1.1 – 阿里发布的AI视频生成与多模态创作模型

HappyHorse 1.1 – 阿里发布的AI视频生成与多模态创作模型

下一篇

Seedance 2.5 – 字节跳动发布的长视频生成与多模态视频创作模型

Seedance 2.5 – 字节跳动发布的长视频生成与多模态视频创作模型
猜你喜欢