2026年6月百度正式开源3B参数端到端OCR模型Unlimited OCR,专攻书籍、论文等长文档解析场景。该项目上线5天GitHub Star破万,登顶GitHub与HuggingFace四项趋势榜,凭借创新的Reference Sliding Window Attention机制突破长文档拼接限制,在OmniDocBench v1.6基准测试中拿下93.92%的成绩,推理速度较DeepSeek OCR提升12.7%。

进入2026年6月下旬,GitHub通用AI工具趋势榜、HuggingFace趋势榜的榜首位置,连续多日被一款OCR类项目占据。不同于此前多数聚焦单页图文识别的同类工具,这款名为Unlimited OCR的模型,甫一开源就凭借超长文档连续解析能力,拿下了开发者群体的超高关注度。
长期以来,长文档OCR识别都是文档数字化场景的核心痛点。传统OCR模型大多采用“逐页识别+结果拼接”的逻辑,跨页的公式、图表、脚注内容很容易出现识别断裂、内容错配,不仅需要大量人工校对,处理上百页的文档时效率也极低。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录