登录体验完整功能(收藏、点赞、评论等) — 已累计有 12285 人加入

百度发布3B参数Unlimited OCR 长文档解析效率获突破性提升

详情页推荐

百度近日推出全新OCR大模型Unlimited OCR,参数量为3B,创新性采用R-SWA机制替换传统解码器注意力,实现KV缓存大小恒定,可高效完成数十页长文档的内容解析任务。该模型在长文本OCR场景下的算力消耗较现有同类产品降低超60%,识别准确率提升12%,为办公、政务、法律等高密度文档处理场景提供了新的技术方案。

日常办公中,多页扫描件、合同卷宗、学术论文的批量识别一直是高频痛点:传统OCR模型处理超过10页的文档时,要么因为显存占用过高触发卡顿,要么分段识别丢失跨页上下文信息,表格、签章等特殊内容的识别错误率居高不下,企业往往需要投入大量人力做二次校验。

过去基于Transformer架构的OCR模型,推理过程中用于存储历史注意力信息的KV缓存会随着输入文本长度的增加线性膨胀。如果处理50页的长文档,KV缓存占用的显存会是单页文档的40倍以上,大部分消费级显卡甚至无法支撑单任务运行,商用部署的算力成本极高。

此前行业的主流解决方案是将长文档拆分为单页或多页片段分别识别,再通过后处理拼接,但这种模式会丢失跨页的版式关联信息,跨页表格、连续段落、骑缝章等内容的识别准确率不足70%,无法满足高要求的商用场景。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。