智能AI morning

实施文档 AI:生产中 OCR 和 LLM 管道的微服务架构

2026-05-20 1 阅读 Yao Fehlis, Benjamin Bengfort, Zhangzhang Si, Vahid Eyorokon, Prema Roman, Patrick Deziel, Devon Slonaker, Steve Veldman, Ben Johnson, Joyce Rigelo, Michael Wharton, Steve Kramer
arXiv:2605.18818v1 公告类型:新 摘要:学术研究倾向于关注文档理解的新模型,这在模型定义和生产规模运行模型之间的文献中造成了巨大差距。为了弥补这一差距,我们提出了一种微服务架构,该架构封装了用于分类、光学字符识别 (OCR) 和大型语言模型结构化字段提取的多个模型的管道,以及我们每小时在数千个多页文档上运行该管道的经验。我们描述了我们的主要设计决策,包括混合分类、将受 GPU 限制的推理与受 CPU 限制的编排分离、对管道中许多受 IO 限制的操作使用异步处理,以及独立的水平扩展策略。通过批量分析,我们发现了两个影响生产部署的令人惊讶的定性发现:主导端到端延迟的 OCR(而非语言模型解析),以及系统在由共享 GPU 推理能力而不是工作人员数量决定的并发性下饱和。我们的目标是为从业者提供具体的架构模式,用于构建超越基准的文档理解系统;在生产中有效地操作模型。