我们测试了 LPR OCR 的超分辨率预过滤器。它什么也没做

2026-05-13 1 阅读 xmichael909
如果您在 2026 年构建自定义车牌识别系统,您可能遇到过超分辨率。宣传无处不在:将模糊的 50 像素裁剪图像升级为清晰的 200 像素图像,然后将其交给 OCR 模型。论文显示了戏剧性的前后图像。 ICPR 2026 专门为此举办了整个比赛。听起来像是免费的准确性。我们建造了一个,在生产作物上进行了测试,结果发现它没有任何作用。然后我们下载了一个大 30 倍的预训练模型并对其进行了测试。相同的结果。本文提出了一个 SR 文献很少涉及的问题:如果您可以在低分辨率数据上训练 OCR 模型,为什么首先需要一个单独的模型来升级它?简短的回答:你可能不知道。 LPR 的 SR 主要会让你产生幻觉角色并浪费工程时间。唯一真正有意义的情况是,如果您正在尝试改进无法重新培训的商业产品。如果您拥有自己的培训渠道,那么还有更好的方法。为什么预过滤器又回来了 在 ALPR 的早期,图像预处理是标准做法:直方图均衡、高斯锐化、二值化、形态学操作。这些滤镜提高了特定相机设置的可读性,但很脆弱。更改灯光、更换相机、添加新的印版格式;整个事情崩溃了。深度学习消灭了预过滤器。端到端模型承诺处理所有事情:给网络一个原始作物,让它弄清楚剩下的事情。它确实有效,直到没有效果。问题在于分辨率。在 200 像素宽的印版上训练的 OCR 模型在 200 像素宽的印版上表现良好。从远处的车辆向其提供 50 像素的裁剪图像,准确性就会崩溃。不是因为模型无法读取,而是因为没有什么可读取的;字符的宽度为 4 或 5 像素。再多的模型能力也无法创造出输入中未包含的细节。神经超分辨率声称要改变这个方程式。您无需要求 OCR 模型读取 4 个像素字符,而是为其提供 16 个像素字符。 SR 模型根据学到的先验知识生成有关高分辨率车牌字符外观的可信细节。音高听起来很棒。在实践中,你实际上得到的是幻觉中的角色,看起来很真实,但实际上并非如此。实验设置我们的数据集包含 18,000 多个标记检测和 180,000 多个单独的作物图像。其中,100 像素宽度以下的 5,000 种单独作物具有可用于 A/B 比较的原始版本和 SR 放大版本;我们通过相同的 OCR 管道运行这两个版本: 管道步骤 总推理 A:仅 OCR 裁剪 → 调整大小到模型输入 → OCR ~5ms B:SR + OCR 裁剪 → SR 放大 4× → 调整大小到模型输入 → OCR ~7ms 相同的 OCR 模型(CTC-CRNN,98.6% 基线精度)。同样的农作物。相同的标签。唯一的变量是 SR 预处理步骤。 SR 模型 属性 值 架构 SRVGGNetCompact(纯 CNN) 参数 42,000 输入 [B, 1, H, W] 灰度 输出 [B, 1, 4H, 4W] 灰度(4× 放大) ONNX 大小 ~170 KB 推理 ~2ms 仅模型,~9ms 在管道中测量 (CPU) 训练损失 L1 像素 + OCR 置信度 (λ=0.1) 边缘兼容 是(纯) Conv+ReLU+PixelShuffle)关键设计选择:OCR引导的训练损失。 SR 模型未针对生成漂亮图像 (PSNR/SSIM) 进行优化。它经过优化,可生成 OCR 模型可以自信读取的图像。损失函数包括已部署的 OCR 模型的置信度分数作为训练信号。这意味着 SR 学习增强对字符识别重要的特征,而不是对人类视觉感知重要的特征。结果 裁剪尺寸分布(生产相机) 在呈现精度结果之前,了解我们的生产相机实际产生的裁剪尺寸非常重要: 裁剪宽度 计数 所应用的总 SR 的百分比? 20–40 px 494 <1% 是(低于 100 像素阈值) 40–60 px 19,127 6% 是 60–80 px 69,740 22% 是 80–100 px 85,633 27% 是 100+ px 139,985 44% 否(高于阈值) 3 个月内收获了 314,979 份生产作物。 SR 阈值:100px 裁剪宽度。 56% 的作物属于 SR 激活范围(低于 100 像素)。这比预期要高;多作物跟踪系统在板块接近和后退时捕获它们,生成许多中距离作物(60 至 100 像素)以及近距离清晰作物(100 像素以上)。投票管道意味着最好的作物在最终的平板读数中占主导地位,无论较小的作物是否获得 SR 增强。三向比较:无 SR vs 42K 自定义 vs 1.21M 预训练 为了消除模型容量作为变量,我们在 100px 以下的 2,000 个标记作物上测试了三个管道: 原始 - 原始作物,无 SR,直接到 OCR 我们的 42K SR - 定制训练的 SRVGGNetCompact(42K 参数,L1 + OCR 置信度损失,在我们的平板作物上训练) Real-ESRGAN 预训练 -现成的 SRVGGNetCompact(1.21M 参数,由腾讯 ARC 对数百万张通用图像进行训练)。这是文献中所说的有效 SR 的最低限度的全尺寸架构。管道参数精确匹配