作者:算力魔方创始人/英特尔创新大使刘力
《超4万6千星的开源OCR黑马登场,PaddleOCR凭什么脱颖而出?》收到了读者热烈反响,很多读者提出:如何在C#中部署飞桨PP-OCRv4模型?本文从零开始详细介绍整个过程。
一,什么是PP-OCRv4模型?PP-OCRv4是PaddleOCR工具库的PP-OCR系列模型中,当前性能最优的一个。它在前代模型(PP-OCRv)的基础上,针对检测模型和识别模型进行了数据、网络结构、训练策略等多个模块的优化,在多个应用场景中,精度均有大幅提升:
中文场景,相对于PP-OCRv中文模型提升超4%;
英文数字场景,相比于PP-OCRv英文模型提升6%;
多语言场景(支持韩语、日语、德语、法语等80种语言),平均准确率提升超8%。
PP-OCRv4是一个两阶段的OCR系统,包含检测模型、方向分类模型和识别模型。在检测和识别之间添加方向分类模型,将不同角度的文本检测框修正为水平检测框,方便识别模型完成行文本识别。
编辑为了适应服务器和边缘端不同场景的部署需求,PP-OCRv4提供两种推理模型权重版本:
边缘端:中英文超轻量PP-OCRv4模型(16.1M)=检测模型(4.7M)+识别模型(10.0M)+方向分类模型(1.4M)。Hmean:62.24%;ACC:70.1%。
服务器端:中英文高精度PP-OCRv4server模型(.4M)=检测模型(M)+识别模型(88M)+方向分类模型(1.4M)。Hmean:82.69%;ACC:84.04%。
PP-OCRv4模型详述链接: