缺陷种类多,形状、出现位置、面积等均不规则,且极其细微,传统算法准确率低。
单张图片检测速度要求高,终端部署硬件性能及成本需要权衡考虑。
每类缺陷数据样本少,模型训练基础素材有限。
基于飞桨自研算法PP-YOLO的解决方案目标检测技术作为计算机视觉的主要方向之一,应用非常广泛。除了可以直接进行目标检测,同时也是人脸检测、行人检测、文字检测、关键点检测、实例分割等复杂应用的基础技术。而说到目标检测算法,就不得不提YOLO系列。YOLO作为单阶段模型的代表之一,相较于更早提出的两阶段目标检测算法,不仅拥有更快的预测速度,对于背景图像(非物体)中的部分被包含在候选框的情况误检率更低,还拥有更好的算法通用性。以上这些特性,都使YOLO系列模型成为工业目标检测场景首选的算法。PP-YOLO是飞桨团队在YOLOv3的基础上又做了一系列深度优化。通过添加尽量不引入额外计算量的trick来提升YOLOv3模型的精度,最终在COCO数据集上达到了45.9%的精度;同时在V00单卡上达到了72.9FPS;在开启TensorRT下,FP6的推理速度达到55.6FPS。这使得PP-YOLO在精度和速度上达到了最佳平衡,全面超越原生YOLOv4模型,成为产业界最佳的目标检测模型。在铁轨缺陷检测场景下,使用PP-YOLO对铁轨进行缺陷检测,检测的精度和速度均达到了比较好的效果。在一张Tesla-V00的显卡上进行训练,输入尺寸为*,获得了99.3的mAP,在trt_fp6中实现了.86ms/帧的检测速度。精度和速度双双满足实际的生产需求。方案详细解读为了兼顾YOLOv3模型的精度和预测速度,打造精度速度高性价比的工业实用模型,PP-YOLO使用了精度速度更优的带可变形卷积的ResNet50vd模型(ResNet50vd-DCN),预测速度提升20%,精度也有小量提升。在此基础上,加入CoordConv和SPP等运算量很小,但能有效提升特征提取效率的trick。另外,还引入了基于IoU优化检测框定位精度的IoULoss,IoUAware等方法。这些方法基本不引入额外的计算,但能有效地提高输出预测框的定位精度,有效解决YOLOv3模型定位精度不高的问题。在预测框后处理上,引入GridSensitive使得预测框学习和解码更加稳定,同时MatrixNMS能更加快速有效地完成预测框的非极大值抑制,更高效地保留高质量的预测框,滤除低质量的预测框。在训练过程中,PP-YOLO模型使用DropBlock这种更适用于目标检测的dropout方法来减小过拟合,同时使用EMA(指数滑动平均)的训练方法,即使用梯度历史加权平均值来平滑掉难样本或者误差样本带来的梯度抖动,让训练过程更加平滑稳定。通过上述策略对YOLOv3模型进行深度优化,PP-YOLO模型在精度和速度上都大幅优于YOLOv3模型,甚至优于更新的YOLOv4模型。因此PP-YOLO可以说是一个非常适用于工业项目的高性价比实用性模型。更多关于PP-YOLO模型的介绍和文档,可见