问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

如何训练高质量模型

创作时间:
作者:
@小白创作中心

如何训练高质量模型

引用
1
来源
1.
https://docs.mech-mind.net/zh/dlk-software-manual/2.6.0/algorithm-modules/object-detection-improve-model-accuracy.html

在目标检测任务中,如何训练出高质量的模型是一个关键问题。本文将从数据采集和数据选取两个方面,详细介绍如何通过优化数据集来提高模型的准确性。

确保数据质量

“目标检测”模块通过学习图像中的物体特征得出模型并应用到实际场景,因此采集和选取的数据必须与实际场景情况一致才能训练出高质量模型。

采集数据

需合理分配各种摆放情况。例如实际生产时来料有横向、竖向和散乱堆叠的情况,但只采集横向和竖向来料的图像数据进行训练,则无法保证散乱堆叠的识别效果。因此,采集数据时需要能包含实际生产的各种场景,具体包括:

  • 实际应用所有可能出现的物体朝向
  • 实际应用所有可能出现的物体位置
  • 实际应用所有可能出现的物体间关系

如果少采集了某种情况的数据,算法模块会缺少该情况下数据的学习,将导致模型在该情况下识别效果不佳,因此必须根据情况增加数据样本,降低误差。

物体朝向
物体位置
物体间关系

采集数据案例

某工件检测项目,来料为无规则散乱摆放的转子,要求精准检测所有的转子位置。一共采集 30 张。

  • 物体位置方面,需考虑采集实际生产时转子可能位于料筐的所有位置;同时需要考虑抓取时转子数量由多到少的情况。
  • 物体间关系方面,需考虑转子散乱、整齐和压叠摆放的情况。

某钢筋计数项目,来料为成捆的钢筋,要求精准输出钢筋数量。一共采集20张。

  • 钢筋特征相对单一,因此只需考虑物体位置的多样性,采集实际生产时钢筋可能位于相机视野中的所有位置。

选取合适的数据

训练集数量可控

“目标检测”模块初次训练建议准备 20 张图像,不需要过多数据。前期加入大量类似数据训练会延长不必要的训练时间,同时不利于后期改进模型。

数据具有代表性

图像一定要涵盖待检测目标的所有光照、颜色、尺寸等信息。

  • 光照:实际场景存在光照变化,数据应该包含所有光照情况下的图像。
  • 颜色:工件存在不同颜色,数据应该包含所有颜色的图像。
  • 尺寸:工件存在不同尺寸,数据应该包含所有尺寸工件的图像。

若实际现场工件会出现旋转、缩放、或其他情况,无法采集相应图像数据时,可以通过调整数据增强训练参数的方式来补充数据,以确保现场所有的情况都包含在训练集内。

数据占比均衡

训练集中不同种类或不同摆放方式的图像比例要均衡,否则会影响模型效果。禁止出现一种物体 20 张,另一种物体仅有 3 张;或整齐摆放 40 张,散乱摆放只有 5 张的情况。

数据与终端场景保持一致

图像要与最终模型使用的终端场景保持一致,包括光照条件、工件特征、检测背景、视野大小等。

本文原文来自Mech-Mind官方文档

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号