数据重要性
影响 AI 模型检出能力的主要有三个方面:
- 选择合适的模型结构
- 使用合适的训练参数,比如调整目标尺寸,数据增强(随机裁剪)等;
- 高质量的训练数据
数据多样性
除了在项目最早期,不建议将同一个产品拍多次添加到训练集中。
在早期增加数据倍增的数值就可以了。
在项目进行的过程中初步增加产线真实的多样性的缺陷样本是最佳选择。
训练集与测试集的分布保持一致性
- 常见的是情况调整了光学方案以后使用旧的数据训练的模型可能出现较高的误判,需要添加新的数据对模型进行校准。
- 多型号的数据使用的A、B型号训练模型,使用 C 型号进行验证。
- 图像格式一致。比如使用 JPG 格式的图像训练模型,使用 BMP 格式的图像推理,模型的结果可能是不稳定的。
标注准确性
人工标注的过程中可能存在标准变动,也会因为失误存在漏标、错标等;在项目进行的过程中需要多次检查。
在项目初期和后期,客户的标准可能发生变化,早期的数据需要检查将标准统一。