| Developers' Corner

深度学习:为什么说训练数据集是成功的关键?

深度学习数据标注

想要深度学习应用一次成功?那小心处理数据非常重要。在每一个机器视觉应用中,使用“高质量”的图像数据很重要。但是,对于深度学习应用而言,这句话更加关键。

无论使用哪种方法或功能,无论是分类、物体检测、分割还是异常值检测,都必须使用数据来训练深度学习网络。而每个深度学习网络只能学习其"所见内容"。

为此,在准备训练数据集时应考虑如下重要规则:

1. 在与现实应用中的预期场景相似甚至完全相同的条件下获取深度学习图像数据。只有出于实验目的时,才可以使用实验室设置获取图像。

2. 训练数据必须涵盖线上应用过程中可能发生的所有变化。其中也包括一般条件的变化,例如照明。

3. 训练数据必须独立。其中不应包含同一对象的多个数据。

4. 按照步骤 1、2 和 3,获得的训练数据越多越好。

除了获取的图像数据外,数据集的第二个非常重要的环节是数据标记。标记当然必须正确,但是也必须准确。尤其是对于物体检测和分割,准确标记对于在线过程中的准确定位至关重要。同样地,网络只能学到标记训练集提供的准确度。保持标记高度一致也非常重要。必须以相同方式标记数据集中的每个物体和同一类中的每个物体。

正确标记看似人人皆知,并且轻而易举。但是,在标记数百个物体时,发生错误(错误标记数据)的情况并不少见。 在这种情况下,MVTec 深度学习工具新增的审阅选项 (Review tab) 非常适合快速查找错误标记数据。因此,请简单了解一下这项新功能,消除错误数据。