自训练数据集打标签注意事项及使用工具推荐

作者:KAKAKA2024.02.17 23:59浏览量:10

简介:在训练数据集的打标签过程中,需要注意的事项包括标签规则、小目标检测、边界检查等。同时,推荐使用LabelImg工具进行标注。

满血版DeepSeek,从部署到应用,全栈都支持

快速部署、超低价格、极速蒸馏、应用开发、即时调用

立即体验

机器学习深度学习的训练过程中,数据集的标注是非常重要的一环。对于自训练数据集,打标签的注意事项和使用工具的选择尤为重要。本文将详细介绍打标签的规则以及推荐使用的工具。

一、打标签规则

  1. 标签一一对应:每个数据集的标签标号要一致,否则会混淆。例如,person和clothes的标签标号不能混用,需要保证训练集中的标签标号都是一致的。
  2. 贴边规则:标注框需紧贴目标物体的边缘进行画框标注,不可框小或框大。这样可以确保模型在训练时能够更好地识别目标物体的轮廓。
  3. 目标被遮挡也要标注:即使目标物体被其他物体遮挡,也需要进行标注。这样可以训练模型更好地处理遮挡情况。
  4. 人眼难以分辨的不要标:对于人眼难以分辨的目标,可以不进行标注,避免误导模型。
  5. 重叠规则:当两个目标物体有重叠时,只要不是遮挡超过一半的就可以框。允许两个框有重叠的部分,这样模型可以学会处理重叠情况。
  6. 独立规则:每一个目标物体均需要单独标框。例如,图中有三瓶水不能只标一个框,而是要将三个目标分别标框。
  7. 不框规则:图像模糊不清、太暗、曝光过度或不符合项目特殊规则的不框。这样可以保证标注质量,避免误导模型。
  8. 边界检查:确保框坐标不在图像边界上,防止载入数据或数据扩展时出现越界报错。
  9. 小目标规则:对于不同算法对小目标的检测效果不同,但只要人眼能分清,都应该标出来。根据算法需求,决定是否启用这些样本参与训练。
  10. 小于10X10或20X20像素的目标不方便标记可以忽略。
  11. 对于边界模糊、连片处理,标为一个样本框。
  12. 对于模糊、遮挡、有拖影的样本,最好单独建立样本库,有选择地启用。
  13. 宽高比极端不是好样本:过长的宽高比可能会影响模型的识别效果,因此需要特别注意。

二、推荐工具

LabelImg是一款简单易用的图像标注工具,支持实时保存标签文件,并对修改后的标签信息实时更新到对应的txt标签文档。若不小心关闭窗口,也不会影响之前的工作量。使用方法如下:

  1. 主页面打开待标注的图片文件夹。
  2. 选择“change save dir”,选择保存标签数据的文件夹。
  3. 打开自动保存功能,可以在选择的save dir中自动保存,无需手动save。
  4. 点击“create rectbox”,画矩形框,打标签名。至此一张图片就标注完了,可以通过以下操作切换列表中的图片。
  5. txt标签格式转换为txt(转换脚本链接)。

优点:LabelImg可以实时保存标签文件,也可以对修改后的标签信息实时更新到对应的txt标签文档,若不小心关闭窗口,也不会影响之前的工作量。缺点:操作过于依赖用户,个人觉得对于工作量大的朋友很耗时。

总的来说,在自训练数据集的打标签过程中,遵循正确的规则和使用合适的工具是非常重要的。遵循上述规则可以帮助我们获得高质量的训练数据集,而使用LabelImg等工具则可以大大提高标注效率。希望本文对大家有所帮助。

article bottom image

相关文章推荐

发表评论

图片