Yolov7训练自己的数据集(超详细教程)
温馨提示:这篇文章已超过444天没有更新,请注意相关的内容是否还可用!
目录
一,准备数据集
1.1 挑选照片
1.2 做标注
二,下载YoloV7
三,划分数据集
四,模型训练
4.1 创建yaml文件
4.2 修改默认参数
4.3 开始训练
五,训练模型遇到的问题
5.1 UnicodeDecodeError: 'gbk' codec can't decode type 0xaf in position 525: illegal multibyte sequence
5.2 subprocess.Called processError: Command 'git tag' returned non-zero exit status 128
六,测试
七,解决标签中文显示问题
一,准备数据集
1.1 挑选照片
公主做的是缺陷检测方向,没有好办法,只能靠人眼,公主试过用阈值分割法来挑选,但是!如果阈值分割法能准确分离缺陷,就不用用yolo了不是?特别是灰度相近,而且每张照片灰度都不同,背景与缺陷灰度对比度很接近,比如上图中的硌伤~特别是背景有噪声的时候如下图,阈值分割法就直接躺平了~
没办法,从4T的数据里挑出来,挑的公主眼睛都要瞎了~~~
1.2 做标注
公主用的labelImg,大部分做yolo标注都用这个,也是很主流的标注工具,安装方法见公主另一篇博客。那篇博客标注方法没写全,在这里详细介绍一下:
(1)修改默认标签。公主先只做了一种缺陷,缺陷名称为“硌伤”,因此只写了一种class。在labelImg的安装文件夹中的data/predefined_classes里面修改class:
(2)创建images文件夹和labels文件夹,可以放在任意的文件夹下。将挑选出的照片放到images的文件夹中。
(3)在cmd中cd到labelImg文件夹下,运行python labelImg命令打开labelImg主页面。或者直接在pycharm的Terminal中打开也行,公主是直接用pycharm的Terminal来运行的。
(4)在主页面上打开待标注文件,进行标注
labelImg如上图所示。
-
- 第一步先将标注类型改为YOLO,这一步非常关键!
- 第二部修改Save Dir到之前创建的labels的文件夹
- 第三步Open Dir,打开之前创建的images文件夹,此时会出现4框中的所有文件
- 双击想要标注的图像,通过Create RectBox在需要标注的位置画出框,选好标注类型就可以啦~
- 可以选中View->Auto Save Mode,这样标注完就不用手动点Save了,直接点Next Image跳到下一张即可自动保存。
- 此时可以看到labels文件夹中多了一个与图像同名的.txt文件,即为标注文件啦!注意,标注与图片是一一对应的!
labels的格式如下:
二,下载YoloV7
下载地址
下载之后的目录结构是这样的:
三,划分数据集
由于公主是一股脑将所有图像放到一起了,由于工业生产的特殊性,临近时间产生的缺陷相似,因此需要随机将图像拆分为训练集,验证集及测试集。
在yolov7-main主文件夹下创建data.py, 并在datasets文件夹下创建defect文件夹,目录结构如下:红框画出的文件是下面代码运行完后自动生成的。
公主在这篇博客的代码基础上修改了一下,同时生成了yolov7需要的目录文件,代码如下:
# 将图片和标注数据按比例切分为 训练集和测试集 import shutil import random import os # 原始路径 image_original_path = "./mydata/images/" label_original_path = "./mydata/label/" cur_path = os.getcwd() # 训练集路径 train_image_path = os.path.join(cur_path, "datasets/defect/images/train/") train_label_path = os.path.join(cur_path, "datasets/defect/labels/train/") # 验证集路径 val_image_path = os.path.join(cur_path, "datasets/defect/images/val/") val_label_path = os.path.join(cur_path, "datasets/defect/labels/val/") # 测试集路径 test_image_path = os.path.join(cur_path, "datasets/defect/images/test/") test_label_path = os.path.join(cur_path, "datasets/defect/labels/test/") # 训练集目录 list_train = os.path.join(cur_path, "datasets/defect/train.txt") list_val = os.path.join(cur_path, "datasets/defect/val.txt") list_test = os.path.join(cur_path, "datasets/defect/test.txt") train_percent = 0.6 val_percent = 0.2 test_percent = 0.2 def del_file(path): for i in os.listdir(path): file_data = path + "\\" + i os.remove(file_data) def mkdir(): if not os.path.exists(train_image_path): os.makedirs(train_image_path) else: del_file(train_image_path) if not os.path.exists(train_label_path): os.makedirs(train_label_path) else: del_file(train_label_path) if not os.path.exists(val_image_path): os.makedirs(val_image_path) else: del_file(val_image_path) if not os.path.exists(val_label_path): os.makedirs(val_label_path) else: del_file(val_label_path) if not os.path.exists(test_image_path): os.makedirs(test_image_path) else: del_file(test_image_path) if not os.path.exists(test_label_path): os.makedirs(test_label_path) else: del_file(test_label_path) def clearfile(): if os.path.exists(list_train): os.remove(list_train) if os.path.exists(list_val): os.remove(list_val) if os.path.exists(list_test): os.remove(list_test) def main(): mkdir() clearfile() file_train = open(list_train, 'w') file_val = open(list_val, 'w') file_test = open(list_test, 'w') total_txt = os.listdir(label_original_path) num_txt = len(total_txt) list_all_txt = range(num_txt) num_train = int(num_txt * train_percent) num_val = int(num_txt * val_percent) num_test = num_txt - num_train - num_val train = random.sample(list_all_txt, num_train) # train从list_all_txt取出num_train个元素 # 所以list_all_txt列表只剩下了这些元素 val_test = [i for i in list_all_txt if not i in train] # 再从val_test取出num_val个元素,val_test剩下的元素就是test val = random.sample(val_test, num_val) print("训练集数目:{}, 验证集数目:{}, 测试集数目:{}".format(len(train), len(val), len(val_test) - len(val))) for i in list_all_txt: name = total_txt[i][:-4] srcImage = image_original_path + name + '.bmp' srcLabel = label_original_path + name + ".txt" if i in train: dst_train_Image = train_image_path + name + '.bmp' dst_train_Label = train_label_path + name + '.txt' shutil.copyfile(srcImage, dst_train_Image) shutil.copyfile(srcLabel, dst_train_Label) file_train.write(dst_train_Image + '\n') elif i in val: dst_val_Image = val_image_path + name + '.bmp' dst_val_Label = val_label_path + name + '.txt' shutil.copyfile(srcImage, dst_val_Image) shutil.copyfile(srcLabel, dst_val_Label) file_val.write(dst_val_Image + '\n') else: dst_test_Image = test_image_path + name + '.bmp' dst_test_Label = test_label_path + name + '.txt' shutil.copyfile(srcImage, dst_test_Image) shutil.copyfile(srcLabel, dst_test_Label) file_test.write(dst_test_Image + '\n') file_train.close() file_val.close() file_test.close() if __name__ == "__main__": main()至此,数据集彻底准备完毕!
CUDA的安装我是参考这篇博客。
四,模型训练
4.1 创建yaml文件
在data文件夹中创建新的yaml文件,本例中缺陷为硌痕(公主不知道硌痕怎么翻译,长得像气泡,就翻译成了bubble >_










