YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）

2024-03-08 1127阅读

温馨提示：这篇文章已超过384天没有更新，请注意相关的内容是否还可用！

0 前言（用处不大，可以直接看解决办法）

1 产生问题的原因

2 解决办法

YOLO V5

YOLO V7

2 小结

☆ 这个问题是GTX16xx用户的大坑，基本上每个GTX16xx用户使用YOLO系列算法，都会遇到这些问题。

这个方法是不彻底的解决办法，牺牲了训练的时间来换取问题的解决，经过本人在GTX1660TI笔记本上测试YOLOV5和YOLOV7算法均成功解决了。

0 前言（用处不大，可以直接看解决办法）

最近正在做目标检测相关的算法，因为要求实时性要很高，所以选择了YOLO系列算法。最先开始选择的是刚出炉新鲜的YOLOV7算法，训练时没有问题，但是在最终测试时，发现检测不出来任何的bbox，开始以为是没有训练好，但是发现训练时的validation都有bbox。最后决定还是老实采用YOLO V5算法(为什么不选美团的YOLO V6？YOLO V6在论文外的数据集，表现还没有YOLOV 5好，大家dddd)，不过使用YOLOV5 时又发现了训练时出现了nan值，于是在github上yolov5问答里找到了解决办法(不使用AMP)。但是有发现了validation时出现P\R\map全为0值。于是找呀找，最后都没有发现问题所在。最后在阅读YOLO V5 的train.py的源代码发现了一些解决办法问题。

1 产生问题的原因

由于NVIDIA 官方的一些软件问题，导致了PyTorch里面一些CUDA代码有些问题，就是fp16（float16）数据类型在卷积等一些运算的时候会出现nan值。导致了训练时候出现了nan值，故而在validation时就会检测不到导致了上述情况。

2 解决办法

YOLO V5

里面检测没有nan值、不识别问题，就只有训练的时候有问题。

下面正式开始解决问题，在train.py搜索amp把check_amp注释掉直接把amp赋值为False，如下图：

$YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）$

这样做之后在运行train.py发现训练时就不会有nan值了。如果还有，那就应该就关闭这篇博客了，考虑下其他方法了。然后，你就会发现validation时会出现P/R/map全部为0。然后你就继续在train.py里面搜索half关键字，把所有有.half()变为.float(),如下图：

$YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）$

这样之后，你就会发现

——还是没有解决问题。

要解决这个问题，还需要在val.py里面将所有的half改为False，同时im.half() if half else im.float() 改为 im.float()。如下图： $YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）$

$YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）$

这样做之后，再次运行train.py发现没有问题了。

YOLO V7

经测试，train.py没有问题，主要还是在detect.py里面有问题。主要还是把每个地方.half()改为.float()或者把half赋值为False，如下图：

$YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）$

3 小结

其实，归根究底就是NVIDIA对GTX16xx相关CUDA包有问题，有其他人说吧PyTorch版本降为1.10.1和CUDA 10.2，我也试过，确实能解决问题，但是训练时长长了很多，而且现在PyTorch官方已经不怎么支持使用CUDA 10.2版本了。

这个解决办法的原理，就是把显卡半精度浮点型数据改为单精度的浮点型去运算。这样虽然精度高了，但是训练时长也相应会增加一些、显存占用也会增加一些，但是，这样总比不能训练和不能检测要好些吧，要是有更好的办法，欢迎在评论区分享分享。。

contact_details_qq=277746470

VPS购买请点击我

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）

☆ 这个问题是GTX16xx用户的大坑，基本上每个GTX16xx用户使用YOLO系列算法，都会遇到这些问题。

这个方法是不彻底的解决办法，牺牲了训练的时间来换取问题的解决，经过本人在GTX1660TI笔记本上测试YOLOV5和YOLOV7算法均成功解决了。

0 前言（用处不大，可以直接看解决办法）

1 产生问题的原因

2 解决办法

YOLO V5

YOLO V7

3 小结

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]