【单目3D检测】smoke(1)：模型方案详解

2024-07-21 1146阅读

纵目发表的这篇单目3D目标检测论文不同于以往用2D预选框建立3D信息，而是采取直接回归3D信息，这种思路简单又高效，并不需要复杂的前后处理，而且是一种one stage方法，对于实际业务部署也很友好。

题目：SMOKE：Single-Stage Monocular 3D Object Detection via Keypoint Estimation
代码：https://github.com/lzccccc/SMOKE
Introduction

2D目标检测目前已经在精度和速度上都取得了不错的成绩，而3D目标检测由于需要同时估计出目标的位置与姿态，因此相比2D是一个更具挑战的方向。
目前性能最好的3D目标检测还是需要依赖激光雷达的点云或者点云+图像融合，考虑到成本因素，仅依靠单目摄像头的3D目标检测还是非常值得研究的。
本作有以下几个贡献点:
- 提出了一个one-stage单目3D检测方法，思路简答，且end-to-end。
- 3D框8个角点的计算使用了多种方式得到，每种方式都参与了loss的计算，使训练更容易收敛。
- 在KITTI数据集上达到了SOTA。
  Detection Problem
  
  SMOKE Approach
  
  Backbone
  
  主干网络选择使用DLA-34，其中部分卷积换成了DCN，最后的输出相对于原始图4次下采样的特征图。论文还将BN换成了GN(GroupNorm)，因为GN对batch size的大小不那么敏感，且在训练中对噪声更鲁棒。
  
  3D Detection Network
  
  head部分一共两条分支，一条用于检测目标中心点位置同时分类，另一条回归目标的3D信息。
  
  Keypoint Branch
  
  中心点的估计与CenterNet那片论文的思路相似，不同的是CenterNet里用的是2D框的中心点，而这里用的是3D框的中心点在图像上的投影点，如下图所示:
  
  Regression Branch
  
  根据深度信息，投影点(x,y)坐标，和相机参数，可计算得到3D中心点坐标
  
  
  
  预测长宽高，有点像anchor的思想
  
  
  
  偏航角：ray到Z轴角度
  
  
  
  Loss Function
  
  偏航角pred与尺寸gt，坐标gt构成的3d box与gt的回归loss
  偏航角gt与尺寸pred，坐标gt构成的3d box与gt的回归loss
  偏航角gt与尺寸gt，坐标pred构成的3d box与gt的回归loss
  
  Keypoint Classification分支的loss跟CenterNet中一样，用的是focal loss。
  
  Regression分支的loss计算比较有新意，没有采取直接计算τ \tauτ中8个参数的loss，而是通过在角度、尺寸、坐标位置三种分支下得到的3D框的8个角点去和真值比较计算loss。
  
  总loss:
```
# mmdetection3d/mmdet3d/models/dense_heads/smoke_mono3d_head.py
# 角度分支下计算得到的3D框，所谓角度分支即只有角度用的是预测值，而坐标位置和尺寸两个用的是真值
bbox3d_yaws = self.bbox_coder.encode(gt_locations, gt_dimensions, orientations, img_metas)
# 尺寸分支下计算得到的3D框
bbox3d_dims = self.bbox_coder.encode(gt_locations, dimensions, gt_orientations, img_metas)
# 坐标位置分支下计算得到的3D框
bbox3d_locs = self.bbox_coder.encode(locations, gt_dimensions, gt_orientations, img_metas)
...
...
# 三种分支下分别计算推理出的8个角点的和真值8个角点的loss
loss_bbox_oris = self.loss_bbox(pred_bboxes['ori'].corners[reg_inds, ...], target_labels['gt_cors'][reg_inds, ...])
loss_bbox_dims = self.loss_bbox(pred_bboxes['dim'].corners[reg_inds, ...], target_labels['gt_cors'][reg_inds, ...])
loss_bbox_locs = self.loss_bbox(pred_bboxes['loc'].corners[reg_inds, ...], target_labels['gt_cors'][reg_inds, ...])
loss_bbox = loss_bbox_dims + loss_bbox_locs + loss_bbox_oris
```
  Conclusion
  
  纵目发表的这篇单目3D目标检测论文不同于以往用2D预选框建立3D信息，而是采取直接回归3D信息，这种思路简单又高效，并不需要复杂的前后处理，而且是一种one stage方法，对于实际业务部署也很友好。
  
  参考：https://blog.csdn.net/qq_30483585/article/details/124954023

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

【单目3D检测】smoke(1)：模型方案详解

Introduction

Detection Problem

SMOKE Approach

Backbone

3D Detection Network

Keypoint Branch

Regression Branch

Loss Function

Conclusion

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]