我们生活的世界是一个三维物理空间。直观而言,三维视觉系统有助于机器更好地感知和理解真实的三维场景。三维视觉作为计算机视觉的一个比较重要的研究方向,在过去几十年间得到了扎实和系统地发展,形成了一套完整的理论体系。近年来,随着三维成像手艺如激光雷达、TOF 相机及结构光等的快速发展,三维视觉研究再次成为研究热点。在上一篇文章中,我们对 3D 视觉基础相关内容进行了概括性总结,本文我们将进行比较深层次的介绍,主要涉及 3D 视觉算法及其应用领域。3D 方向检测多模态融会算法鉴于视觉的方向检测是环境感知系统的重要组成,也是计算机视觉、机器人研究等相关领域的研究热点。三维方向检测是在二维方向检测的基础上,增加方向尺寸、深度、姿态等信息的估计。相比于二维方向检测,三维方向检测在准确性、实时性等方面仍有较大的提升空间。在方向检测领域,2D 方向检测方面发展迅速,出现了以 R-CNN、Fast RCNN、Mask RCNN 为代表的 two-stage 收集架构,以及以 YOLO、SSD 为代表的 one-stage 收集架构。然而由于 2D 图象缺乏深度、尺寸等物理世界参数信息,在实际应用中存在一定局限性,往往需要结合激光雷达、毫米波等传感器实现多模态融会算法,以增强系统的可靠性。因此,研究者们提出了许多 3D 方向检测方法,根据传感器的不同大致可分为视觉、激光点云以及多模态融会三大类。其中视觉又包括单目视觉和双目视觉(深度视觉)两类;激光点云包括三维点云投影和三维空间体素特点;而多模态融会实现了激光点云与视觉的融会。下面将对现阶段比较流行的 3D 方向检测多模态融会算法研究进行介绍。论文 1《3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection》提出了 voxel-based 的多模态特点融会。
论文地点:https://arxiv.org/pdf/2004.12636该研究提出的收集整体结构如下所示。可以看出上下两层分别是对激光雷达点云信息的特点提取 (voxel-backbone) 和对多张图象信息的特点提取与模态转换。这里需要提及的是由于图象信息仅仅只有一个方向的视野,但是多个摄像头的图象存在视野重叠,所以多张图象的信息融会是为了保证整个环视点云场景的特点都被涉及到。
论文 2《PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module》提出了 point-based 的多模态融会方法。
论文地点:https://arxiv.org/pdf/1911.06084.pdf该研究提出了一种新颖的融会方法——鉴于点的 Attentive Cont-conv Fusion(PACF)模块,该模块将多传感器特点直接融会在 3D 点上。除了连续卷积外,该研究还添加了 Point-Pooling 和 Attentive Aggregation 等组件,以使融会特点更具表达力。此外,鉴于 PACF 模块,研究人员提出了一个叫做 Pointcloud-Image RCNN(PI-RCNN)的 3D 多传感器多任务收集,该收集负责图象分割和 3D 方向检测任务。PI-RCNN 使用分段子网从图象中提取全分辨率语义特点图,然后通过功能强大的 PACF 模块融会多传感器特点。受益于 PACF 模块的结果和分段模块的有表达力的语义特点,PI-RCNN 使 3D 方向检测的性能大大改善。在 KITTI 3D 检测基准测试中的实验揭示了 PACF 模块和 PI-RCNN 的有效性,并且该方法可以在 3D AP 的度量标准上达到最新水平。
收集框架如上图所示,实现过程可分为以下四步:
1. 使用图象语义分割收集,获得图象的语义特点;
2. 检测子收集 – 1 从原始点云中得到方向的三维候选框;
3. PACF 模块融会点云特点和图象语义特点;
4. 检测子收集 – 2 得到最终的三维检测结果。
论文 3《EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection》提出了一种新的融会模块,在不需要任何图象注释的情况下,对具有语义特点的点特点进行逐点增强。该研究设计了一个端到端的可学习框架 EPNet 来集成两个组件。在 KITTI 和 SUN-RGBD 数据集上进行的大量实验表明,EPNet 优于当前最优方法。其收集结构点云分支是 point encoder-decoder 结构,图象分支则是一个逐步 encoder 的收集,并且逐层做特点融会。
论文地点:https://arxiv.org/pdf/2007.08856.pdf收集整体框架如下图所示:
点云特点和图象特点融会过程如下图所示:
融会过程由三部分组成:grid generator、image sampler 和 LI-Fusion layer。
1. 根据三维激光与图象的外参,grid generator 将三维激光的每一个点投影到原始图象上;
2. image sampler 利用图象特点图与原始图象的比例关系以及双线性插值,得到对应的图象特点图;
3. 为了减少图象的遮挡以及深度不确定性对融会造成的影响,LI-Fusion layer 利用点云特点估计对应图象特点的重要程度并筛选,具体是将点云特点与图象特点经过若干操作学习得到权重值,权重值与图象特点相乘再与点云特点串联作为最后的融会特点。
论文 4《CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection》提出了一种新颖的 Camera-LiDAR 方向候选(CLOC)融会收集。CLOC 融会提供了一种低复杂度的多模态融会架构,显著提高了单模态检测器的性能。CLOC 在非最大抑制 (NMS) 之前对任意 2D 和任意 3D 的组合输出候选项进行操作,并被训练利用它们的几何和语义一致性,以产生更准确的最终 3D 和 2D 检测结果,最后采用 maxpooling 的方式选择最终的融会结果。
论文地点:https://arxiv.org/pdf/2009.00784.pdf收集架构图如下所示:
该收集由三个阶段完成:1)2D 和 3D 的方向检测器分别提出 proposal;2)将两种模态的 proposal 编码成稀疏张量;3)对于非空的元素采用二维卷积做对应的特点融会。3D 人脸检测基本流程人脸鉴别手艺在国家安全、军事安全、金融安全、共同安全等领域具有广泛的应用前景。人的大脑具备天生的人脸鉴别能力,可以轻易地分辨出不同的人。但是计算机自动鉴别人脸手艺却面临着巨大的挑战。由于二维人脸鉴别不可避免地受到光照、姿态和表情的影响,这些因素已成为二维人脸鉴别手艺向前发展的最大障碍。随着结构光和立体视觉等三维成像手艺的日益成熟,越来越多的人脸鉴别研究人员将目光投向了三维人脸鉴别手艺领域。目前 3D 人脸鉴别手艺的主要手艺流程如下:
(1) 3D 人脸数据获取;
(2) 3D 人脸数据的预处理,包括人脸的检测、切割、去噪等;
(3) 3D 人脸数据的特点提取;
(4) 构建适合的分类器对人脸数据进行判别。
目前 3D 人脸鉴别算法分为如下几个类别:
1. 鉴于空域匹配的鉴别算法
2. 鉴于局部特点匹配的鉴别算法
3. 鉴于整体特点匹配的鉴别算法
4. 鉴于模型拟合的鉴别算法
5. 鉴于 3D+2D 双模态的鉴别算法
3D 数据集简介目前 3D 公开数据少,远少于 2D 图片;3D 高精度数据集只能靠昂贵的设备采集,过程繁琐。这里我们来了解一下现有的 3D 数据集。1. BU-3DFE (Binghamton University 3D Facial Expression) 数据集:该数据库目前包含 100 位受试者(女性 56%,男性 44%),年龄从 18 岁到 70 岁不等,包含各种种族,包括白人、黑人、东亚人、中东人等。下载地点:http://www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html2. KITTI 数据集:由德国卡尔斯鲁厄理工学院和丰田美国手艺研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评估 3D 方向检测和 3D 跟踪等计算机视觉手艺在车载环境下的性能。下载地点:http://www.cvlibs.net/datasets/kitti/raw_data.php3. Cityscapes 数据集:这是一个较新的大规模数据集,它包含 50 个不同城市的街道场景中所记录的各种立体视频序列,除了一组较大的 20000 个弱注释帧外,还具有 5000 帧的高质量像素级注释。下载地点:https://www.cityscapes-dataset.com/4. Matterport 3D 重修数据集:该数据集包含 10800 个对齐的三维全景视图(RGB + 每个像素的深度),来自 90 个建筑规模场景的 194400 个 RGB + 深度图象。下载地点:https://matterport.com/5. 3D 人脸重修相关数据集:该数据集包含用 iPhone X 拍摄的 100 名受试者的 2054 张 2D 图象,以及每个受试者的单独 3D 头部扫描。下载地点:https://ringnet.is.tue.mpg.de/challenge6. TUM 数据集:主要包含多视图数据集、3D 物体的鉴别分割、场景鉴别、3D 模型匹配、vSALM 等各个方向的数据。下载地点:https://vision.in.tum.de/人脸数据库汇总官网指路:http://www.face-rec.org/databases/面部 3D 重修人脸重修是计算机视觉领域中一个比较热门的方向,3D 人脸相关应用也是近年来短视频领域的新玩法。不管是 Facebook 收购的 MSQRD,还是 Apple 研发的 Animoji,底层手艺都与三维人脸重修有关。面部 3D 重修,可以理解为从一张或多张 2D 图象中重修出人脸的 3D 模型。对于面部 3D 重修,我们先来直观地感受一下结果。如下动图所示,最右边的重修人脸除了没有皱纹以外,身份特点和面部表情都和原图相当一致,阴影结果也高度还原。只是眼睛部分似乎不太对,显得浑浊无神。
论文《FML: Face Model Learning from Videos》结果展示下图中的合成结果也很不错,表情动态很到位。只是可能实验者的眼神实在太有戏,AI 表示无力模仿。
论文《FML: Face Model Learning from Videos》结果展示
论文《3D Face Reconstruction from A Single Image Assisted by 2D Face Images in the Wild》结果展示
论文《Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network 》结果展示
直观感受完面部 3D 重修结果后,我们再来探究模型背后的算法。传统 3D 人脸重修方法,大多立足于图象信息,如鉴于图象亮度、边缘信息、线性透视、颜色、相对高度、视差等一种或多种信息建模手艺进行 3D 人脸重修。三维变形模型(3DMM)随着手艺的发展,研究者们又提出了鉴于模型的 3D 人脸重修方法,这是目前较为流行的 3D 人脸重修方法。3D 模型主要用三角网格或点云来表示,现下流行的模型有通用人脸模型(CANDIDE-3)和三维变形模型(3DMM)及其变种模型,鉴于它们的 3D 人脸重修算法既有传统算法也有深度学习算法。三维变形模型(3DMM)是一个通用的三维人脸模型,用固定的点数来表示人脸。其核心思想是人脸可以在三维空间中一一匹配,并且可以由其他许多幅人脸正交基加权线性相加而来。三维空间中的每一点 (x, y, z) 实际上都是由三维空间三个方向的基量 (1, 0, 0),(0, 1, 0),(0, 0, 1) 加权相加所得,只是权重分别为 x,y,z。每一个三维人脸都可以在一个数据库中的所有人脸组成的基向量空间中进行表示,而求解任意三维人脸的模型,实际上等价于求解各个基向量的系数问题。每一张人脸可以表示为形状向量和纹理向量的线性叠加。任意人脸模型均可以由数据集中的 m 个人脸模型进行加权组合,如下:
其中 Si、Ti 表示数据库中第 i 张人脸的形状向量和纹理向量。但是我们实际在构建模型的时候不能使用这里的 Si、Ti 作为基向量,因为它们之间并非正交相关,所以接下来需要使用 PCA 进行降维分解。
(1) 首先计算形状和纹理向量的平均值;
(2) 中心化人脸数据;
(3) 分别计算协方差矩阵;
(4) 求得形状和纹理协方差矩阵的特点值α、β和特点向量 si、ti。
上式可以转换为下式:
其中第一项是形状和纹理的平均值,而 si、ti 则是 Si、Ti 减去各自平均值后的协方差矩阵的特点向量,它们对应的特点值按照大小进行降序排列。等式右边仍然是 m 项,但是累加项降了一维,减少了一项。si、ti 都是线性无关的,取其前几个分量可以对原始样本做很好地近似,因此能够大大减少需要估计的参数数目,并不损失准确率。鉴于 3DMM 的方法都是在求解这几个系数,随后的很多模型在这个基础上添加了表情、光照等系数,但是原理与之类似。参考链接:https://zhuanlan.zhihu.com/p/101330861https://my.oschina.net/u/4304462/blog/4557678https://cloud.tencent.com/developer/article/1419949https://blog.csdn.net/u011681952/article/details/82623328https://huailiang.github.io/blog/2020/face/https://yongqi.blog.csdn.net/article/details/107679240https://blog.csdn.net/u011681952/article/details/82623328