(XR Navigation Network 2024年11月07日)随着虚拟现实和增强现实等技术的快速发展,用户对与计算机界面的交互提出了更自然、更直观的期望。目前的视觉算法在完成先进人机交互任务时常常面临挑战,这要求更加精确和可靠的绝对空间预测方法。
华南理工大学的一项研究提出了一种并行处理根相关网格与根恢复任务的网络模型。该模型能够从单目RGB图像中恢复相机空间内的3D手部网格。为了促进端到端的训练,研究团队使用了一种隐式学习方法来增强2D热图在不同子任务之间的兼容性,从而提高整体性能。
实验结果表明,该方法显著提升了模型在复杂环境和自遮挡场景下的预测能力。通过对大规模手部数据集FreiHAND的评估,团队验证了该模型的有效性,发现其性能与最先进的模型相当。
单目3D网格恢复的目标是从单幅图像中提取网格顶点的三维位置。精确的3D网格能够提升AR/VR技术的真实性,从而增强沉浸式体验并改善人机交互的交互性。
现有的3D手部网格恢复方法大多聚焦于与预定义根位置(例如手腕)相关的坐标,限制了其能够准确确定网格在相机空间中的绝对坐标,这对需要精确交互的任务(如远程手术)造成了障碍。
基于摄像机的手部网格恢复涉及3D重建与空间定位,但由于手部结构的多变性以及RGB图像的深度模糊,这一过程面临诸多挑战。大部分现有方法采取两阶段估计方案:第一阶段通过整合关键手势及其连接以捕获局部结构,第二阶段负责理解空间语义信息。
然而,这两阶段所用网络往往是独立且顺序运行的,这可能导致不必要的网络开销和训练效率低下。
此外,目前大多数方法普遍关注局部特征或全局背景,未能充分利用图像固有的尺度信息,结果是在复杂环境中的抗干扰能力和坐标定位精度大打折扣。
为了解决这一问题,研究人员提出了一种在复杂背景和自遮挡场景下生成精确且稳健的3D手部网格模型的方法。
他们的两阶段方法将手部网格恢复任务划分为相对根恢复与根恢复任务。相对恢复任务聚焦于手网格顶点相对于根节点的定位,而根恢复任务则采用边界框方法来确定手在空间中的位置。
与大多数现有方法不同,该模型将两个阶段所用的网络整合为一个,从而实现端到端的训练并降低了复杂度。相关方法采用编码器-解码器架构,以获取高分辨率的2D尺度聚合特征作为3D推理的基础线索。
该架构在多个领域中证明了其有效性,包括姿态重建和深度估计。此外,研究团队利用已建立的参数化手部模型MANO来增强推理能力。通过频谱卷积神经网络的应用,实现了非线性学习,从而利用网络拓扑中顶点间的关系进行局部手部形状的推断与重建,有效捕捉和利用了手模型内部的复杂空间关系。
为了解决训练中深度估计问题的收敛缓慢及局部最小值问题,研究团队将深度估计重新表述为“分类任务”。同时,引入注意机制以指导手部特征向深度层次信息的学习。通过利用注意力机制,模型得以选择性地关注相关的区域,从而高效地学习必要信息。
最终,结合采集到的信息,在相机空间中生成所需的3D网格表示。这种整合来自不同来源的信息的方式,使得手的3D网格重建得以准确实现。利用复杂背景和自遮挡场景的数据集FreiHAND,团队评估了所提出模型的性能,发现其表现与最先进的模型不相上下。
总体而言,研究团队提出了一种并行处理根相关网格与根恢复任务的网络模型,成功实现了在相机坐标空间中的3D手网格恢复。为了确保2D热图信息在不同子任务间的兼容性和有效利用,团队采用了隐式学习方法,在高级语义信息与精细细节之间取得了良好的平衡。
同时,团队设计了谱图卷积网络方法,提升了模型在复杂环境和自遮挡场景中的预测能力。将深度估计表述为分类问题的同时,整合的关注机制则结合了局部细节与全局特征。实验结果表明,该模型在根相关评估和相机空间评估方面表现优异,超过了当前3D手部网格恢复领域的众多先进方法。
该研究中提出的模式为预测绝对空间网格坐标建立了基础框架,支持端到端的两阶段预测,并显著简化了算法部署与管理的复杂性。未来的探索之一是通过构建轻量级深度神经网络来进一步优化模型,这将促进与移动设备的无缝集成,克服计算限制,同时确保高效的实时处理。