研究员利用HoloLens 2实现基于3D Gaussian Splatting的即时3D场景重建技术 – XR导航网资讯

HoloLens7mos agoupdate firefly
2 0
研究员利用HoloLens 2实现基于3D Gaussian Splatting的即时3D场景重建技术 - XR导航网资讯

(XR导航网资讯)在摄影测量、计算机视觉和计算机图形学领域,神经三维场景重建的任务带来了针对各种技术的探索。其中,3D Gaussian Splatting因其使用3D Gaussians对场景的显式表示而脱颖而出,并使其对3D点云提取和曲面重建等任务具有吸引力。

受其潜力的激励,德国卡尔斯鲁厄理工学院的一支团队把目光投向3D场景重建领域,并希望利用MicrosoftHoloLens 2的功能实现即时3D Gaussian Splatting。

在研究中,团队介绍了一种利用HoloLens传感器数据的全新工作流程HoloGS。它通过即时访问所需的输入数据(图像、camera姿态和深度传感的点云)来绕过了预处理步骤的需要。研究人员提供了全面的调查,而结果表明,HoloLens数据适合作为3D Gaussian Splatting的输入。

研究员利用HoloLens 2实现基于3D Gaussian Splatting的即时3D场景重建技术 - XR导航网资讯

NeRFs可以通过神经网络对空间中的3D场景进行所谓的视图合成,从而渲染出新颖视图。神经网络基于一组图像和相应的camera姿态进行训练,并估计每个位置的位置相关密度值和视图相关RGB颜色值。通过连续空间中点的体积密度,可以提取几何形状。

然而,这需要密度阈值等技术或其他从连续神经网络输出生成显式3D重建的方法,而密度具有固有的不确定性。最常见的是,Structure from Motion(SfM)用于计算在预处理步骤中训练NeRFs所需的内部方向和camera姿态。

作为SfM的替代方案,业界已证明微软HoloLens是一个有趣的接口,因为它可以提取所需的输入数据,图像和相应的姿态。另外,它已经证明了作为绘图系统的有效性,并能够实现实时,高度详细,彩色,3D场景重建和移动映射。

关于3D场景重建,特别是3D Gaussian Splatting,由于其使用3D Gaussian显式表示场景而表现突出。在优化过程中,Gaussian致密化和调整适应,经历增长、收缩和颜色和形状的调整,直到渲染图像和训练图像之间的光度误差变得最小。与NeRFs的连续亮度场表示相反,Gaussian显式表示场景几何形状,从而可以直接访问它。

当涉及到摄影测量和3D计算机视觉时,这对于3D点云提取和表面重建特别有趣。与大多数NeRFs方法相比,3D Gaussian Splatting需要以点云的形式进一步输入数据,这通常使用来自SfM的稀疏点云。

这个点云用来初始化Gaussian。所以,需要进行预处理和计算步骤,从图像中计算camera姿态和稀疏点云。对于这一点,微软HoloLens再次变得重要起来。除了RGB图像及其相应的camera姿态外,HoloLens同时提供深度图像和相应的camera姿态,而图像可以转换为所需的点云。

这可以实现即时3D场景重建与3D Gaussian Splatting,无需额外的耗时预处理步骤。

在研究中,德国卡尔斯鲁厄理工学院提出了HoloGS,以利用Microsoft HoloLens 2数据并通过3D Gaussian Splatting进行即时3D场景重建。

这是直接基于传感器信息完成,因为HoloLens能够访问所需的输入数据,即图像、camera姿态和实时深度传感的点云。团队研究了HoloLens的数据质量是否足以进行3D Gaussian Splatting。为了评估工作流程,研究人员同时遵循传统的管道,使用COLMAP来估计camera姿态和稀疏点云。

相关分析包括检查训练过程,并通过使用峰值信噪比(PSNR)和光度损失来评估结果的渲染质量。另外,他们利用云到云的倒角距离,定量和定性地报告了从高斯中心得到的致密点云的几何三维精度。所以,研究人员设想(稀疏)输入点云的重新填充,类似于MultiView Stereo的后处理步骤。

实验证明了基于微软HoloLens 2数据的HoloGS适合作为3D Gaussian Splatting的输入。渲染的图像合理地反映了几何和外观。另外,HolGS通过从高斯中心提取密集的点云来实现填充。

方法

如前所述,标准工作流程使用SfM在预处理步骤中确定camera姿态和稀疏点云。SfM一般描述了由一组图像重建三维场景的过程,其中图像是由运动中的camera从不同的方向和位置拍摄。它依赖于重叠图像序列中点对应的计算和匹配。最终的结果是camera姿态,camera intrinsic,以及稀疏点云。

另外,基本的SfM稀疏点云允许以MVS管道进行密集重建,从而使SfM点云更加致密。研究人员将MVS密集重建作为参考点云进行比较。

研究将来自3D Gaussian Splatting的原始实现的(增量)SfM技术用于camera姿态和稀疏点云的外部数据计算。这个过程使用相同的HoloLens RGB图像进行,以确保与内部数据方法相似的统一条件。

如最上方的图1所示,对于直接使用微软HoloLens 2的3D Gaussian Splatting进行即时3D场景重建,HoloGS主要针对三个步骤:传感器流、实时点云计算和即时3D Gaussian Splatting。

HoloLens 2服务器应用用于请求微软HoloLens 2中的数据。系统提供对HoloLens 2所有传感器的访问,包括来自1920 × 1080摄像头的RGB图像、内部方向(camera intrinsic)和相应的camera姿态,以及用于深度图像和相应姿态的深度传感器。

首先,通过HoloLens的传感器流,在数据采集过程中查询并提取传感器系统的RGB图像和相应的camera姿态,包括内部方向和深度图像及其camera姿态。

其次,根据深度摄像头的内部方向和深度信息,计算深度图像中每个像素对应的三维点,将深度图像转化为三维点云。点云随后通过camera姿态合并成一个联合点云。

最后,将需要的数据,即对应camera姿态的RGB图像和从深度信息变换到RGB camera坐标系的点云,作为初始数据馈送到3D Gaussian Splatting。在这种情况下,RGB图像作为训练数据,通过最小化渲染图像与相同camera姿态的真实图像之间的光度误差来优化高斯分布。

由深度信息得到的点云的三维点构成初始高斯分布的中心。Gaussian在默认参数上进行训练,球面谐波特征的学习率为0.0025,不透明度调整为0.05,缩放操作为0.005,旋转变换为0.001,而训练包含在NVIDIA RTX3090 GPU的30000次迭代。

优化的光度损失由以下损失函数1给出:

研究员利用HoloLens 2实现基于3D Gaussian Splatting的即时3D场景重建技术 - XR导航网资讯

如上所述,来自外部SfM或来自HoloLens内部深度信息的点云作为初始高斯分布。通过Gaussian Splatting的优化过程,根据图像的颜色信息生成附加点。在这个过程中,Gaussian 会增长、分裂、收缩或移除。在此基础上,设想对稀疏输入点云进行重新填充,类似于MVS的后处理步骤。

特别是,由于SfM稀疏点云只是基于SIFT点对应的特征来创建,顾名思义,它是相对稀疏的。经过3D Gaussian Splatting训练后,可以提取出密度较高、优化后的点云。假设包含颜色的3D信息同样作为场景中的实际几何存在,研究人员将高斯分布的中心(表示每个高斯分布的平均值)视为方法中的3D几何。

数据集

实验基于微软HoloLens 2捕获的两个数据集:一个是文化遗产雕像的户外场景“Denker”,另一个是室内场景“Ficus”。

研究员利用HoloLens 2实现基于3D Gaussian Splatting的即时3D场景重建技术 - XR导航网资讯

这两个数据集都包含111张图像,每张图像大小为1920 × 1080,其中掩盖了3米以上的深度信息。输入数据的不同初始化类型产生不同的点云:SfM稀疏点云包含超过40000个点,HoloLens深度图像的点云包含超过620000个点。

研究员利用HoloLens 2实现基于3D Gaussian Splatting的即时3D场景重建技术 - XR导航网资讯

实验

团队使用PSNR来评估训练过程。图4显示了迭代过程中PSNR和训练损失的变化。

研究员利用HoloLens 2实现基于3D Gaussian Splatting的即时3D场景重建技术 - XR导航网资讯

研究表明,采用内部HoloLens数据的HoloGS可以实现相对平滑的3D Gaussian Splatting收敛。收敛发生在大约25000次迭代之后,场景“Denker”达到20.55 dB左右的最大PSNR,场景“Ficus”达到20.17 dB左右。

研究员利用HoloLens 2实现基于3D Gaussian Splatting的即时3D场景重建技术 - XR导航网资讯

值得注意的是,两种场景的HoloLens数据都能迅速实现收敛。相比之下,使用外部SfM数据产生更高的PSNR值,场景“Denker”为27.54 dB,场景“Ficus”为26.21 dB。相反,在训练过程中,内部HoloLens数据的损失高于外部SfM数据。

有趣的是,曲线显示了每3000次迭代到15000次迭代的峰值。峰值可以用Gaussian Splatting的密度调节技术来解释。所述技术将每3000次迭代的不透明度值设置为接近零,这可能导致高斯密度的不合理增加。

研究员利用HoloLens 2实现基于3D Gaussian Splatting的即时3D场景重建技术 - XR导航网资讯

图5的渲染结果与训练过程中得到的数值结果非常接近。特别是,在预处理过程中计算的外部SfM数据显示出显着提高的性能。对于场景“Denker”,HoloGS对雕像本身产生了令人满意的结果,与SfM数据得出的结果相当。在场景“Ficus”中,HoloGS准确地呈现植物的精细结构。

总的来说,HoloGS通常会导致场景中物体的边缘模糊。另外,场景中同时可以识别出大的、模糊的漂浮物。相比之下,对于外部SfM数据,伪影只在有限的区域明显,例如场景“Denker”中雕像头部上方,以及场景“Ficus”中天花板上的未被观察到的区域。

研究员利用HoloLens 2实现基于3D Gaussian Splatting的即时3D场景重建技术 - XR导航网资讯

研究人员提取在训练过程中产生的致密点云。提取的高斯密度点云说明了外部SfM数据和内部

© Copyright notes

Related posts

No comments

none
No comments...