利用Gaussian Splatting，Meta为Codec Avatar实现头部的高保真重照明

4,480 0

（XR导航网 2023年12月09日）自出世以来便迅速吸引了业界的关注，3D Gaussian Splatting的主要优点是在保证高重建质量的同时支持传统光栅化，而且优化速度快速。

自2019年正式公开介绍旨在创建图片真实感虚拟数字人的Codec Avatar项目以来，Meta就一直在积极探索各种优化方式。在日前公布的一项研究中，团队已经开始利用Gaussian Splatting来提升Avatar的逼真程度，主要涉及重照明。

Avatar的重照明非常具有挑战性。我们的视觉感知对面部表情非常敏感。要令视觉系统信服，我们需要对头部的每个部分进行足够详细的建模，并确保与环境保持一致。这种合成通常需要实时执行。

用令人信服的细节实时重新照明可动画人类头部依然是一个重大的挑战。原因有三个。第一个挑战是，人类的头部是由高度复杂和多样化的材质组成，它们会表现出不同的散射和反射特性。例如，皮肤由于微观几何结构和显著的次表面散射而产生复杂的反射，头发由于其半透明的纤维结构而表现出多次反射的面外散射，眼睛则具有多层高反射膜。总的来说，没有单一的材质表示可以准确地表示所有这一切，特别是对于实时情况。

另外，运动中的底层几何形状的精确追踪和建模极具挑战性，因为变形并不总是包含足够的视觉标记来进行追踪。最后，实时性的要求严重限制了算法的设计。传统而言，增加真实感会导致传输光线和追踪运动的成本呈指数增长。

Meta的目标是设计一个在任何空间频率的照明下，都能构建具有精确散射和反射的实时可渲染头部Avatar的学习框架。给定使用光台获得的详尽测量，基于物理的渲染方法可以泛化到新的照明。然而，将所述方法扩展到动态性能捕获和非皮肤部分（如头发和眼球）依然非常重要。

同时，获取足够精确的几何形状和材质参数是一个费力的过程。最近，神经重照明方法回避了对精确几何和材质建模的需要，只使用神经网络和使用网格、体积原语和神经场的近似几何来建模输入（即照明）和输出（即输出亮度）之间的直接关系。

尽管相关结果相当出色，但现有的方法由于几何和外观表示的表达性不足而导致性能不佳。特别是，没有一种方法能在头发和眼睛实现全频率反射，而且像发丝这样的亚毫米薄结构经常会变得模糊，使得头发的渲染效果不如照片真实。

为解决上述问题，Meta提出三点建议：

基于3D Gaussian的可驱动Avatar，可以有效地渲染复杂的几何细节
基于Learned Radiance Transfer的可照明外观模型，支持实时的全局光传输和全频率反射
可照明的显式眼睛模型，首次以完全数据驱动的方式，从其他面部运动和全频率的眼睛反射中分离出视线控制。

利用Gaussian Splatting，Meta为Codec Avatar实现头部的高保真重照明

研究人员提出的几何表示是基于3D Gaussian，可以使用Splatting实时渲染。为了实现可驱动的Avatar，团队使用2D卷积神经网络在模板头部的共享UV空间解码3D Gaussian信号。

他们以类似于传统Codecs的自监督方式对面部表情等驱动信号进行编码。这使得能够以一种具有复杂几何细节（如头发）的时间连贯方式追踪移动的头部。

在外观方面，受预计算的Radiance Transfer的启发，Meta引入了一种基于可学习Radiance Transfer的可照明外观模型，其中模型是由漫射球面谐波和镜面球面Gaussian组成。然后，学习用动态球谐系数来参数化每个3D Gaussian的漫射Radiance Transfer。这种transfer预卷积了可见性和全局光传输，包括多次反射和次表面散射。

对于镜面反射，研究人员引入了一种新的球面Gaussian参数化函数。所述函数具有视相关可见度，可以有效地近似于遮挡、菲涅耳和几何衰减的综合效应，无需明确估计单个贡献。

团队提出的镜面Gaussian lobe与反射矢量对齐，并使用视图方向和每Gaussian视图相关的法线计算。最重要的是，球面Gaussian支持高分辨率照明下的全频率实时反射。漫射和镜面表示都满足光传输的线性，因此支持在点光源和环境照明下的实时渲染，无需额外的训练。

另外，提出的可学习Radiance Transfer支持全局光传输和眼睛、皮肤和头发的全频率反射，具有统一的表示，显着简化了学习过程，同时实现了极高的高保真重照明。

为了再现角膜反射，团队的可重照明Gaussian Avatar结合了一个显式眼睛模型，可以显式地控制眼球，从而更好地解除纠缠。另外，外观模型自然地支持用全频率反射重新照亮眼睛，而这对于自然环境下的真实感至关重要。

实验表明，3D Gaussian模型与重光照外观模型的组合优于任何其他组合。

总的来说，团队提出的Relightable Gaussian Codec Avatars是一种支持实时渲染并用于可重照明头部Avatar的新颖外观和几何表示。实验表明，利用所提出的由球面谐波和球面高斯组成的Radiance Transfer basis，现在可以在全频率照明中实时对头发、皮肤和眼睛进行高保真重照明。团队进一步表明，基于3D Gaussian Splatting的几何表示的选择对于精确的头发重建和重光照至关重要。与现有的实时可渲染几何和外观模型相比，团队的方法在定性和定量上都取得了显著的质量改进。