(XR导航网 2024年07月30日)早在2021年5月的I/O大会上,谷歌就已亮相光场显示项目Project Starline,它本质上是一个3D视频聊天室。凭借光场技术,Project Starline可以营造一种对方仿佛亲身坐在你对面一样的临场感。这个突破性的远程通信工具结合了谷歌在硬件和软件方面的进步,旨在提升朋友、家人和同事实现远程共在时的临场感。
同样利用英伟达的Maxine 3D与NVIDIA ACE,全息技术公司Looking Glass也展示了一种类似的远程通话平台。
、
近期,英伟达展示了NVIDIA Maxine AI开发者平台的最新进展,包括Eye Contact NIM微服务以及Audio2Face-2D。
Maxine 3D和NVIDIA ACE为众多开发者和应用程序带来了逼真的数字人类。它可以使用实时的,照片真实的3D Avatarl来支持视频会议。
英伟达创新的最前沿之一包括Maxine 3D。这项突破性的技术可以实时无缝地将2D视频肖像输入转换为身临其境的3D Avatar。这一进步允许你使用商用视频会议设备将3D Avatar集成到实时双向通信中。
NVIDIA Maxine正在推动虚拟事件空间和视频会议等沉浸式环境中采用虚拟远程呈现技术。它可以利用NVIDIA RTX渲染逼真,超逼真的视觉效果,并承诺通过将标准2D视频输入转换为动态3D化身来重新定义用户体验。
Looking Glass的联合创始人兼首席执行官肖恩·弗莱恩(Shawn Frayne)表示:“NVIDIA Maxine使得我们离实现自Looking Glass成立以来的梦想更近了一步:在物理空间之间进行虚拟全息传送。有了Maxine,我们现在有能力将任何2D视频馈送转换为身临其境的,高保真3D全息体验,不再需要复杂的摄像头设置。”
Looking Glass一直在与NVIDIA Research合作,使用全息3D显示器创建一个创新的视频会议平台。本次合作使用了包括NVIDIA RTX 6000 Ada gpu和Maxine 3D在内的英伟达技术。多名用户能够同时体验真实的3D全息内容。
目前提供了抢先体验版访问的Maxine 3D主要采用人工智能,神经重建和实时渲染来制作高度逼真的数字化身。通过利用神经辐射场NeRF,它可以从单个2D图像中重建详细的3D视角。
通过与Audio2Face-2D技术集成,Maxine可以将2D化身提升为身临其境的3D表示。这种突破性的能力允许你塑造与现实世界相似的数字人,从而丰富虚拟会议、娱乐等方面的体验。
Eye Contact NIM和Audio2Face-2D预览版发布
Maxine的两个最受欢迎的功能,Eye Contact NIM和Audio2Face-2D现在已经可用。
Eye Contact NIM提供了直接的眼神交流,从而增强了虚拟会议的参与度和存在感。Audio2Face-2D则能够基于音频输入将静态肖像动画化,从单个图像创建动态的,会说话的Avatar。
随着视频和音频技术的不断发展,团队正在引入一系列新的和增强的功能,从而增强用户体验:
视频重新照明
工作室的声音效果
背景降噪2.0
Maxine hosted API
Maxine Video Rellighting微服务使用3D HDR内容映射实现实时照明,使前景照明与各种背景和环境无缝匹配。视频重照明使用人工智能实时改善照明条件,确保拍摄对象始终处于最佳状态,无论其物理环境或虚拟背景如何都具有匹配的逼真照明。这个功能对于在各种次优照明情况下保持最佳外观特别有用。
工作室的声音效果:最新版本的Studio Voice在质量和性能方面都有了显著的改进,并首次实现了实时通信。这一进步为使用低延迟模型的日常视频会议设置带来了工作室质量的音频。
背景降噪2.0:背景降噪2.0设定了音频清晰度的新标准,有效地消除了背景噪声,同时保留了语音的自然质量。这个功能对于在不同的环境中保持清晰的沟通至关重要。当与自动语音识别ASR技术结合使用时,这个模型特别有用,可以减少转录错误。
赋能开发者和行业
NVIDIA Maxine是一个全面的平台,旨在帮助你创建用于远程呈现和数字人类创作的下一代应用程序。
通过提供相关工具,英伟达希望帮助从娱乐和游戏到医疗保健和教育等行业都能够使用人工智能驱动的通信技术的强大功能。这个平台能够从2D输入中创建身临其境的3D体验,而这对于蓬勃发展的数字人力市场尤为重要。