Meta、斯坦福大学用生成式AI实现3D空间环境人机交互，为AR/VR打开高水平动态人机交互大门

4,050 0

（XR导航网 2023年12月12日）斯坦福大学和Meta旗下的FAIR团队日前介绍了一种突破性的人工智能系统：仅根据文本描述就可以在虚拟人和物之间产生自然的同步运动。

这个新系统名为CHOIS（Controllable Human-Object Interaction Synthesis/可控人-物交互合成），而它采用最新的条件扩散模型技术来产生无缝和精确的交互，比如“把桌子举过头顶，走路，放下桌子”。

展望未来，以后的虚拟生物将可以像人类一样流畅地理解和响应语言命令，而系统可以从语言描述中生成连续的人机交互。

团队指出，在3D环境中合成人类行为对于计算机图形学、嵌入式人工智能和机器人技术等应用至关重要。尽管人类可以毫不费力地在环境中导航和执行任务，但这对机器人和虚拟人而言是十分艰巨的挑战，因为每一项任务都需要人、物和周围环境之间的精确协调。

在另一方面，语言是表达目的意图的有力工具。在语言和场景背景的指导下，合成逼真的人类和物体运动是构建先进人工智能系统的基石。

斯坦福大学和FAIR团队认为，尽管现在已有研究在探索人-场景交互问题，但它们仅限于具有静态对象的场景，忽略了日常生活中频繁发生的高度动态交互。另外，尽管业界最近在动态人-物交互建模方面取得了进展，但相关方法只关注较小的对象，或者缺乏操纵多种对象的能力。即便存在探索操纵更大尺寸的各种物体，但它们依赖于过去的交互状态序列或物体运动的完整序列，无法单独从初始状态合成物体运动和人体运动。

所以在CHOIS的研究中，团队专注于从语言和初始状态合成涉及更大尺寸的不同对象的逼真交互。

从语言描述生成连续的人机交互带来了数个挑战。首先，我们需要生成逼真和同步的物体和人体运动。在交互过程中，人的手应该与物体保持适当的接触，物体的运动应该与人的行为保持因果关系。

其次，3D场景中经常有大量的物体，限制了可行运动轨迹的空间。因此，交互合成必须适应环境的混乱，而不是在一个空场景的假设下操作。

对于CHOIS，团队重点研究了从自然语言命令合成三维环境中人-物交互的关键问题，在语言和稀疏物体路径点的指导下生成物体运动和人体运动。

运动应该与语言输入中指定的指令保持一致，同时符合由3D场景几何导出的航路点条件定义的环境约束。为了实现这一点，研究人员采用条件扩散模型来同时生成同步的物体和人体运动，条件是语言描述、初始状态和稀疏的物体路径点。

为了提高预测物体运动的准确性，在训练过程中加入了物体几何损失。另外，他们设计了在采样过程中应用的guidance term，以提高生成交互的真实感。

实验证明了学习交互合成模块在系统中的有效性，可以在给定语言描述和3D场景的情况下产生连续的逼真和情景感知交互。

通过条件扩散模型，CHOIS系统可以模拟生成详细运动序列。当给定人类和物体位置的初始状态，以及所需任务的语言描述时，CHOIS就能够生成一系列运动。

例如，如果指令是将灯移近沙发，CHOIS就会理解这个指令，并创建一个逼真的动画，令人类化身拿起灯并将其放在沙发附近。

使得CHOIS特别独特的是，它使用稀疏的对象路径点和语言描述来指导动画。路径点充当对象轨迹中关键点的标记，确保运动不仅在物理上合理，而且与语言输入概述的目标保持一致。

CHOIS的独特之处同时在于它将语言理解与物理模拟结合在一起。传统模型往往难以将语言与空间和物理动作联系起来，特别是在更长时间的交互范围内，它们必须考虑诸多因素才能保持真实性。

通过解释语言描述背后的意图和风格，然后将它们解读成一系列尊重人体和所涉及对象约束的物理运动，CHOIS可以弥合了这一差距。系统确保了接触点（如手触摸物体）可以准确地呈现出来，并且物体运动与虚拟人施加的力一致。

CHOIS系统可以对一系列的领域产生深远的影响，特别是在动画和虚拟现实领域。如果人工智能能够解释自然语言指令并生成逼真的人机交互，CHOIS可以大大减少制作复杂场景动画所需的时间和精力，而且在虚拟现实环境中，CHOIS可以带来更加身临其境的交互式体验，因为用户可以通过自然语言命令虚拟角色，并看到它们以逼真的精度执行任务。

这种高水平的交互可以将VR体验从僵硬的脚本事件转变为对用户输入做出真实响应的动态环境。

研究小组认为，他们的研究是朝着创造可以在不同3D环境中模拟连续人类行为的先进人工智能系统迈出的重要一步。它同时为进一步研究从3D场景和语言输入中合成人机交互打开了大门，并可能会在未来带来更复杂的人工智能系统。