(XR导航网资讯)谷歌在今天召开的I/O开发者大会中展示了名为Project Astra的项目,并演示了响应式人工智能运行在智能眼镜的效果。他们表示,Project Astra是一个“能看见且能说话的响应式代理”。
不过,谷歌并未透露太多具体信息,在采访中也没有提供更多细节。
谷歌在一篇相关博文中写道:“谷歌DeepMind的使命是负责任地开发人工智能,造福人类。作为这一使命的一部分,我们一直致力于开发一款在日常生活中有所帮助的通用人工智能代理。因此,今天我们通过Project Astra(一款先进的、能看见且能说话的响应式代理)分享了我们在打造未来人工智能助手方面的进展。”
从以上视频中可以看到,Project Astra由两个部分组成,每部分都是实时一镜头拍摄。在前半部分,戴着智能眼镜的女性主要通过智能手机与人工智能代理进行互动。而后半部分中,女性直接通过智能眼镜与人工智能代理互动。
视频显示,这款眼镜具有图形叠加功能。回答问题时,眼镜会在用户视野中同时显示相关的文字转录和信息。不过,当前模型存在一定的延迟,无法即时应答。
谷歌解释称,为了真正发挥作用,智能代理需要像人类一样理解复杂、动态的世界,并做出反应,能够吸收并记住所见、所听的一切,以理解情景并采取行动。同时,它需要具备主动性、可教性和个性化,这样用户就可以自然地与之对话,而不会出现延迟。
虽然团队在开发能够理解多模态信息的人工智能系统方面取得了令人难以置信的进展,但将响应时间降低到对话级别是一项艰巨的工程挑战。近年来,谷歌一直在努力改进模型如何感知、推理和对话,以确保互动的速度和质量更加自然。
在Gemini的基础上,研究人员开发了一个原型代理,可以通过连续编码视频帧更快地处理信息,将视频和语音输入结合到事件的时间轴中,并缓存它们以便有效回忆。
通过利用领先的语音模型,谷歌进一步增强了智能代理的发音,为其提供更广泛的语调范围。最终,这种智能代理可以更好地理解周围环境,并快速响应对话。
谷歌总结说:“有了这样的技术,我们很容易想象未来:人们通过手机或眼镜将拥有一个专业的人工智能助手。”