(XR导航网 2023年12月07日)今年是Meta(原Facebook)的Fundamental AI Research(FAIR)基础人工智能研究团队成立10周年。在名为《庆祝十年人工智能创新+ AR/VR的未来》的一文中,团队谈到了人工智能的潜力及其在AR/VR未来中的作用。下面是具体的整理:
FAIR正通过引入新的模型、数据集和跨越音频生成、以及多模态感知的更新来庆祝成立10周年这个里程碑。这同时提醒着我们,尽管人工智能可能是当今的热门话题,但它多年来一直是我们公司DNA的一部分。
Meta首席技术官兼Reality Labs负责人安德鲁·博斯沃思(Andrew Bosworth)表示:“从Facebook成立之初就很十分明显,人工智能将成为我们公司最重要的技术之一,甚至可能是最重要的技术。”
实际上,博斯沃思恰好是公司聘用的第一位人工智能员工。博斯沃思回忆道:“我能够设计和构建我们的第一个基于启发式的News Feed系统,然后是通过Coefficient算法构建的机器学习系统。当然,我的人工智能知识很快就过时了。记得当我在教马克(首席执行官扎克伯格)的时候,人们认为神经网络是一个死胡同。我们把它当作一项局限性已经暴露出来的曾经伟大的技术。当然,几年后当我开始从事广告工作时,神经网络的革命已经成熟。我非常高兴与我们的团队研发我们的第一个稀疏神经网络实现和Pytorch。”
在人工智能的早期,整个科技行业都非常兴奋,开启了建立尖端人工智能团队的竞赛。但马克·扎克伯格很早就决定把一个基础性人工智能研究实验室作为公司人工智能工作的核心。
博斯沃思指出:“从2013年开始,FAIR为人工智能行业研究实验室设定了全新的标准。我们优先考虑公开研究,与整个研究业界合作,并且我们发表并开源了我们的大部分工作,这加快了每个人的进步。”
在一年内,FAIR开始发布其工作成果。2017年,PyTorch开源,并迅速成为用于在研究和生产中构建尖端人工智能的通用框架。从Feed排名和内容推荐到相关广告的交付,图像和贴纸生成,以及你可以与之互动的人工智能,人工智能已经开始影响Meta的业务和最重要的战略重点。
博斯沃思表示:“尽管这项工作令人兴奋,但它依然处于起步阶段。它不仅将在我们今天拥有的产品中发挥重要作用,而且将在以前不可能的产品中发挥重要作用,当然包括可穿戴设备和增强现实领域的产品。我们在所述领域的愿景实际上取决于人工智能,它能够真正理解我们周围的世界,并预测我们的需求。我们相信,这种情境化人工智能将成为继PC之后的第一个真正新计算平台的基石。”
首席科学家迈克尔·亚伯拉什(Michael Abrash)补充道:“我在过去十年里的大部分时间都用于来领导旨在创建一种基于AR/VR的新型计算平台的研究工作,而Reality Labs的其他成员则致力于确保所述平台成为现实。这是Meta对未来技术的两大长期押注之一,另一个当然是人工智能。在我们庆祝FAIR成立10周年之际,看到这两项长期投资如何以一种如同科幻小说的方式结合在一起,我感到非常兴奋。”
1957年,约瑟夫·利克莱德首次提出了人机共生的愿景,即计算机与人类合作,完成人类不擅长的工作,从而将我们解放出来,令我们变得更有创造力。这一愿景最终使得一批人才聚集在施乐帕洛阿尔托研究中心,并于1973年推出了Alto电脑,而紧接而来的则是1984年的Mac电脑。
亚伯拉什说道:“以人为本的计算机革命已经变得如此无所不包,我甚至不需要问你是不是。我确信你们每个人都在使用Alto的直系后代,而现在你们身边就有一个小型化的版本(手机)。我们生活在利克莱德创造的世界里。尽管这种人机交互模型很强大,但相对于人类吸收信息和采取行动的能力而言,它依然受到了极大的限制。”
尽管人类通过我们的六种感官从我们周围的3D环境中接收信息,但数字世界往往只能通过尺寸太小的2D屏幕来访问。
亚伯拉什解释道:“今天的2D模型只是触及了我们感知和能力的表面。相比之下,AR眼镜和VR头显可以以接近现实的方式驱动你的感官。这有可能使得人类无视距离而真正地彼此共在。在极限情况下,它可能有一天允许人类拥有他们任何体验,而这本身就会改变世界。”
有了情景式人工智能,一种永不疲倦、随时可用的主动助手,AR眼镜和VR头显可以帮助你实现目标,增强你的感知、记忆和认知能力,令你的生活变得更轻松、更高效。
亚伯拉什指出:“这在以前是不可能的,因为以前没有一种设备可以从你的视角来感知你的生活。我相信这可能最终成为AR/VR革命最重要的方面。就像图形用户界面GUI是我们今天与数字世界交互的方式一样,情境式人工智能将是未来的人机界面,并将比GUI更具变革性,因为它直接触及帮助我们以自己想要方式生活的核心。”
这种转变现在已经开始发生。经过十年的研究,各个环节正在整合在一起。明年,当Meta将多模态人工智能带到Ray-Ban Meta智能眼镜,并使用Ego-Exo4D基础数据集进行视频和多模态感知研究时,你将能瞥见未来。但这仅仅是个开始。未来完整的情境人工智能系统需要各种各样现在根本不存在的技术。
亚伯拉什表示:“我过去总会想象努力着努力着,然后有一个方框说‘奇迹发生了’。然后在过去的几年里,奇迹真的发生了。大型语言模型LLMs出现了,它具有处理多模态推理所需的潜力,可以理解用户的目标,并根据情景和历史帮助他们实现目标。关键在于,LLMs有可能在视觉、音频、语音、眼动追踪、手动追踪、肌电图和其他情景输入、你的历史和广泛的世界知识之间进行推理,然后采取行动帮助你实现目标,在需要的时候引导你或消除歧义。为了实现这一潜力,LLMs需要带到一个不同的层次,而FAIR是实现这一目标的理想团队。作为一个整体,FAIR的人工智能研究与Reality Labs的AR/VR研究的融合汇集了创建情景式人工智能界面所需的所有元素,而这将会完全实现Meta对未来的愿景。”