苹果开源Depth Pro 0.3秒即可从2D图像生成高分辨率深度图

苹果日前发布了一个全新的模型Depth Pro，能够显著提高机器感知深度的方式，并可能会改变AR等一系列不同的行业。

据悉，名为Depth Pro的系统能够在几分之一秒内从单个2D图像生成详细的3D深度图，无需依赖传统上进行这类操作所需的camera数据。

单目深度估计是一种仅使用一张图像推断深度的过程，而苹果新发布的Depth Pro是单目深度估计领域的一次重大飞跃，在实时空间感知是关键的领域，这可能会带来深远的影响，包括空间计算。团队将Depth Pro描述为同类系统中最快，最准确的系统之一。

单目深度估计一直是一项具有挑战性的任务，需要多个图像或像焦距这样的Meta来准确测量深度。但Depth Pro绕过了相关要求，在标准GPU上仅需0.3秒即可生成高分辨率深度图。模型可以创建225万像素的深度图，图像具有出色的清晰度，甚至可以捕获到其他方法经常忽略的微小细节，如头发和植被。

研究人员指出：“模型能够同时处理图像的整体背景和更精细的细节，与之前速度较慢、精度较低的模型相比，这是一个巨大的飞跃。”

苹果开源Depth Pro 0.3秒即可从2D图像生成高分辨率深度图

真正令Depth Pro与众不同的是它能够估计相对和绝对深度，这种能力称为“度量深度”。这意味着模型可以提供真实世界的测量，而这对于AR等应用至关重要，因为虚拟对象需要放置在物理空间中的精确位置。

另外，Depth Pro可以生成具有绝对比例尺的公制深度图，不需要对特定领域的数据集进行广泛的训练就能做出准确的预测，亦即zero-shot learning，这使得模型具有很强的通用性。它可以应用于广泛的图像，不需要深度估计模型中通常要用到的camera特定数据。

如果你想亲身体验，这个页面提供了实况演示。

研究人员指出：“理想情况下，这种方法应该在zero-shot状态下生成公制深度图，以准确地再现物体形状、场景布局和绝对比例。”

他们强调，模型有可能减少与训练更传统人工智能模型相关的时间和成本。

值得一提的是，深度估计中最棘手的挑战之一是处理所谓的“飞行像素”：由于深度映射的错误，像素看起来像是漂浮在半空中。Depth Pro解决了这个问题，使其对3D重建和虚拟环境等应用程序特别有效。

另外，Depth Pro在边界追踪方面表现出色，在清晰描绘对象及其边缘方面优于以前的模型。研究人员声称，它相较于其他系统“边界精度倍增”。

苹果已经将Depth Pro开源，具体请访问GitHub。

Depth Pro的发布可能会对AR等行业产生深远的影响，未来我们可以期待看到更多基于Depth Pro的创新应用。

文章版权归作者所有，未经允许请勿转载。

10一个月前

02,7280

1年前

03,5360

2一个月前

020

4一个月前

030

暂无评论

暂无评论...