苹果开源Depth Pro 0.3秒即可从2D图像生成高分辨率深度图

apple日前发布了一个全新的模型Depth Pro，能够显著提高机器感知深度的方式，并可能会改变AR等一系列不同的行业。

据悉，名为Depth Pro的系统能够在几分之一秒内从单个2D图像生成详细的3D深度图，无需依赖传统上进行这类操作所需的camera数据。

单目深度估计是一种仅使用一张图像推断深度的过程，而苹果新发布的Depth Pro是单目深度估计领域的一次重大飞跃，在实时空间感知是关键的领域，这可能会带来深远的影响，包括空间计算。团队将Depth Pro描述为同类系统中最快，最准确的系统之一。

单目深度估计一直是一项具有挑战性的任务，需要多个图像或像焦距这样的Meta来准确测量深度。但Depth Pro绕过了相关要求，在标准GPU上仅需0.3秒即可生成高分辨率深度图。模型可以创建225万像素的深度图，图像具有出色的清晰度，甚至可以捕获到其他方法经常忽略的微小细节，如头发和植被。

研究人员指出：“模型能够同时处理图像的整体背景和更精细的细节，与之前速度较慢、精度较低的模型相比，这是一个巨大的飞跃。”

苹果开源Depth Pro 0.3秒即可从2D图像生成高分辨率深度图

真正令Depth Pro与众不同的是它能够估计相对和绝对深度，这种能力称为“度量深度”。这意味着模型可以提供真实世界的测量，而这对于AR等应用至关重要，因为虚拟对象需要放置在物理空间中的精确位置。

另外，Depth Pro可以生成具有绝对比例尺的公制深度图，不需要对特定领域的数据集进行广泛的训练就能做出准确的预测，亦即zero-shot learning，这使得模型具有很强的通用性。它可以应用于广泛的图像，不需要深度估计模型中通常要用到的camera特定数据。

如果你想亲身体验，this page提供了实况演示。

研究人员指出：“理想情况下，这种方法应该在zero-shot状态下生成公制深度图，以准确地再现物体形状、场景布局和绝对比例。”

他们强调，模型有可能减少与训练更传统人工智能模型相关的时间和成本。

值得一提的是，深度估计中最棘手的挑战之一是处理所谓的“飞行像素”：由于深度映射的错误，像素看起来像是漂浮在半空中。Depth Pro解决了这个问题，使其对3D重建和虚拟环境等应用程序特别有效。

另外，Depth Pro在边界追踪方面表现出色，在清晰描绘对象及其边缘方面优于以前的模型。研究人员声称，它相较于其他系统“边界精度倍增”。

苹果已经将Depth Pro开源，具体请访问GitHub.

Depth Pro的发布可能会对AR等行业产生深远的影响，未来我们可以期待看到更多基于Depth Pro的创新应用。

The copyright of the article belongs to the author, please do not reprint without permission.

2wks ago

020

6mos ago

000

11mos ago

03,9520

11mos ago

05,2080

No comments

No comments...