微软AR/VR专利揭示了一种提升图像对齐效率的方法 – XR导航网报道

（XR导航网资讯）如果大家有关注微软的专利探索，这家公司曾提出一种集成式摄像头/系统摄像头+分离式摄像头/外部摄像头的系统理念。其中，集成式摄像头/系统摄像头是指物理集成到头显的摄像；分离式摄像头/外部摄像头则是指与头显分离式摄像头。

例如在一个的场景中，可以将分离式摄像头捆绑或以其他方式放置在用户的胸部。在另一个场景中，分离式摄像头可以不放置在用户的身体上，而是由用户握持或者安装在自拍杆或另一种类型的延长杆上。

集成式摄像头+分离式摄像头的设置可以提升头显的扫描范围和质量，优化全息图的放置和生成。但显然，对于这种图像合并和叠加，系统需要对齐两个摄像头的内容，并实现快速目标捕获。

在名为“Image alignment using staggered feature extraction”和“Aggregating features from multiple images to generate historical data for a camera”的专利申请中，微软介绍了用于提高图像对齐效率的方法。

这两份发明属于同一解决方案，只是侧重于保护不同方面。前者涉及使用交错特征提取进行图像对齐；后者涉及从多个图像中聚合特征，从而为摄像头生成历史数据。

微软AR/VR专利揭示了一种提升图像对齐效率的方法 - XR导航网报道

图3示出建筑物300、第一响应者305和另一第一响应者310。在这个示例场景中，第一响应者305和310希望测量建筑物300。图4显示了执行策略操作的一个示例技术。

微软AR/VR专利揭示了一种提升图像对齐效率的方法 - XR导航网报道

图4显示了在400A环境中佩戴头显400的第一响应者。头显400包括一个系统摄像头405。此外，第一响应者正在使用包括外部摄像头415的工具410。

在图中，工具410是一个抓钩枪，它可以发射一根绳子和钩子到建筑物上。通过将外部摄像头415生成的图像内容与系统摄像头405生成的图像内容对齐，用户将能够更好地辨别工具410瞄准的位置。

微软AR/VR专利揭示了一种提升图像对齐效率的方法 - XR导航网报道

图5示出安装在头显的第一摄像头500，其中第一摄像头500代表图4的系统摄像头405。应当注意，第二摄像头505的光轴是如何与工具的瞄准方向对齐。所以，由第二摄像头505生成的图像可用于确定工具的瞄准位置。

在图5中，第一摄像头500和第二摄像头505都瞄准目标510。注意，第一个摄像头的FOV 515比第二个摄像头的FOV 520大。通常，第二个摄像头505提供了一个非常对焦的视图，类似于瞄准镜，即高水平的角度分辨率。

有必要将从外部摄像头获得的图像与系统摄像头生成的图像重叠并对齐，以生成重叠并对齐的图像。两个图像之间的重叠使得系统能够生成多个图像，然后将来自一个图像的图像内容叠加到另一个图像之上，以便生成具有增强特征的复合图像或叠加图像。

例如，系统摄像头图像提供宽视场，而外部摄像头图像为对焦区域（即工具瞄准的瞄准区域）提供高分辨率和像素密度。通过结合两幅图像，得到的图像将具有宽视场和瞄准区域高像素密度的优点。

应当注意，尽管本文主要介绍了两个图像的对齐，但发明能够对齐来自具有重叠区域的两个以上图像的内容，亦即不限于仅两个图像或两个摄像头。

作为另一个例子，假设系统摄像头为弱光摄像头，进一步假设外部摄像头为热成像摄像头。实施例能够选择性地从热成像摄像头图像中提取图像内容，并将所述图像内容叠加到所述弱光摄像头图像。

在这方面，热成像内容可用于增强或补充弱光图像内容，从而向用户提供增强图像。另外，由于外部摄像头相对于系统摄像头具有更高的分辨率，所得到的叠加图像将为外部摄像头图像中的像素叠加到系统摄像头图像的区域来提供更高的清晰度。

可以使用不同的技术来执行对齐。一种技术是“视觉对齐”技术，这涉及到特征点的检测。另一种技术是基于IMU的技术，它根据各自摄像头的确定姿势对图像进行对齐。视觉对齐技术通常产生更准确的结果。

关于视觉对齐技术，为了合并或对齐图像，实施例能够分析纹理图像以试图找到任意数量的特征点。

任何类型的特征检测器都可以编程来识别特征点。在一个实施例中，特征检测器可能是机器学习算法。

根据发明的原理，实施例检测任意数量的特征点，然后尝试识别在系统摄像头图像中检测到的特征点与在外部摄像头图像中识别的特征点之间的相关性或对应关系。

然后，实施例将特征或图像对应拟合到运动模型，以便将一个图像叠加到另一个图像，以形成增强的叠加图像。可以使用任何类型的运动模型。一般来说，运动模型是一种转换矩阵，它使模型、已知场景或对象能够投影到不同的模型、场景或对象之上。特征点作为图像重投影时的参考点。

在一个实施例中，运动模型可能只是一个旋转运动模型。使用旋转模型，实施例能够将一个图像移动任意数量的像素，以便将一个图像叠加到另一个图像上。

例如，一旦识别了图像对应，实施例可以识别特征点或对应的像素坐标。一旦确定了坐标，则实施例可以使用上述旋转运动模型方法将外部摄像头瞄准具的图像叠加到头显摄像头的图像。

另一种对齐图像的技术包括使用IMU数据来预测系统摄像头和外部摄像头的姿势。一旦估计或确定了这两个姿势，实施例可以使用姿势来将图像的一个或多个部分彼此对齐。

一旦对齐，则将一个图像的一个或多个部分叠加到另一个图像的相应部分之上，从而生成增强的覆盖图像。在这方面，IMU可以用来确定相应摄像头的姿势，然后姿势可以用来执行对齐过程。

微软AR/VR专利揭示了一种提升图像对齐效率的方法 - XR导航网报道

图8示出所得到的叠加图像800，图像800包括系统摄像头图像805和外部摄像头图像810。提供增强的叠加图像800允许快速目标获取，如图9中的目标获取900所示。

微软AR/VR专利揭示了一种提升图像对齐效率的方法 - XR导航网报道

换句话说，可以以一种快速的方式获得目标，即工具精确地瞄准期望的目标，因为用户不再需要花时间通过工具的瞄准镜查看相关区域。

微软AR/VR专利揭示了一种提升图像对齐效率的方法 - XR导航网报道

图10显示了所讨论图像的抽象版本，并着重于视觉对齐方法。具体地，图10示出具有特征点1005的第一摄像头图像1000和具有与特征点1005对应的特征点1015的第二摄像头图像1010。所述实施例能够使用特征点1005和1015在第一摄像头图像1000和第二摄像头图像1010之间执行视觉对齐1020。

视觉对齐1020可通过重投影1020A操作来执行。其中，将包含在第一摄像头图像1000中的姿态1020B和/或包含在第二摄像头图像1010中的姿态重投影到新位置，以使图像之一与另一图像对齐。

可以使用运动数据来促进重投射1020A。例如，可以收集IMU数据来描述在拍摄第一摄像头图像1000的时间和拍摄第二摄像头图像1010的时间之间发生的任何移动。然后，IMU数据1020C可用于转换运动模型1020D，以执行重投影1020A。

视觉对齐1020还可以依赖于确保来自第二摄像头图像1010的特征的阈值1020E数量对应于在第一摄像头图像1000中发现的类似特征。

执行视觉对齐1020的结果是产生叠加图像1025。所述叠加图像1025包括从所述第一摄像头图像1000提取或获得的部分和从所述第二摄像头图像1010提取或获得的部分。注意，叠加的图像1025包括包围从第二摄像头图像1010和/或从第一摄像头图像1000获得的像素的边界元素1030。

刚刚描述了识别特征和使用特征对齐图像的不同过程，现在将注意力转向图11A、11B和11C，它们说明了执行交错特征提取的各种过程。

微软AR/VR专利揭示了一种提升图像对齐效率的方法 - XR导航网报道

图11A示出了涉及第一摄像头1100和第二摄像头1105的示例场景。如图所示，第一摄像头1100在时间T1产生图像1105A。所述实施例对图像1105A进行处理以生成一组特征1105B。注意，生成特征1105B的时间将在T1之后，因为需要进行特征提取的处理时间以及图像预处理的时间。

时间同时可以取决于预处理和特征提取步骤计划何时运行。执行特征提取所需的时间可以根据不同的因素而变化，例如图像的复杂性，图像的分辨率，图像类型，历史数据是否可用等等。

在时间T3时，第一摄像头1100产生另一幅图像1110A，并产生另一组特征1110B。同样，在T5时刻，生成另一幅图像1115A，以及相应的一组特征1115B。值得注意的是，特征集1115B通常是在图像到达后生成。

第二摄像头1105显示为在时间T0产生图像1120A。从图像1120A中识别出一组特征1120B。在T2时刻，第二摄像头1105生成另一幅图像1125A，生成另一组特征1125B。同样，在T4时刻生成另一个图像1130A，以及相应的特征集1130B。

涉及分析各种不同图像和生成特征的处理可以以各种不同的方式执行。在一个实施例中，依赖于单个计算线程来执行处理。在其他实施例中，需要依赖多个线程。例如，第一线程可负责分析由第一摄像头1100生成的图像，第二线程可负责分析由第二摄像头1105生成的图像。

专利微软微软专利 # Feature # News # 微软 # 微软专利