首页 > 学术百科

AR中的SLAM（一）

金冷法AR中的SLAM（⼀）

写在前⾯

本系列打算讲讲个⼈对AR⾏业和AR中的SLAM算法的⼀点浅显的看法。才疏学浅，⽂中必然有很多疏漏和不⾜，还望能和⼤家多多讨论。今天先讲讲我对AR的⼀些认识。

AR的⼀点理解

AR是什么

AR是⼈类的第三只眼，让⼈类在现实世界中看到虚拟物体并与之交互。

VR是⼈类做梦的⼀种载体。

AR能做什么

AR有能⼒将⼆维交互变成三维交互，能让虚拟物体看起来像真的⼀样。举⼏个简单的场景。

你可以拥有⼀只虚拟宠物。你可以从各个⽅向观察⼀个虚拟⼩猫，绕着它转动。你会发现，⾛近看会显得⼤⼀些，离远了看着会变⼩。愿意的话，还可以挠挠它，和它玩耍。

你将拥有⼀个虚拟电视。它可以固定在任何地⽅（即使你到处⾛动），也可以随意移动。

你在和家⼈远程通话时能在⾃⼰房间看到家⼈的全息投影。

你将房间变成虚拟密室。

当然，你可以在任何地⽅唤醒任何APP。

我觉得，如果未来AR能够发展出更多的外延，那么在消费领域会有机会取代⼿机，然后并在若⼲年后沦为卖⼴告赚钱的⼯具。⽽在⼯业领域，AR也有机会蹦跶⼏下，然后被机器⼈取代。

AR怎么实现

⽬前AR需要通过外部设备来实现。⽐如在⼿机上，通过获取摄像头图像并在上⾯叠加虚拟物体。⽽专业的AR设备可以将虚拟物体成像在眼睛前⾯或投射⼊眼球。

AR需要什么

要实现前⾯提到的三维交互，AR设备需要具备下⾯三个功能

⾃我定位。指定位出⾃⾝在空间中的位置。这样才能根据预设的虚拟物体的位置在设备上渲染虚拟物

体。

环境感知。主要指感知到周围环境的三维⼏何信息，这样才能让虚拟物体和真实世界发⽣⾃然交互。

交互。要理解来⾃周边环境中的输⼊，⽐如⼈类的语⾳、⼿势，并给出反馈。要将虚拟物体合适的影像通过设备反馈给⼈类。

定位和环境感知⽤的就是传说的SLAM技术。

AR的现在

中国药理学通报硬件⽅⾯，微软憋⼤招研发出了HoloLens，甩了所有竞争对⼿两条街。Google有Project Tango，但其定位不甚明确。还有很多号称在某⼀⽅⾯或者全⾯超越HoloLens的东东。

软件⽅⾯，微软在围绕Windows 10构建⽣态。国内外都有⼀些还不错的SDK，但在嵌⼊式平台上还没有完全实现SLAM，离实⽤还有⼀点距离。⽽且，⽬前⼏乎没有好⽤的内容⽣产⼯具。

AR的技术路线

好吧，终于进⼊正题了。仔细观察的话，发现AR的发展和VR有点类似。⽬前分成两个⽐较明显的派系：⼿机派和眼镜派。⼿机派代表现在，眼镜派却未必能代表未来。

⼿机AR

⼿机AR侧重于将虚拟物体叠加在⼿机摄像头图像上呈现给⽤户，主要依赖⾃我定位功能，暂时不涉及到环境感知和过多的交互。鉴于⽬前智能⼿机的普及程度，⼿机AR会是未来⼀两年的主体。这是⼀个有需求也有技术的市场。基于AR的营销对普通消费者还是有⼀定吸引⼒的。⼤⼚们都在布局和试⽔。其中⼜分为

基于摄像头的AR

第⼀种是marker AR，基于特定图⽚的图像识别和追踪，⼀种是指定的图⽚，⼀种是现场拍摄的图⽚。代表作Vuforia。⽹易阴阳师也很有趣。

洛阳盛归来

第⼆种AR不需要特定图⽚，主要基于物体识别和追踪，⽐如⼈脸，⼿，⾝体等，并让虚拟物体和⼈脸保持⼀定的相对位置即可。这类AR可以不⽤估计⼿机设备的定位。个⼈⽐较喜欢Snapchat，虽然很简单，但创意⼗⾜。

基于陀螺仪的AR

战地进行曲借助陀螺仪和电⼦罗盘得到⼿机在三维空间的旋转⾓度，但不能得到⼿机的位置。简单的测试⽅法是，将⼿机前后移动时，虚拟物体的⼤⼩将保持不变（于是看上去虚拟物体在平移，不甚和谐）。很

多VR盒⼦也是这个原理追踪头部的转动。

基于SLAM的AR

⽬前都在加班加点。感谢Raul，感谢Leutenegger。

Tango

联想和Google联合出品了搭载Tango模组的Phab 2 Pro⼿机，包含⼀个全局快门鱼眼摄像头，⼀个消费级IMU和⼀个深度摄像头，在硬件配置基本满⾜SLAM的需求，因此很受开发者们欢迎。总之，⼀个穷⼈版的HoloLens，富农版的⼿机。希望主流⼿机们能早⽇升级成上述设备，再配个有⼀定距离的双摄就完美了。

然⽽，⼿机运算能⼒的不⾜会限制SLAM算法的复杂度。摄像头、CPU和GPU同时⾼强度⼯作，电池会消耗很快。毕竟，⼿机不是为此类应⽤设计的。⼿机硬件不⾜会降低算法的精度和鲁棒性。⽐如单⽬的尺度不确定性、卷帘快门、摄像头和IMU的数据同步等等。现阶段，可以从应⽤倒推算法，以算法促进应⽤。毕竟并不是所有应⽤都需要⾼精度的算法。

AR眼镜

AR眼镜相⽐于⼿机，在体验上可以有质的飞越。⽤户可以透过眼镜看到带景深效果的虚拟物体（通过左右眼合像），⽽不是⼀个偏平的屏幕。AR眼镜通过更⾼规格的传感器和更强⼤的计算能⼒，同时⽀持实时精确定位、场景重建、语⾳交互、⼿势识别等复杂功能。

业界这⼀两年，有些产品看起来越来越像HoloLens，有些产品怎么看起来还是更像Google glass。说好的对标HoloLens呢！竞争力指数

HoloLens

个⼈意见，作为⼀款初代AR设备，Hololens已经可以打80分了，领先其它产品两年以上。

算法：实时定位、场景重建都有⾮常好的⼯程化实现，局部定位精度很⾼。⼿势可⽤。

软件：Windows 10原⽣⽀持，应⽤开发相对成熟

硬件：定制HPU，强⼤的计算能⼒，硬件加速算法

功耗：电池使⽤两⼩时，没有明显发热的感觉，软硬件肯定做了⼤量优化

显⽰：视场⾓确实太⼩，很影响体验，市⾯上也没有太好的解决⽅案。渲染的问题我没太感觉到。

档案2013

外设：⽆线对体验很重要。玩RoboRaid（打⾍⼦）时明显感觉到，头盔上还带个尾巴是没法⽤的。

想要做到便携（⽆线），⾄少要把⼀套完整的SLAM算法跑在设备上，有实时的双⽬（+imu）的slam，有低频但后台运⾏的稠密场景重建（Kinect fusion），还有复杂的三维⽹格⽣成和后处理，没有强⼤的计算能⼒⽀撑是不可能。强⼤的计算能⼒意味着过⾼的功耗，这⼜要求复杂的电源管理，强⼤的电池容量和过⼤的体积。想要运⾏那么多传感器同时降低功耗，就要有顶尖的软硬件架构设计。哪些功能是必备，需要多少资源，哪些模块应该在什么时候运⾏，不同模块之间如何交互，如何降低延迟（特别是场景重建）等等。最后，所有这些都要集成进⼀个头戴设备⾥。所以我觉得微软的壁垒在整体架构设计⽽不是单⼀模块。

据HoloLens开发⼈员介绍，HoloLens的HPU上搭载了24个Tensilica的DSP，其运算能⼒超过每秒⼀千亿次[]。单块DSP集中处理某类任务处理（应该是基于硬件加速）。Atom SoC主要⽤来运⾏Windows 10 和显⽰。算法的运⾏速度⼤约为纯软件的200倍。HoloLens⽬前预留了⼀半左右的计算能⼒，并没有⽤⾜HPU，后续还有很⼤的想象空间。未来嵌⼊深度学习模组不是梦啊。傍上了⿊科技深度学习，SLAM也许就能落到实处了。

其它⼚商

⼤部分⼚商⽬前还是以⾼通Snapdragon 820 为主开发。对于⼿机来讲，820勉强能应付，实现定位功

能（vSLAM或者VIO）。对于AR眼镜来说，不仅传感器数⽬和功耗会⾼，算法的种类和复杂度更是明显提升，特别是场景重建对于算⼒的要求⾮常⾼。820 SoC 上有⼀颗Hexagon 680 DSP ，可⽤来做算法加速，特别是特征点提取等前端功能。ARM架构还可⽤NEON技术来加速⼀些简单重复计算。Movidius、NU3000等芯⽚估计也快进⼊计划了。但总体⽽⾔，还处在开发定位功能的过程中，软硬件的架构都没有完善。

算法⽅⾯，随着这两年SLAM蓬勃发展，各家也积累了很多⼯程经验。相信不久的将来，定位功能应该能达到HoloLens⽬前的⽔平甚⾄更好，也可以⽀持多场景下的使⽤。然⽽，在场景重建⽅⾯，由于之前的⼯作⼤多基于⾼性能GPU在PC上实现，想要移植到移动平台上，还有好长的路要⾛。硬件软件上都有太多的坑要趟了。然⽽微软已经做好了！就他家积累最多，还不开源！（插个⼩⼴告，之后可能会写⼀点这⽅⾯的东西）

当然，HoloLens并不是完美的。硬件层⾯上，视场太⼩、重量偏重、体积太⼤、成本过⾼都不是容易解决的问题。软件⽅⾯，交互⽅式创新，⼿势、语⾳识别，数据共享，全息成像等等，还有很多值得做的事情。

个⼈觉得HoloLens最⼤的遗憾，是它没有解决AR类设备的核⼼问题：市场定位。很cool，然后呢？3000美元不是玩具，如果不能给⽤户⽣产价值，那就⽆法真正进⼊消费级市场。

最后

最后，让我们双⼿合⼗，⼀起感谢TUM、ETHZ、UZH、Universidad de Zaragoza和UCL等，以及开源⼤佬们，给了我们⼀条活路。

本文发布于:2024-09-22 09:57:42，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/459413.html

上一篇：2013年1月四川省食品安全企业标准备案情况公告

下一篇：C#网络编程系列一：网络协议简介