AR中的SLAM(一)

金冷法AR中的SLAM(⼀)
写在前⾯
本系列打算讲讲个⼈对AR⾏业和AR中的SLAM算法的⼀点浅显的看法。才疏学浅,⽂中必然有很多疏漏和不⾜,还望能和⼤家多多讨论。今天先讲讲我对AR的⼀些认识。
AR的⼀点理解
AR是什么
AR是⼈类的第三只眼,让⼈类在现实世界中看到虚拟物体并与之交互。
VR是⼈类做梦的⼀种载体。
AR能做什么
AR有能⼒将⼆维交互变成三维交互,能让虚拟物体看起来像真的⼀样。举⼏个简单的场景。
你可以拥有⼀只虚拟宠物。你可以从各个⽅向观察⼀个虚拟⼩猫,绕着它转动。你会发现,⾛近看会显得⼤⼀些,离远了看着会变⼩。愿意的话,还可以挠挠它,和它玩耍。
你将拥有⼀个虚拟电视。它可以固定在任何地⽅(即使你到处⾛动),也可以随意移动。
你在和家⼈远程通话时能在⾃⼰房间看到家⼈的全息投影。
你将房间变成虚拟密室。
当然,你可以在任何地⽅唤醒任何APP。
我觉得,如果未来AR能够发展出更多的外延,那么在消费领域会有机会取代⼿机,然后并在若⼲年后沦为卖⼴告赚钱的⼯具。⽽在⼯业领域,AR也有机会蹦跶⼏下,然后被机器⼈取代。
AR怎么实现
⽬前AR需要通过外部设备来实现。⽐如在⼿机上,通过获取摄像头图像并在上⾯叠加虚拟物体。⽽专业的AR设备可以将虚拟物体成像在眼睛前⾯或投射⼊眼球。
AR需要什么
要实现前⾯提到的三维交互,AR设备需要具备下⾯三个功能
⾃我定位。指定位出⾃⾝在空间中的位置。这样才能根据预设的虚拟物体的位置在设备上渲染虚拟物
体。
环境感知。主要指感知到周围环境的三维⼏何信息,这样才能让虚拟物体和真实世界发⽣⾃然交互。
交互。要理解来⾃周边环境中的输⼊,⽐如⼈类的语⾳、⼿势,并给出反馈。要将虚拟物体合适的影像通过设备反馈给⼈类。
定位和环境感知⽤的就是传说的SLAM技术。
AR的现在
中国药理学通报硬件⽅⾯,微软憋⼤招研发出了HoloLens,甩了所有竞争对⼿两条街。Google有Project Tango,但其定位不甚明确。还有很多号称在某⼀⽅⾯或者全⾯超越HoloLens的东东。
软件⽅⾯,微软在围绕Windows 10构建⽣态。国内外都有⼀些还不错的SDK,但在嵌⼊式平台上还没有完全实现SLAM,离实⽤还有⼀点距离。⽽且,⽬前⼏乎没有好⽤的内容⽣产⼯具。
AR的技术路线
好吧,终于进⼊正题了。仔细观察的话,发现AR的发展和VR有点类似。⽬前分成两个⽐较明显的派系:⼿机派和眼镜派。⼿机派代表现在,眼镜派却未必能代表未来。
⼿机AR
⼿机AR侧重于将虚拟物体叠加在⼿机摄像头图像上呈现给⽤户,主要依赖⾃我定位功能,暂时不涉及到环境感知和过多的交互。鉴于⽬前智能⼿机的普及程度,⼿机AR会是未来⼀两年的主体。这是⼀个有需求也有技术的市场。基于AR的营销对普通消费者还是有⼀定吸引⼒的。⼤⼚们都在布局和试⽔。其中⼜分为
基于摄像头的AR
第⼀种是marker AR,基于特定图⽚的图像识别和追踪,⼀种是指定的图⽚,⼀种是现场拍摄的图⽚。代表作Vuforia。⽹易阴阳师也很有趣。
洛阳盛归来
第⼆种AR不需要特定图⽚,主要基于物体识别和追踪,⽐如⼈脸,⼿,⾝体等,并让虚拟物体和⼈脸保持⼀定的相对位置即可。这类AR可以不⽤估计⼿机设备的定位。个⼈⽐较喜欢Snapchat,虽然很简单,但创意⼗⾜。
基于陀螺仪的AR
战地进行曲借助陀螺仪和电⼦罗盘得到⼿机在三维空间的旋转⾓度,但不能得到⼿机的位置。简单的测试⽅法是,将⼿机前后移动时,虚拟物体的⼤⼩将保持不变(于是看上去虚拟物体在平移,不甚和谐)。很
多VR盒⼦也是这个原理追踪头部的转动。
基于SLAM的AR
⽬前都在加班加点。感谢Raul,感谢Leutenegger。
Tango
联想和Google联合出品了搭载Tango模组的Phab 2 Pro⼿机,包含⼀个全局快门鱼眼摄像头,⼀个消费级IMU和⼀个深度摄像头,在硬件配置基本满⾜SLAM的需求,因此很受开发者们欢迎。总之,⼀个穷⼈版的HoloLens,富农版的⼿机。希望主流⼿机们能早⽇升级成上述设备,再配个有⼀定距离的双摄就完美了。
然⽽,⼿机运算能⼒的不⾜会限制SLAM算法的复杂度。摄像头、CPU和GPU同时⾼强度⼯作,电池会消耗很快。毕竟,⼿机不是为此类应⽤设计的。⼿机硬件不⾜会降低算法的精度和鲁棒性。⽐如单⽬的尺度不确定性、卷帘快门、摄像头和IMU的数据同步等等。现阶段,可以从应⽤倒推算法,以算法促进应⽤。毕竟并不是所有应⽤都需要⾼精度的算法。
AR眼镜
AR眼镜相⽐于⼿机,在体验上可以有质的飞越。⽤户可以透过眼镜看到带景深效果的虚拟物体(通过左右眼合像),⽽不是⼀个偏平的屏幕。AR眼镜通过更⾼规格的传感器和更强⼤的计算能⼒,同时⽀持实时精确定位、场景重建、语⾳交互、⼿势识别等复杂功能。
业界这⼀两年,有些产品看起来越来越像HoloLens,有些产品怎么看起来还是更像Google glass。说好的对标HoloLens呢!竞争力指数
HoloLens
个⼈意见,作为⼀款初代AR设备,Hololens已经可以打80分了,领先其它产品两年以上。
算法:实时定位、场景重建都有⾮常好的⼯程化实现,局部定位精度很⾼。⼿势可⽤。
软件:Windows 10原⽣⽀持,应⽤开发相对成熟
硬件:定制HPU,强⼤的计算能⼒,硬件加速算法
功耗:电池使⽤两⼩时,没有明显发热的感觉,软硬件肯定做了⼤量优化
显⽰:视场⾓确实太⼩,很影响体验,市⾯上也没有太好的解决⽅案。渲染的问题我没太感觉到。
档案2013
外设:⽆线对体验很重要。玩RoboRaid(打⾍⼦)时明显感觉到,头盔上还带个尾巴是没法⽤的。
想要做到便携(⽆线),⾄少要把⼀套完整的SLAM算法跑在设备上,有实时的双⽬(+imu)的slam,有低频但后台运⾏的稠密场景重建(Kinect fusion),还有复杂的三维⽹格⽣成和后处理,没有强⼤的计算能⼒⽀撑是不可能。强⼤的计算能⼒意味着过⾼的功耗,这⼜要求复杂的电源管理,强⼤的电池容量和过⼤的体积。想要运⾏那么多传感器同时降低功耗,就要有顶尖的软硬件架构设计。哪些功能是必备,需要多少资源,哪些模块应该在什么时候运⾏,不同模块之间如何交互,如何降低延迟(特别是场景重建)等等。最后,所有这些都要集成进⼀个头戴设备⾥。所以我觉得微软的壁垒在整体架构设计⽽不是单⼀模块。
据HoloLens开发⼈员介绍,HoloLens的HPU上搭载了24个Tensilica的DSP,其运算能⼒超过每秒⼀千亿次[]。单块DSP集中处理某类任务处理(应该是基于硬件加速)。Atom SoC主要⽤来运⾏Windows 10 和显⽰。算法的运⾏速度⼤约为纯软件的200倍。HoloLens⽬前预留了⼀半左右的计算能⼒,并没有⽤⾜HPU,后续还有很⼤的想象空间。未来嵌⼊深度学习模组不是梦啊。傍上了⿊科技深度学习,SLAM也许就能落到实处了。
其它⼚商
⼤部分⼚商⽬前还是以⾼通Snapdragon 820 为主开发。对于⼿机来讲,820勉强能应付,实现定位功
能(vSLAM或者VIO)。对于AR眼镜来说,不仅传感器数⽬和功耗会⾼,算法的种类和复杂度更是明显提升,特别是场景重建对于算⼒的要求⾮常⾼。820 SoC 上有⼀颗Hexagon 680 DSP ,可⽤来做算法加速,特别是特征点提取等前端功能。ARM架构还可⽤NEON技术来加速⼀些简单重复计算。Movidius、NU3000等芯⽚估计也快进⼊计划了。但总体⽽⾔,还处在开发定位功能的过程中,软硬件的架构都没有完善。
算法⽅⾯,随着这两年SLAM蓬勃发展,各家也积累了很多⼯程经验。相信不久的将来,定位功能应该能达到HoloLens⽬前的⽔平甚⾄更好,也可以⽀持多场景下的使⽤。然⽽,在场景重建⽅⾯,由于之前的⼯作⼤多基于⾼性能GPU在PC上实现,想要移植到移动平台上,还有好长的路要⾛。硬件软件上都有太多的坑要趟了。然⽽微软已经做好了!就他家积累最多,还不开源!(插个⼩⼴告,之后可能会写⼀点这⽅⾯的东西)
当然,HoloLens并不是完美的。硬件层⾯上,视场太⼩、重量偏重、体积太⼤、成本过⾼都不是容易解决的问题。软件⽅⾯,交互⽅式创新,⼿势、语⾳识别,数据共享,全息成像等等,还有很多值得做的事情。
个⼈觉得HoloLens最⼤的遗憾,是它没有解决AR类设备的核⼼问题:市场定位。很cool,然后呢?3000美元不是玩具,如果不能给⽤户⽣产价值,那就⽆法真正进⼊消费级市场。
最后
最后,让我们双⼿合⼗,⼀起感谢TUM、ETHZ、UZH、Universidad de Zaragoza和UCL等,以及开源⼤佬们,给了我们⼀条活路。

本文发布于:2024-09-22 09:57:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/459413.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:虚拟   物体   定位   算法   摄像头   功能   设备
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议