Microsoft Xbox360 Kinect工作原理

Microsoft微软Xbox360Kinect工作原理
1You are the controller.
首先,让我们从指导Kinect研发的概念原理开始。
传统编程基于一系列的规则:原因和结果,非黑即白,非真即假。在为输入输出数目有限的简单系统建模时,这种方式工作得挺好。就拿小时候玩儿过的小霸王或者索尼游戏机来说吧,我们只能通过摇杆来控制游戏人物,所有的动作都局限于一个游戏手柄上。可以说,我们的游戏世界并不真实并不数字化,是模拟的。
在模拟世界中,并不是只有简单的“是”和“否”,还有“也许是/否”;不仅有“对”和“错”,还有“对/错的可能性”。让我们想象一下挥手这一简单动作的所有可能性:身体运动的幅度,环境差异,衣服质地的不同,文化差异造成的动作差异等等。你可能需要研究10的23次方这么多的可能性,显然用传统编程方式来解决这类问题是不现实的。
我们从一开始就知道必须采用一种全新的,接近于人脑工作的方式来解决这一问题。当你遇到一个人的时候,你的大脑立即将注意力集中在他身上,并根据经验辨识出他的身份。这一过程并不是通过数百层的决策树来实现,人脑就是知道。婴儿很难区分出两个人的不同,但我们通过多年的学习和训练可以在
几分之一秒内做到。事实上,你也许还能蛮准确地估摸出他们的年龄、性别、心情甚至个性。这也是让我们成就为人类的原因之一。
Kinect以类似的方法被创造出来。它观察身边的世界,它注意观察你的动作。即使Kinect从来没见过你挥过手,也能很快地从它学习过的TB级数据中猜测出你所做动作的含义。
2Kinect总览
先由Kinect的运作原理开始吧,Kinect一次可撷取三种东西,分别是彩影像、3D深度影像、以及声
音讯号。首先是Kinect机身上有3颗镜头,中间的镜头是一般常见的RGB彩摄影机,左右两边镜头则分别为红外线发射器和红外线CMOS摄影机所构成的3D深度感应器,Kinect主要就是靠3D深度感应器侦测玩家的动作。
中间视讯镜头则是用来辨识玩家身分(靠着人脸辨识和身体特征)、以及辨识基本的脸部表情,此外也能应用在扩增实境游戏、以及视讯通话时;同时Kinect还搭配了追焦技术,底座马达会随着对焦物体移动跟着转动。
都用上了不用遥控器的体感装置,哪里还要玩家头上挂个耳麦的道理,因此Kinect也内建了麦克风系统,用的还是阵列式麦克风。它的好处是藉由多组麦克风同时收音,比对后消除掉杂音,等于提供了降噪功能,让玩家的声音能更清楚的传递出去。
▲Kinect中间的镜头是摄影机、左右两颗镜头则是3D深度感应器;同时具有追焦功能,底座马达可左右旋转27度。此外还有阵列式麦克风。
▲Kinect可同时获取彩影像、3D深度影像、以及声音讯号。
粉煤灰水泥
▲Kinect的架构图。
3Kinect工作原理
3.1Kinect侦测3D影像
Kinect就是以红外线发出人眼看不见的class1雷射光,透过镜头前的diffuser(光栅、扩散片)将雷射光均匀分布投射在测量空间中,再透过红外线摄影机记录下空间中的每个散斑,撷取原始资料后,再透过晶片计算成具有3D 深度的图像。
▲Light Coding是以发射红外线产生散斑,透过感应器纪录讯号后,交由晶片运算出深度图像。
3.1.1Kinect传感器
Kinect骨架追踪处理流程的核心是一个无论周围环境的光照条件如何,都可以让Kinect感知世界的CMOS红外传感器。该传感器通过黑白光谱的方式来感知环境:纯黑代表无穷远,纯白代表无穷近。黑白间的灰地带对应物体到传感器的物理距离。它收集视野范围内的每一点,并形成一幅代表周围环境的景深图像。传感器以每秒30帧的速度生成景深图像流,实时3D地再现周围环境。如果你玩过pin point impression3D针模玩具可能更容易理解这一技术——将你的手(或者脸,如果你愿意的话)按压在这种玩具上,就可以产生你身体某一部位的简单3D模型。
3.1.2寻移动部位
制作无纺布手提袋
Kinect需要做的下一件事是寻图像中较可能是人体的移动物体,就像人眼下意识地聚焦在移动物体上那样。接下来,Kinect会对景深图像进行像素级评估,来辨别人体的不同部位。同时,这一过程必须以优化的预处理来缩短响应时间。
恒温阀门
砂浆回收Kinect采用分割策略来将人体从背景环境中区分出来,即从噪音中提取出有用信号。Kinect可以主动追踪最多两个玩家的全身骨架,或者被动追踪最多四名玩家的形体和位置。在这一阶段,我们为每个被追踪的玩家在景深图像中创建了所谓的分割遮罩,这是一种将背景物体(比如椅子和宠物等)剔除后的景深图像。在后面的处理流程中仅仅传送分割遮罩的部分,以减轻体感计算量。
彩陶泥3.2Kinect侦测3D影像
了解Kinect如何获得影像后,接下来就是进行辨识的工作。透过Light Coding技术所获得的只是基本的影像资料,重点还是要辨识影像,转换为动作指令。磨煤机衬板
3.2.1Kinect的大脑
分割化玩家图像的每一个像素都被传送进一个辨别人体部位的机器学习系统中。随后该系统将给出了
某个特定像素属于哪个身体部位的可能性。比如,一个像素有80%的几率属于脚,60%的几率属于腿,40%的几率属于胸部。看起来这时候我们就可以把几率最大的可能性当作结果,但这么做未免太过武断了。我们的做法是将所有的这些可能性输入到接下来的处理流程中并且等到最后阶段再做判断。
3.2.2生成骨架系统

本文发布于:2024-09-22 10:24:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/142209.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:玩家   辨识   影像   动作
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议