中文  |  ENGLISH
华捷艾米深度揭秘:体感摄像头工作原理

我们从一开始就知道必须采用一种全新的,接近于人脑工作的方式来解决这一问题。当你遇到一个人的时候,你的大脑立即将注意力集中在他身上,并根据经验辨识出他的身份。这一过程并不是通过数百层的决策树来实现,人脑就是知道。婴儿很难区分出两个人的不同,但我们通过多年的学习和训练可以在几分之一秒内做到。事实上,你也许还能蛮准确地估摸出他们的年龄、性别、心情甚至个性。这也是让我们成就为人类的原因之一。

IMI体感摄像头就是以类似的方法被创造出来。它观察身边的世界,它注意观察你的动作。即使IMI体感摄像头从来没见过你挥过手,也能很快地从它学习过的TB级数据中猜测出你所做动作的含义。

IMI体感摄像头

IMI体感摄像头骨架追踪处理流程的核心是,一个无论周围环境的光照条件如何,都可以让IMI体感摄像头感知世界的CMOS红外传感器。该传感器通过黑白光谱的方式来感知环境:纯黑代表无穷远,纯白代表无穷近。黑白间的灰色地带对应物体到传感器的物理距离。它收集视野范围内的每一点,并形成一幅代表周围环境的景深图像。传感器以每秒30帧的速度生成景深图像流,实时3D地再现周围环境。

华捷艾米深度揭秘:体感摄像头工作原理

寻找移动部位

IMI体感摄像头需要做的下一件事是寻找图像中较可能是人体的移动物体,就像人眼下意识地聚焦在移动物体上那样。接下来,IMI体感摄像头会对景深图像进行像素级评估,来辨别人体的不同部位。同时,这一过程必须以优化的预处理来缩短响应时间。

IMI体感摄像头采用分割策略来将人体从背景环境中区分出来,即从噪音中提取出有用信号。IMI体感摄像头可以主动追踪最多2个玩家的全身骨架,或者被动追踪最多6名玩家的形体和位置。在这一阶段,我们为每个被追踪的玩家在景深图像中创建了所谓的分割遮罩,这是一种将背景物体(比如椅子和宠物等)剔除后的景深图像。在后面的处理流程中仅仅传送分割遮罩的部分,以减轻体感计算量。

IMI体感摄像头的大脑

真正的魔术在这里发生,分割化玩家图像的每一个像素都被传送进一个辨别人体部位的机器学习系统中。随后该系统将给出了某个特定像素属于哪个身体部位的可能性。比如,一个像素有80%的几率属于脚,60%的几率属于腿,40%的几率属于胸部。看起来这时候我们就可以把几率最大的可能性当作结果,但这么做未免太过武断了。我们的做法是将所有的这些可能性输入到接下来的处理流程中并且等到最后阶段再做判断。

看了上面的介绍,你也许要问我们如何教会IMI体感摄像头辨识人体部位。开发这一人工智能(被称为Exemplar(模型)系统)可不是一件轻松的事情:数以TB计的数据被输入到集群系统中来教会IMI体感摄像头以像素级技术来辨认手、脚以及它看到的其他身体部位。

模型匹配:生成骨架系统

处理流程的最后一步是使用之前阶段输出的结果,根据追踪到的20个关节点来生成一幅骨架系统。IMI体感摄像头会评估Exemplar输出的每一个可能的像素来确定关节点。通过这种方式IMI体感摄像头能够基于充分的信息最准确地评估人体实际所处位置。另外我们在模型匹配阶段还做了一些附加输出滤镜来平滑输出以及处理闭塞关节等特殊事件。

华捷艾米深度揭秘:体感摄像头工作原理

技术如何最终理解你

人类的独特之处在于能通过多种方法来完成某一特定任务。让我们拿驾驶来做例子。如果你让100个人来模仿如何开车,你可能会得到许多答案。有些人会将两手分别握住面前的10点钟和2点钟位置,有些人可能会只用一手握住12点钟位置,有些人可能会背靠椅子坐着;同样地,模仿脚踩油门、刹车和离合器的方式也会五花八门。所有这些方式都能让我们驾驶,而技术的工作就是要能识别所有这些方式——让技术理解你!

那么,识别一个看似简单动作有多复杂呢,拿伸手做例子。当你想伸手去拿什么东西的时候,你会认为伸手的方向应该完全垂直于身体平面。但实际上由于肩膀和手臂关节的结合方式,你不可能以直线方式伸手。因此,每个人都会以略为不同的方式做出一个伸手动作,但每个人都觉得这是一个同样的伸手动作。成功的手势识别就是要理解人类动作的微妙之处,并且让技术了解这些不同。

在研发IMI体感摄像头这款革命性产品的过程中,华捷艾米(微信公众号:IMI_NANJING)团队既要战胜上述挑战,还要让产品易于使用,这个过程听上去可能略有点复杂,而操作起来更是难上加难,耗费了我们团队的全部心血,聚集了20多个博士和一众研究生的心血,相信不会让你们失望的!