技术回顾▏深度学习在机器视觉中有哪些典型的应用?

技术回顾▏深度学习在机器视觉中有哪些典型的应⽤?
深度学习是解决所有计算机视觉问题的最佳⽅案吗?
训练数据对有效的深度学习算法⾄关重要。训练⼀个DNN 通常需要数千个带标记的训练图像(即⽤所需输出标记的图像),以及数千个带标记的图像来评估候选训练算法。当然,这些数据的性质⾮常重要:训练和验证数据,必须能够代表算法要处理的情况的多样性。如果很难或者不可能获得⾜够多样化的训练数据,那么最好还是使⽤传统技术。当我们深⼊研究客户的需求时,我们经常发现,最初看起来像单⼀视觉问题的任务,往往可以分解为⼏个⼦任务。通常,在这些⼦任务中,⾃然有⼀些⼦任务是适合使⽤DNN 解决的,⽽另⼀些⼦任务则不适合⽤ DNN 来解决。对于这些项⽬,结合DNN和传统技术的解决⽅案,通常是更好的选择,⽽不是试图将整个问题都强制转向DNN解决⽅案。
鉴于DNN 在研究和技术⽅⾯的巨⼤投资,很明显,DNN 作为⾸选解决⽅案的适⽤范围,将会继续迅速扩⼤。然⽽,在可预见的未来,许多应⽤将通过传统技术(包括其他形式的机器学习)或通过深度学习和传统算法的组合,来获得最好的解决⽅案。
接下来,我们就⼀起了解⼀下,深度学习在机器视觉中的典型应⽤。
1、图像处理中的深度学习应⽤
与传统图像处理相⽐,深度学习应⽤需要在训练⽅⾯投⼊较多时间,但是相较其带来的可靠性和处理速度,这些投⼊是值得的。图像采集卡和(嵌⼊式)视觉设备上所使⽤的 FPGA 技术,令神经⽹络应⽤于⼯业级应⽤成为可能,这需要强⼤的实时处理能⼒、低延迟(实时在线检测)、⾼数据吞吐量、⾼带宽和低功耗低发热(嵌⼊式视觉应⽤),以及⾼分辨率。
在通常的图像处理应⽤中,只需要对少数⼏个特性进⾏分类,因此选择⼩型或中型⽹络通常就⾜以应对,AlexNet、SqueezeNet 或MobileNet都是这类⽹络的典型代表。这⼏种⽹络类型在机器视觉领域,预测精度、⽹络⼤⼩和计算速度以及带宽这⼏⽅⾯有着良好的平衡。这⾥可以很明显地看到,通过选择合适的⽹络,可以在牺牲⼩部分检测精度的同时,获得数据吞吐量⽅⾯的极⼤提⾼,同时也为优化资源和提⾼分类质量提供了可能性。
完美满⾜⼯业⽣产的⾼速处理需求的解决⽅案:通常使⽤⾼性能图像采集卡或者嵌⼊式视觉设备,例如使⽤⼤型 FPGA 和⾼分辨率传感器的智能相机。利⽤多种多样的 FPGA 资源,可以处理更复杂的架构以及应⽤。有了更⾼的数据带宽,能够在FPGA 上对整幅图像进⾏处理,或进⾏额外的图像预处理以及后期处理,例如对 GigEVision 相机的最⼤数据输出带宽的深度学习运算也完全能够满⾜。
图:FPGA 的性能⼤约是 GPU 性能的7.3倍。
2、利⽤深度学习推理检测相机外壳上的缺陷
通常,使⽤传统的机器视觉检测⽅法来确定缺陷并不是⼀件容易的事,例如发现⼯业相机外壳上可能存在的缺陷。然⽽,深度学习技术却为此类缺陷检测应⽤提供了⼀种有效的⽅法。
为了测试这⼀点,FLIR Systems公司的⼯程师们使⽤颇具成效益的组件建⽴了⼀套演⽰装置,⽤于测试该系统的可⾏性和有效性。该演⽰包括检查相机的外壳是否有划痕、油漆是否均匀以及是否存在印刷缺陷。为了避免上述缺陷,⼯业相机制造商必须检查相机外壳,以确保产品外观完美。
为了测试如何应⽤深度学习技术来解决这个问题,FLIR 的⼯程师使⽤了⼀台 160 万像素的 Blackfly S USB3 ⼯业相机以及⼀台 AAEON Up Squared 单板计算机,单板机配备 Celeron 处理器和 4GB 内存,采⽤ Ubuntu 16.04 操作系统;此外还配备了Intel Movidius 的神经计算棒(NCS)(见图 1)。据 Intel 报道,神经计算棒于 2017 年发布,是基于USB 的“深度学习推理⼯具和独⽴的⼈⼯智能加速器,为⼴泛的边缘主机设备提供专⽤深度神经⽹络处理功能”。
神经计算棒采⽤英特尔 Movidius Myriad 2 视觉处理单元(VPU)。这是⼀个⽚上系统(SoC),配备两个传统的32 位RISC 处理器内核和 12 个独特的 SHAVE ⽮量处理内核。这些⽮量处理内核可⽤于加速深度神经⽹络使⽤的⾼分⽀逻辑。流⾏的深度学习框架(包括 Caffe、TensorFlow、 Torch 和Theano)可⽤于为神经计算棒构建和训练神经⽹络。图1:为了对系统进⾏测试,FLIR的⼯程师使⽤了⼀台⼯业相机、⼀个AAEON单板计算机和Intel Movidius的神经计算
图1:为了对系统进⾏测试,FLIR的⼯程师使⽤了⼀台⼯业相机、⼀个AAEON单板计算机和Intel Movidius的神经计算棒。
3、借助深度学习实现光隔元件的外观缺陷检测
在芯⽚制造业中绝⼤部分⽣产线已实现⾃动化,但芯⽚中的光隔离元件因本⾝体积⼩、精密度⾼,对其外观检测⼀直是⾏业痛点,仍需⼤量⼈⼯检测。针对上述问题,慧眼⾃动化开发了基于深度学习的光隔离元件外观检测解决⽅案。
慧眼科技开发的检测系统,硬件部署上分为上料、检测和下料三个⼯位(见下图)。上料⼯位分为四个料仓,操作员⽤上游设备取出装载产品的载具,放⼊产品,每个载具可放⼊40颗产品。这个装载数量可以减少操作员上料的次数。在上料⼯位,有⼀个视觉定位系统,⽤于检测产品的尺⼨,并获取产品坐标位置并发送给机械⼿。
图:慧眼科技的检测设备结构⽰意图。
该⾼精度检测系统,能够实现对微观产品进⾏⾃动定位、吸取、上下料、外观检测,可以防⽌⼈⼯操作带来的⼆次损伤。使⽤偏振相机取像,获得四个⾓度的图像,能够检测产品表⾯不同⾓度的划痕情况,提⾼检测覆盖率。这也是针对芯⽚⾏业中表⾯镜⾯产品的外观检测的创新应⽤。
在机器视觉应⽤中,外观检测⼀直是⾏业痛点。外观缺陷中的划痕、脏污、形态不⼀、⼤⼩不同、深浅和各种姿态都不同,很难⽤传统的视觉检测算法稳定检测。但是随着深度学习技术的发展,采⽤深度学习模式的外观检测程式,成为了外观检测的新⽅法。在A公司的这个案例中,我们也遇到了传统视觉算法难以解决的外观检测问题,我们的解决⽅案是采⽤深度学习搭配传统定位算法。
4、深度学习软件实现强⼤的 PCB 检测系统
⾃动光学检测(AOI)是⼀种⾃动化的视觉检测技术,在印刷电路板(PCB)检测中,其涉及扫描 PCB 的表⾯以获取清晰图像。AOI系统可以检测多种类型的PCB缺陷,包括短路、铜过多或不⾜、开路、划痕、⽑刺、铜渣、组件缺失和变形等。
由于存在许多表⾯缺陷,因此与常规的电⼦元件检测相⽐,PCB的检测可能更加困难,并且还经常需要第⼆次⼿动筛选,以在PCB返回产品线之前区分真实缺陷和误报的缺陷。
该AI缺陷检查系统由碁仕科技股份有限公司(G4 Technology)设计,它利⽤机器视觉相机和深度学习软件,来准确地对PCB 缺陷进⾏检查、探测、标记和分类。与传统的机器视觉技术相⽐,该系统可以分析复杂的图像,提⾼图像分析能⼒和⾃动视觉检测的准确性,并对缺陷进⾏⾃动分类。该视觉系统包括⼀台Allied Vision公司的相机、⼀个富⼠胶⽚公司的⾼分辨率镜头和 SUALAB公司的 SuaKIT 深度学习软件。系统中的相机型号是Manta G-032C,其基于30万像素的Sony ICX424 彩⾊C
CD传感器,像素尺⼨为7.4µm,全分辨率下的帧率可达80.7fps。
在深度学习软件中,基于范例的算法使⽤可接受和不可接受产品的图像进⾏训练,这与基于规则的算法要求⼿动设置缺陷标准不同。SuaKIT 通过分析产品上的各种缺陷(分割),对图像分类并按缺陷类型分类(分类),然后按类别探测图像中的每个⽬标对象(探测),来检查缺陷区域。
为了实现缺陷检测,SuaKIT的算法被训练了⼤约 100张正常和有缺陷产品的图像,能在⼤约15分钟的时间内建⽴神经⽹络。此后,由于相机的⾼帧率,每秒可以在⽣产线上收集和处理80张图像,从⽽使该软件能够⾃动学习和分析缺陷标准,并区分正常产品和缺陷产品的图像。在深度学习算法的初始阶段,所需的图像数据会随图像的复杂性⽽变化。通常需要 50~100张图像,才能使系统可以处理客户特定的缺陷标准。在这种情况下,使⽤深度学习软件能够替代⼈⼯视觉检查的需求,可以将⼈员转移或部署到⼯⼚的其他制造流程或任务中,从⽽提⾼整体⽣产率。
图:Allied Vision公司的Manta相机和SUALAB公司的SuaKIT深度学习软件相结合,⽤于检查印刷电路板。
改进的卷积神经⽹络使⽤⾼光谱线扫图像,⽤于马铃薯病害的检测。在深度学习中使⽤⾼光谱数据尚有诸多挑战,包括数据的⼤⼩和特定波段的噪声。
来⾃荷兰⽡格宁根⼤学的⼀个研究⼩组,试图利⽤深度学习技术和⾼光谱图像数据来检测植物疾病。图1 显⽰了NAK在荷兰⼀个种植实验场⽤⽆⼈机拍摄的图像。在试验过程中,涉及到正常的栽培实践和不同的天⽓条件,⽥间的所有作物都被⼀个有经验的NAK检查员⽬视监测了多次。
都被⼀个有经验的NAK检查员⽬视监测了多次。机器视觉定位
表1显⽰了⽥间不同陇之间所种植的作物品种和染病情况。第1-3 陇包含感染细菌性疾病的作物,⽽第 4-7 陇包含感染马铃薯Y 病毒的四种不同品种的作物。第1-3 陇的作物图⽚(主要是细菌感染、⼀些⾃然偶发的 Y 病毒感染和⼀些健康的作物)为训练卷积神经⽹络(CNN)提供了数据。第5陇作物(LadyClaire)100%为病株,第4陇作物(Rosa Gold)95% 以上为病株。此外,第4陇中出现的马铃薯 X 病毒(PVX)症状妨碍了作物专家的⼈⼯判断,并且PVX 病毒的出现已被实验室检测(ELISA)证实。因此第4陇和第5陇作物被排除在⾼光谱分析之外。
表1:第1、2、3陇作物主要是细菌感染,也有⼀些⾃然偶发的Y病毒感染。这些作物以及前三陇的健康作物,被⽤来训练卷积神经⽹络(CNN)。
图:⽆⼈机拍摄到的位于荷兰托勒贝克附近的实验场地的RGB图像。1-3陇的长度为110m,4-7陇的长度为66m。
虽然CNN通常对整个图像进⾏分类(标记每幅图像)或提供 2D 分段(标记每个像素),但该团队的⽅法使⽤了“弱”1D 标记序列与⼀个改进的完全卷积神经⽹络(FCN)相结合的架构,以减少通常需要的⼤量训练数据。“弱”1D 标签序列的优点是增加训练集中可⽤标签的有效数量,以降低过拟合风险。该⽅法还⼤⼤降低了标记数据集的负担。研究⼈员不需要提供像素级的注释,⽽是使⽤患病个体的 GNSS 位置,在线的层⾯上⽣成地⾯实况——这是⼀个更为简单的过程。
使⽤的⽹络是带有⾮标准解码器的FCN。虽然FCN 的输出通常是 2D分割,但是研究⼈员输出了 1D 分割,⽬的是为每⾏图像分配⼀个标签。由于训练数据的不平衡(健康的案例⽐患病的案例多得多),所以对数据进⾏了重新抽样,以突出患病的案例。由于深度学习需要⼤量的训练数据,利⽤随机镜像、旋转、图像亮度随机变化等数据增强技术,使现有数据得以丰富。
资料来源于VSDC杂志end

本文发布于:2024-09-22 04:00:55,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/357854.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检测   深度   学习   图像   缺陷   视觉
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议