基于人工智能技术的内容识别系统设计

近年来,人工智能作为新一轮产业变革的核心驱动力,在催生新技术、新产品的同时,对传统行业也具备较强的赋能作用。本文基于人工智能相关算法,研讨了人脸识别、图像识别、文字识别和语音识别等技术在广电行业的应用场景,并设计了一套贯穿现有节目制播管理各相关流程的内容识别系统,以期辅助内审人员,针对节目资料中的敏感人物、非法图案、文字以及相关语音信息等进行高效、准确、智能的识别。深度学习    人脸识别    图像识别    文字识别    语音识别一 设计背景与目标人工智能概念诞生于 1956 年,在半个多世纪的发展历程中,由于受到智能算法、计算速度、存储水平等多方面因素的影响,人工智能技术和应用发展经历了多次高潮和低谷。2006 年以来,以深度学习为代表的机器学习算法在机器视觉和语音识别等领域取得了极大的成功,识别准确性大幅提升,使人工智能再次受到学术界和产业界的广泛关注。云计算、大数据等技术在提升运算速度,降低计算成本的同时,也为人工智能发展提供了丰富的数据资源,协助训练出更加智能化的算法模型。作为新一轮产业变革的核心驱动力,人工智能能够引发经济结构的重大变革,实现社会生产力的整体跃升,目前,人工智能技术已在身份认证、公共安全、司法服务、教育以及医疗等领域有了广泛应用。在广电行业中,为了提高视音频节目资料内容审查工作效率,提升媒体内容智能化管理水平,也可以利用人工智能技术建立一套内容识别系统,辅助内审人员针对节目资料中的敏感人物、非法内容识别系统应紧密结合节目制作、管理、内审和监看等各相关业务系统,建立贯穿节目资料设限、下载审核和播出内审等各相关节点的视音频内容数据采集、识别和分析管理平台,并实现对节目资料数据库内存储的重点内容进行自动批量筛查,从而全面满足各个内容审查工作场景的业务需求,为高效、准确地开展内审工作提供有力支撑。图像识别、文字识别和语音识别等人工智能技术,对全媒
体内容信息进行智能识别和高效筛查。首先,用户将需要
识别出的人物、标识的图片以及相关文字信息上传至系统,
建立目标对象数据库。在用户提交需要识别的视音频资料
后,系统首先筛查其元数据信息中是否存在目标对象。其次,将文件中的视频流抽帧生成图片,并利用深度学习算法对全部抽帧图片进行智能检测。若存在人脸或图标,则进行分析处理,形成人脸或图标的特征向量值;若存在文字信息,则利用文字识别有关算法,将其转化为文本字符信息。同时,将文件中的音频流通过声学模型和语言模型运算,转化为文本字符信息。最后,将人脸、图标特征向量值,以及提取的文本字符信息,与预先设定的目标对象数据库进行比对分析,从而在视音频内容中定位目标对象。
内容识别系统可分为展示层、逻辑处理层、模型识别层和数据层,考虑到内容审查工作的保密性、安全性要求,系统采用私有化方式部署(如图1)。1. 展示层内容识别系统可通过对外统一的标准接口,兼容集成现有的节目制播管理相关系统,用户可以通过现有系统,
调用内容识别系统的相关接口服务,提交视音频识别请求,并审阅识别比对结果。
用户还可登录内容识别系统的Web客户端控制台,进行系统参数设置、目标数据管理、提交需要识别的视音频内容以及查阅识别结果等。
(1)系统参数设置
用户能够对系统权限进行管理,包括管理员和各分级用户权限管理。用户能够对视音频内容识别的相似度、关键帧提取间隔、识别模式(人脸、图像、文字、声音)、识别范围、结果输出方式、日志记录级别、各功能模块负载异常阈值告警配置等参数进行设置。
(2)目标数据管理
用户可将需要识别出的人物、标识的图片以及相关文字信息上传至内容识别系统,建立识别目标对象数据库,用户能够对目标数据进行增、删、改、查的操作。
(3)媒资内容识别
用户能够以提交视音频链接、上传视音频文件或选择在库文件等多种方式,选定需要进行识别比对的媒资内容,提交至系统。
(4)识别结果展示
用户查阅系统所展示的视音频内容识别结果,对在视音频中出现目标数据的位置进行打点显示,标注出内容类型(人脸、图片、文字、声音),并对出现次数等数据进行统计分析。
2. 逻辑处理层
(1)视音频处理
内容识别系统利用视音频处理功能模块,分离待识别的媒资视频流和音频流,并根据系统参数设置,将视频流按间隔提取图片,将音频流按语境分割,利用图像、声音滤波和增强技术,对抽样生成的图像和音频片段进行预处
策略处理模块根据系统参数和识别策略,将模型识别层返回的识别比对结果进行综合计算分析,最终筛选得出识别结果,并通过统一接口转发至系统Web控制台或其他各集成系统进行前端展示。
内容识别策略可自定义设置,识别策略可配置如下:
z适当提高可信的人脸识别相似度。一般深度学习模型认为人脸相似度> 85% 则认为可信,为避免误检,在没有其他策略加成下,提高可信的人脸相似度至95%;
z文字识别和语音识别结果辅助人脸识别。根据文字识别和语音识别功能模块的比对结果,若结果中存在目标人物的名字,则认为该人物后续在视频中出现的概率非常高,故可适当降低可信的人脸相似度百分比;
z编目语义分析结果辅助人脸识别。编目元数据或关键帧信息中若包含目标对象信息,则可适当降低可信的目标对象相似度;
z区分像和单人等识别场景。根据不同场景变化,动态调整可信的目标对象相似度;
z人物出现的关联性考虑。之前已识别出的人物在之后出现的概率,比其他人物首次出现概率要高,针对这类情况,可适当降低可信的人脸相似度百分比。
3. 模型识别层
(1)人脸识别
人脸识别功能模块利用卷积神经网络(CNN,Convolutional Neural Network)模型来训练人脸特征库,针对每一张视频抽帧图片,系统首先对其进行人脸检测,若存在人脸,则将每个人脸区域进行模型对齐,到五点坐标,包括左眼、右眼、鼻尖、左嘴角、右嘴角,之后进行人脸特征提取(Face Feature Extraction),将一张人脸图像转化为一串具有表征人脸特点能力的固定长度的特征向量值,
将得到的特征向量值与数据层中存储的目标人物人脸特征数据库中进行计算比对,出最相似的候选人,并将比对结果返回给策略处理模块。人脸识别功能模块能够基于多个目标对象和多个待识别视频,进行1:1、1:N、N:1和N:N的识别比对(如图2)。
人脸识别的难点在于对人物侧脸、遮挡、模糊、光照环境差异、多人像和小头像等情况下的识别,内容识别系统可使用生成式对抗网络(GAN,Generative Adversarial Networks)这种深度学习模型来进行正脸预测。GAN模型
113Advanced Television
Engineering
芯片怎么烧录程序
多人像小头像等情况的人脸进行正脸预
测,并将预测的正脸特征向量值与目标人物
特征值进行计算比对(如图3)。
(2)图像识别
图像识别功能模块对视音频处理模块提
交的抽帧图片进行图像检测和识别,通过选
择性搜索(Selective Search )算法,对抽帧图
聚四氟乙烯滑动支座
片中可能存在物体的区域进行目标检测,然
后对这些区域依次利用卷积神经网络提取特
超微电极
征值。最后,将图像特征值与在数据层中存
储的目标对象数据库进行查询比对,并将比
对结果返回至策略处理模块。图像识别模块
能够针对视频内容中出现的背景图案、旗帜、
图标等进行智能检测和识别(如图4)。
(3)文字识别
文字识别功能模块利用光学字符识别
(OCR ,Optical Character Recognition )技术
密目网和相关算法,对视频中的抽帧图片进行文字
的检测和识别。OCR 文本识别是结合文字场
景特点,在前沿物体检测方法基础上,采用
R-CNN 深度学习、图像目标检测和内容识
别技术,利用特征提取、特征加强、边界盒
生成及边缘优化算法,将自然场景图像中的
文字区域使用边界盒(Bounding box )定位
出来,并进行文本校正,通过投影直方图分
割出单行的文本图片,之后进行字符分割和
字符分类识别。最后,将识别出的文本字符
数据在目标对象数据库中进行比对,并将比
油动多旋翼
对结果返回至策略处理模块(如图5)。
(4)语音识别
语音识别功能模块利用自动语音识别
横向切片
(ASR ,Automatic Speech Recognition )技术和相关算法,针对视音频处理模块统一转码重采样后的音频流进行智能识别,将其中的语音内容转换为计算机可以识别的文本字符信息。语音识别功能模
块首先将音频流切分为多个片段,每一个片段通过声学模型的运算,来寻
和哪个音最为匹配,之后结合几个片段,形成
猜测,这就形成了识别的结果。最后,将此结果与目标对象数据进行比对,并将比对结果返回至策略处理模块(如图6)。(5)语义分析
内容识别系统可利用语义分析功能模块,对媒体内容文件的编目元数据信息进行比对识别,筛查是否存在目标对象的有关信息,语义分析的识别结果既可以直接排查目标对象,也可返回至策略处理模块,将媒资文件关键帧的定位信息作为人脸识别、图像识别等可信相似度的加权辅助手段。
4. 数据层
数据层存储了Web客户端控制台配置的系统参数、权限管理和识别策略等关系型数据,以及期望识别出的目标对象数据的特征向量值,并建立了目标对象数据库。数据层若接收到模型比对层发送的数据比对请求,则利用Facebook 开源相似性搜索类库Faiss,在目标对象数据库中进行特征向量的相似性比对,并将比对结果返回给策略处理模块。节目播出内审等节目制播管理的多个环节。目前,人工智能技术虽然不能完全替代人工进行内容审查,但可以有效辅助内审人员,对视音频内容中所出现的敏感人物、非法图案、文字以及相关语音信息等进行更加高效、智能的识别,从而使内审工作效率实现飞跃式提升。
之后,需要重点针对人物大角度侧脸、像小脸、光照变化、大面积遮挡或视频模糊的场景,不断优化人脸识别相关算法,并加强对各类图像、标识的深度学习训练,提高对视频背景中出现的不规则文字或特殊标记的识别准确度,努力推进人工智能技术在广电行业中面向复杂场景,处理复杂问题的成功应用。
参考文献
[1] 中国电子技术标准化研究院,人工智能标准化白皮书(2018版),2018.1。
[2]  吴岸城,神经网络与深度学习,电子工业出版社,2016.6。
资料索引号:OG011
115Advanced Television
Engineering

本文发布于:2024-09-21 23:35:14,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/149071.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:识别   进行   内容   目标   人工智能   视音频   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议