福建省广播电视节目智能语音分析系统研究与应用

Industry Observation

产业观察

DCW

数字通信世界

2021.01

0 引言

福建省广播电视监测中心在福建省广播电视局的带领下，结合福建地缘特和智慧广电监管工作实际，开展了闽南语语音识别在福建智慧广电监管中的应用场景及关键技术研究。在前期的研究基础上，本次将语音识别技术、语音合成技术与自然语言处理技术和目前监测中心的广播电视监听监看系统等业务系统进行了对接，极大地提高监测监管的效率。

1 智能语音识别技术在智慧广电监管的应用

福建省智慧广电监管平台建设的技术路线，是根据福建省广播电视监测监管开展现状及发展规划，采取由

基础到全面、由部分到整体、由简单到复杂、由自动到智能的方式，逐步完善监管平台。

福建省智慧广电监管平台通过统一数据接口，获取到黑广播监测设备、广播电视监测设备、 IPTV 监测设备等各个监测监管设备采集的音频文件以及视频文件。由于闽南语广播电视节目中普通存在闽南语和普通话夹杂的情况，利用单一的语音识别技术，无法有效地针对该情况进行识别和分析。本文创新性的使用 V AD 、LID 等技术针对闽南语和普通话新闻内容进行识别分析，过程如下：

（1）首先通过接口程序与现有的各个业务系统进行数据对接。

（2）通过统一的音视频处理程序将音视频文件处理

福建省广播电视节目智能语音分析系统研究与应用

郑　晔1，欧智坚2，杨　艇1

大圆肌

（1.福建省广播电视监测中心，福州福建 350001；2.清华大学电子工程系，北京 100086）

摘要：结合智慧广电监管的相关法律法规，介绍了以人工智能语音识别、自然语言理解技术为基础，针对普通话、闽

南语等广播电视节目进行智能识别分析，高效准确的对广播电视中的非法内容、违规词汇进行识别；对广播电视监测工作质量、工作效率的提升具有重要作用。结合福建省广播电视监测中心智慧广电监管的实际，从系统需求分析、系统设计、功能模块等方面进行了描述。

关键词：广播电视；语音识别；智慧广电监管doi ：10.3969/J.ISSN.1672-7274.2021.01.015中图分类号：TP182 文献标示码：A 文章编码：1672-7274（2020）01-0039-03

Research and Application of Intelligent Voice Analysis System for

Radio and TV Programs in Fujian Province

ZHENG Ye 1, OU Zhijian 2, YANG Ting 1

(1.Fujian Radio and Television Monitoring Center, Fujian 35001, China;2.Department of Electronic Engineering, Tsinghua University, Beijing 100866, China)

Abstract :Based on the relevant laws and regulations of smart radio and television supervision, this article introduces

北京地下直径线

the intelligent recognition and analysis of hokkien broadcast and television based on arti ﬁ cial intelligence speech recognition technology. This technology has an important role in improving the quality and ef ﬁ ciency of iillegal content and illegal words monitoring work and .synthesis for Hokkien emergency broadcast. Combined with the reality of smart radio and television supervision in Fujian Radio and Television Monitoring Center, this article describes the system requirements analysis, system design, and functional modules.

Keywords :radio and television; automatic speech recognition; smart radio and television supervision

作者简介：郑晔（1965-），男，高级工程师，福建省广播电视监测中心主任，本科，主要从事广播电视监测、视听新媒体监管方面的研究，曾参与过福建省

广播电视综合监管平台等项目。

欧智坚（1975-），男，清华大学电子工程系副教授，博士，从事语音处理与人工智能相关教学与科研工作，领导自然科学基金、 863、教育部、科

技部等多项国家级项目，与 Intel 、IBM 、Panasonic 、Toshiba 等合作研发，在人工智能、语音顶级学术期刊（ TPAMI 、TASLP ）等发表论文 60余篇。担任国际上语音领域顶级学术期刊（TASLP ）

编委，权威学术机构（IEEE 语音语言技术委员会）委员，中国计算机学会（ CCF ）语音对话与听觉专委会委员，全国人机语音通信会议常设机构委员会委员，及担任多个国际会议组委会成员，担任多个国际会议、学术期刊和国家级项目评审人。

杨艇（1987-），男，工程师，福建省广播电视监测中心网信科副科长、负责人，硕士，主要从事广播电视监测、视听新媒体监管方面的研究，曾

参与过福建省广播电视综合监管平台等项目。

观察

Industry Observation

I G I T C W 产业

40DIGITCW

2021.01

为标准的语音识别格式， 16 kHz 16 bit 单声道的 WA V 文件。由于语音文件中包含大量的静音、音乐、噪声等内容，通过利用语音端点检测（ V AD 是V oice Activity Detection 的缩写）技术，从带有

噪声的语音中准确的定位出语音的开始和结束点，将整段的音频文件划分为多个音频片段。选用特征 MLER （Modi ﬁ ed Low Energy Rate ）[1]，[2]的分类方法，把音频信号分成纯语音、非纯语音、音乐、环境音和静音 5类。

（3）将语音类型的音频片段利用语种识别程序，给定一个待聚类的语音，对其以句子为单位进行切分并转化为梅尔倒谱，通过x-vector 提取器来提取每个句子的语种特征矢量。使用 Joint Bayesian 算法来对语种特征矢量两两进行评分，来计算句子之间的相似度；最终使用层次聚类得到最终的语种识别结果。

（4）通过使用 websocket 协议根据语种信息将音频片段发送至对应的语音识别引擎[3]，[4]。语音识别引擎通过加载声学模型、语言模型以及词典对音频进行解码，输出每个音频片段对应的文本结果，并结合V AD 分段信息，将各个音频片段的信息进行汇总整合，形成整段音频文件的文本结果。2012年诺贝尔奖获得者

（5）通过关键词文本检索技术，针对音频文本结果进行全文检索，匹配出所有的关键词信息以及开始时间、结束时间；通过中文分词、词性标注、专名识别等功能，统计出指定词性关键词出现的频率，形成关键词词云；通过采用基于情感语义的舆情分析技术，针对文本内容进行整理、跟踪、分析，利用智能标签、智能聚类、自动垃圾过滤，准确把握网络热点事件的脉络。

（6）通过统一数据接口将音频内容以及对应的文本结果上传至黑广播监测系统、广播电视监测系统

、 IPTV 监管系统、网络视听新媒体监管系统、广播电视收测系

统等各类监测监管系统。

图1 智能语音识别技术在福建省智慧广电监管平台的应用

福建省广播电视节目智能语音分析系统总体架构设计及功能

2.1 总体架构

根据系统建设内容，为使广播电视监测监管平台业务全面化、数据分析深度化、数据安全保障化，更好地利用各子系统的相关数据，避免资源浪费，实现数据的横向共享。本系统将广播电视监测监管数据流的各层次融合到一起，包括数据源、研判层、应用层、服务层。同时，通过智能语音识别等人工智能技术，实现事件预警、舆情分析、内容违规报警等功能，总体架构如图 2

所示。

图2 福建省广播电视节目智能语音分析系统框架

uy444

（1）数据源。广播电视监听监看的数据源主要包括广播和电视两种，通过接口协议获取广播电视原始音视频文件，通过 EPG 分析获取新闻、访谈类节目，对原始的音视频文件进行切割合并形成新闻、访谈类媒资库。（2）研判层。基于智能语音识别、语种识别技术、中文分词、命名实体分析、情感分析等多维舆情分析引擎，并结合舆情知识库针对媒资库的音视频内容的进行聚类分析，形成对应的新闻、人物以及事件分析结果。（3）应用层。在本层实现数据的处理与展现以及广播电视内容效果监控工作，以完成对广播电视的监测，完成节目内容的实时监测、热点事件分析统计，实时统计分析。

（4）服务层。用户交互层主要是将通过研判层的数据结果展现给监测人员，辅助业务人员完成广播电视监测监管工作，其主要功能包括：系统预警发布、人工值班监测、大屏数据展示、定制报告。

2.2 系统功能

系统包括电视栏目、广播栏目、综合舆情、技术审核、专家评议、综合检索、统计报表、系统管理等模块。以电视栏目为例，左侧显示福建省所有广播电视频道以及监测的栏目，通过点击栏目名称，中间的音视频播放区采用 HLS 流媒体技术播放指定的栏目，页面右侧显示出该栏目的语音识别结果，包含普通话及闽南语。页面下方左侧采用关键帧形式能够快速的针对视频进行浏览，右面下方右侧通过自然语言理解获取该栏目的高频词并及词云的形式进行展现。系统界面如图3所示。

2.3 应用效果

通过将智能语音识别引擎与广播电视监测监管系统

对接，在半年的系统试运行期内，系统共针

（下转第257页）

Experience Exchange

经验交流

DCW

257

数字通信世界

2021.01

B 、

C 的实际MAC 地址和IP 地址，进行ARP 欺骗报文各个字段取值设计，并完成表3中9个字段的内容填写。

表3 ARP 协议欺骗报文设计

ARP 协议字段名称字段取值

Hardware type Sender MAC address Protocol type Sender IP address Hardware size Target MAC address Protocol size Target IP address Opcode

Sender MAC address Sender IP address

（2）参考实验指导书步骤，使用AnySend 工具进行ARP 欺骗攻击报文的编辑与发送，并通过观察ARP 高速缓存表、利用Wireshark 对PING 数据流进行抓包，实现对攻击结果的判断与验证。墨白不起眼的一颗星

（3）实验过程中，各小组内C 同学需要与A 、B 同学配合，对实验过程产生的问题与结果进行共同观察、分析与探讨，提升学生团队协助意识与能力。

4.4 实验考核

在实验操作过程中设置若干考核点，将整个实验划分为若干个可考核的子过程，以便于验证各过程产生的实验结果，发现实验主要问题，并对学生的实验操作过程进行评价。设计考核表如表4所示。

表4 ARP 协议欺骗设计与实现实验考核点

考核点序号

考核内容

分值1本主机C 、主机A 、主机B 的MAC 地址及IP 地址是否正确

10分2ARP 协议欺骗报文设计是否正确

20分3AnySend 工具中ARP 报文字段及发包属性设置是否正确

20分4主机A 上是否接收到主机C 发送的ARP 欺骗报文20分5主机A 上的ARP 高速缓存表是否被篡改成功

20分6

公共自行车服务系统主机C 上抓包是否能成功捕获主机A ping 主机B 的报文

10分

4.5 实验扩展与思考

教师对知识进行扩展，从本实验内容ARP 主机欺骗

延伸到ARP 网关欺骗，以及实际工程应用中，如何部署ARP 欺骗的防御策略等。并在实验最后布置实验扩展内容及思考问题给学有余力、学习兴趣浓厚的同学，在课

后完成，为学生提供提升的空间，锤炼学生独立思考，提升学生解决更复杂问题的能力，如：

（1）若要对本网络内若干个IP 连续的目标主机实现ARP 欺骗，该如何利用AnySend 工具构造报文？

（2）若AnySend 工具中止发送ARP 欺骗报文，主机A 和B 之间的通信能否恢复？为什么？

5 结束语

结合福州理工学院应用型本科院校的办学定位，针对网络协议分析课程“三维”能力培养目标矩阵，分析了课程实验教学的主要问题，提出将协议编辑工具应用到网络协议分析课程的实验教学中。在课程的教学改革中，注重新工科的标准和新产业的要求，培养学生发现问题、分析问题、解决问题的方法和思路，最终具备解决复杂工程问题的能力。根据我校2016级、2017级网络工程专业学生对课堂教学的反应以及学校评教系统的评价数据分析，基于协议编辑的网络协议分析课程实验教学改革，有效调动了学生的学习兴趣和主观能动性，学生的技能核心和职业素养得到提升，取得良好教学效果。

参考文献

[1] 詹成.网络协议分析课程实践教学研究[J].电子技术，2016，45（05）：39-41.

[2] 杨文茵，马莉，周灵，丁伟雄.地方院校网络工程专业的立体化MOOC 教改探索[J].计算机教育，2015（05）：24-28.

[3] 付承彪，田安红.两种动态路由协议分析及其实验设计与仿真[J].实验技术与管理，2016，33（07）：140-144.

[4] 王炅，张华，吴征远，张小进，阮志强.基于Wireshark 的OSPF 路由协议分析与仿真[J].闽江学院学报，2019，40（02）：62-69.

[5] 徐小龙，高仲合，韩丽娟.《网络协议分析》课程教学方法研究[J].软件导刊，2016，15（03）：185-187.

[6] 王凯，李志超，王荣昌，高文清，王微雅，王炅.基于Nmap&Nessus 的漏洞扫描[J].通信电源技术，2020，37（03）：135-136.

（上接第40页）对**个广播频道、**个电视频道进行监听监看，通过声学模型及语言模型的不断自学习，闽南语识别准确率超过 85%，普通话识别准确率超过 95%。

3 结束语

系统充分利用了多语种语音识别、知识图谱等人工

智能先进技术，提高了广播电视监听监看审核人员的工作效率，已经成为维护国家安全和社会稳定、推进文化

改革发展和提高文化软实力的重要一环，更是广播影视深化改革、加快发展，确保广播电视内容导向

正确和文化安全的重要保障。同时闽南语的智能识别研究也为后续福州话、闽北方言建瓯话等语种的识别研究提供了方向，也可推广应用至其他小语种识别。

参考文献

[1] 胡艳芳，吴及，刘慧星.基于MER 的语音/音乐分类方法[J].清华大学学报：自然科学版，2008（S1）： 720-724.

[2] W .Q.Wang ， W.Gao ， D.W.Ying ， A Fast and Robust Speech/music Discrimination Approach [J]， ICICS-PCM2003， Singapore ， 2003

[3] H ongyu Xiang ， Zhijian Ou. CRF-based Single-stage Acoustic Modeling with CTC Topology[R]. IEEE International Conference on Acoustics ， Speech and Signal Processing （ICASSP ）， Brighton ， UK ， 2019.

[4] K eyu An ， Hongyu Xiang. Zhijian Ou. CAT ： CRF-based ASR Toolkit[J]. arXiv ：1911.08747，

2019.

图3 福建省广播电视节目智能语音分析系统示意图

本文发布于:2024-09-21 20:25:45，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/367364.html

上一篇：2023年中国移动口号

下一篇：50G PON承载特性和应用浅析