首页 > 专利学习

深度学习在语音识别中的算法、应用、数据集、行业分析

深度学习在语⾳识别中的算法、应⽤、数据集、⾏业分析

0 语⾳识别概述 1

1 语⾳识别的算法 2

1.1.1 DNN-HMM 2

1.1.2 RNN-CTC 3

1.1.4FSMN 3

1.1.5 LSTM-DNN电话交谈语⾳识别 3

1.1.6Android科⼤讯飞语⾳识别源码及API下载 3

2. 语⾳识别的应⽤场景 4

2.1语⾳识别的智能家居框架 4

2.2移动端的使⽤ 5棒球棍材料

2.3内容监管上的运⽤ 6

2.3.1 语⾳识别技术应⽤之⾳频切分和分类技术 6

2.3.2 语⾳识别技术应⽤之⾳频模板匹配技术 6

2.3.3 语⾳识别技术应⽤之节⽬的⾃动发现技术 7

2.4 语⾳导航系统 7

2.4.1 语⾳导航系统构架 7

2.5 医疗领域 9

2.6 在社交⽅⾯的运⽤ 9

养蜂专用车风刀干燥机3 语⾳识别数据集 11

机顶盒支架4 语⾳识别⾏业分析 12

4.1 智能语⾳技术取得重⼤突破，商业化落地成为可能 12

4.2 智能车载、智能家居及可穿戴设备风潮的兴起加速语⾳技术落地 13

4.3科技巨头，初创公司纷纷从不同维度布局相关产业链 14

4.4 ⾯向物联⽹的智能语⾳产业链的形成将引起商业模式的变化 16

0 语⾳识别概述

1 语⾳识别的算法

2.语⾳识别的应⽤场景

2.1语⾳识别的智能家居框架

本系统由软件和硬件两部分组成, 如图 2所⽰.软件部分⼜分为云端和嵌⼊式客户端. 云端和客户端各⾃集成了⼏个主要模块, 分别实现不同的功能

图2 系统架构模型

云端软件运⾏在 Linux 上, 它包含声学模型、语⾳模型、语料库、CMU Sphinx ⼯具包、Java 虚拟机. 云端主要功能是接受客户端发送的语⾳⽂件转化成⽂本⽂件返回, 应⽤程序模块全部使⽤ Java 开发, 调⽤

CMU Sphinx 提供的类库. 主要功能包含语⾳识别算法和语义转换模块, 它被部署在 Java 虚拟机上. 语⾳识别算法的主要过程有: 语⾳输⼊、预处理、特征提取、模型匹配、输出结果. ⾸先必须使⽤ CMU Sphinx的训练⼯具以特定声学模型为基础对语料库获取匹配的 MFCC 特征数据, 然后使⽤ MAP 和 MLLR ⾃适应技术来改进原来的声学模型。

2.2移动端的使⽤声波驱散器

随着移动互联⽹技术的不断发展，尤其是移动终端的⼩型化、多样化变化趋势，语⾳识别作为区别于键盘、触屏的⼈机交互⼿段之⼀，在需要解放双⼿的环境下、对于双⼿或视觉残障⼈⼠、对于⽆法通过触觉控制的微型设备都具有独特的优势。随着语⾳识别算法模型、⾃适应性的加强，相信在未来很长⼀段时间内，语⾳识别系统的应⽤将更加⼴泛与深⼊，更多丰富的移动终端语⾳识别产品将步⼊⼈们的⽇常⽣活。

就算对于正常⼈来说，例如寒冷的冬天，有⽆数次需要⽤⼿机却死活不想伸⼿。打电话，发，查路线，叫车，这些如果都可以⽤⼀个可穿戴设备通过语⾳控制实现，那该多好啊。⽬前出门问问团队

以做出搭载 Moto 360 的智能⼿表操作系统Ticwear，可以实现直接语⾳控制滴滴打车。

早在⼀年前，Intel 就开发出可穿戴设备原型 Jarvis，可戴在⽿朵上之后连⼊⼿机，以此实现听懂主⼈发出的指令、给予语⾳反馈的功能，充当类似 Siri 的个⼈语⾳助⼿⾓⾊

2.3内容监管上的运⽤

2.3.1 语⾳识别技术应⽤之⾳频切分和分类技术

⾳频切分和分类技术的应⽤范围⾮常⼴，以语⾳识别和关键词处理⼴播电视⾳频信息为例，⾸先要做的就是要打点切分⾳频打点切分的时候可以利⽤静⾳检测⽅法进⾏，静⾳检测法在定位⽅⾯确性更⾼，可以为之后的⾳频分类奠定基础。在⾳频打点切分完成后，将切分得到的各⾳频⽚段加以分类，使之后的⾳频处理有据可循。

2.3.2 语⾳识别技术应⽤之⾳频模板匹配技术

知道节⽬的⽚头曲或者⽚尾曲，则可以利⽤⾳频模板匹配技术对节⽬（⽚段）进⾏⾃动打点和分割。在压缩及信号传输的影响下，⾳频流与固定模板之间会产⽣巨⼤差别，⽽解决鲁棒性是其核⼼所在，通过基于多频带能量相对⽐率的特征提取⽅法，利⽤各时刻所对应的各个频带的能量分布趋势相对稳定这⼀特性，解决因为⾳频扭曲造成不稳定的问题。

2.3.3 语⾳识别技术应⽤之节⽬的⾃动发现技术

为了更好地进⾏本次研究，下⾯笔者将以⼴告识别作为样本，利⽤⾳频重复性检测获取新⼴告⽚段，具体内容概括如下：⾸先，因为针对的是⾃动发现未知新节⽬和⼴告⽽设计的，所以在实际过程中需要将待处理数据从已知模板中去除掉，以便能够减⼩计算量；其次，在进⾏重复候选位置的定位时，通过基于⾳频向量空间模型的快速⾳频搜索算法进⾏定位，但在具体过程中，因为会召回⼀些错误⽚段，所以有必要进⾏过滤处理；再有，利⽤基于⾳频指纹的搜索确认，⽤⾳频向量空间模型检测出来的重复⽚段，这样检测出的结果准确性更⾼，进⾏重复候选确认，进⽽检测出误报⽚段。

通过上述⼏个步骤的操作，余下的⽚段均是重复⽚段，既有⼴告内容的重复部分，也有新闻或者电视节⽬中的重复部分，然后利⽤图像帧变化率这⼀特征进⾏区分，将⼴告重复部分之外的内容去除。

2.4 语⾳导航系统

2.4.1 语⾳导航系统构架

1）客户通过⼿机或者固话，利⽤排队机接⼊呼叫中⼼系统，在 CTI 和 IVR 的控制下，当⽤户需要语⾳导航业务时，通过呼叫平台实现话务接⼊，平台记录下的原始语⾳⽂本，并进⾏播报⽤户确认⽆误后，将该⽂件作为语⾳识别引擎的输⼊；

2）原始的语⾳⽂件信息经过语⾳识别模块，分别经过特征提取、端点检测、去燥处理等语⾳识别预

处理技术，经过处理过的较为⼲净的语⾳⽂件在经过离线解码、在线解码、置信度等处理，转出成⾃然语⾔⽂本信息，并将原始⽂件信息、原始语⾳信息、语⾳特征信息存⼊⽂本/ 语⾳语库中。

3）将⾃然语⾔⽂本信息经过⾃然语⾔处理，分别经过模式匹配、语法分析、语义解析、语义搜索、上下⽂管理、预测等技术处理，将⾃然语⾔⽂本信息转换成计算机能识别的语⾳信息作为输出物。

4）并进⾏业务需求的分析，为⾃然语⾔处理引擎提供关键数据输⼊。

2.5 医疗领域

不仅是简单的通过智能⼿表追踪运动情况和⼼率，还有直接根据⼈的⾝体状况匹配相应的服务如合适的餐厅或⾷物等，当然这些⼤多是基于可穿戴设备的。另外还需要考虑到更多场景，诸如紧急语⾳求助，医患对话存档，呼叫中⼼的对话听写等。

p2p网络电视录像专家由于医疗领域词汇库专业性强演变性弱，只要建⽴完整的数据库，就可以做到对疾病名称、药品名称相对精确的识别。国内已有的应⽤如病历夹与珍⽴拍，为医⽣提供⼀个安全存储病历资料的云空间，⽅便查病例，⽀持语⾳搜索功能。

2.6 在社交⽅⾯的运⽤

A、熟⼈通讯⽅⾯，我们应该都见过这样的场景，出租车上司机们通过对讲平台互相勾兑、插科打诨。路上匆忙的低头族，很多都在回，⽽如果通过声控交互构建⼀个对讲平台，这个体验就完全不⼀样了，你不需要⽤眼和⼿也可以随时给某某捎去⼀段话，别⼈给你发来语⾳、声控交互会提⽰你是否接听，⽽如果这个交互可以通过⽿麦⾃动识别微⼩的语⾳（并根据接听者情况适度放⼤），那么以后⾛在路上就可以轻松⽽不违和地与⼈通话了，这个事情的意义在于将从另⼀个⾓度接管⽤户的关系链，形成⼤⽹优势。

B、陌⽣⼈社交⽅⾯，当下社交产品最⼤的痛点就是社交质量差、低效社交多、效率远远赶不上⽤户预期，⼀个突出表现就是搭讪⽆⼈理睬、理睬也在若⼲⼩时之后（所以⼈们为何喜欢直播，因为美⼥主播⾄少会说谢谢反馈下），但是语⾳沟通是⼀个更加强调即时性和真实性的场景，⼜不像视频那么需要“化妆和端着”，所以反⽽可能成为新的突破⼝。⾄于当下的语⾳社交平台为何多数做的不好，因为太像⾊情声讯台了！

C、兴趣推荐。如果选择值得⼀听的声⾳节⽬成本如此之⾼，那么⼀个⽐较好的办法就是基于兴趣的推荐来降低选择难度。⽐如喜马拉雅已经推出了“猜你喜欢”系统，可以通过深度学习、进⾏类似今⽇头条那样的个性化推荐。那么再进⼀步，如果以后这个推荐可以不需要通过眼睛完成呢，直接传来⼀个声⾳：“⼩喜根据你的爱好搜到了⼏个节⽬，下⾯念下标题，你感兴趣就喊要这个……”

D、时空触发。这个意思是，应该给更多的信息赋予时空属性，⽐如在某⼀时刻放出，或者在某⼀位置放出。举⼀个例⼦，你今天刚到⼀家商场，连上wifi，⽿麦⾥⽴刻提醒你有最新的优惠活动信息、要不要听。你像即刻那样设置⼀些关注节点，⽐如某股⼜跌了，当这个消息到来，⽿麦⾥⽴刻提醒你要不要听。你到达某个景点，⽿边响起景点的典故。你晚上睡不着了，⽿边响起周围⼈的声⾳，像不像《her》？

E、做强参与。同为视频，直播爆⽕的劲头远远强于当年的视频平台和短视频，这也释放了⼀个信号，⽤户并不满⾜于成为单向的内容接受者，他们也希望成为内容的参与者甚⾄再创作者，他们也希望得到更多的互动和回馈，来满⾜参与感、存在感和归属感，所以类似电台的互动直播很重要。

3 语⾳识别数据集

4 语⾳识别⾏业分析

4.1 智能语⾳技术取得重⼤突破，商业化落地成为可能

◈智能语⾳技术是⼈⼯智能产业链上的关键⼀环

⼈⼯智能产业链主要分为三个层次。

底层是基础设施，包括芯⽚、模组、传感器，以及以⼤数据平台、云计算服务和⽹络运营商。这部分参与者以芯⽚⼚商、科技巨头、运营商为主。

中间层主要是⼀些基础技术研究和服务提供商。包括深度学习/机器学习、计算机视觉、语⾳技术和⾃然语⾔处理以及机器⼈等领域。这⼀模块需要有海量的数据，强⼤的算法，以及⾼性能运算平台⽀撑。代表性企业主要有BAT、科⼤讯飞、微软、亚马逊、苹果、facebook等互联⽹巨头和国内⼀些具有较强科技实⼒的⼈⼯智能初创公司。

最上层是⾏业应⽤。⼤致分为2B和2C两个⽅向。2B的代表领域包括安防、⾦融、医疗、教育、呼叫中⼼等。2C的代表领域包括智能家居、可穿戴设备、⽆⼈驾驶、虚拟助理、家庭机器⼈等。相关代表性企业既包括互联⽹科技巨头，也包括⼀些初创⼚商。

◈ 中国⼈⼯智能市场规模持续增长，智能语⾳将居于重要地位

◈ 智能语⾳技术成熟，商业化应⽤成为可能

深度学习、⾼性能运算平台和⼤数据是⼈⼯智能技术取得突破的核⼼助推⼒。深度学习端到端解决了特征表⽰与序列影射的问题，使得⼈⼯智能的性能得到了快速提升；⽽互联⽹时代海量的数据⼜不断为算法模型提供了训练材料，同时，云计算的兴起和⾼性能的运算平台为智能化提供了强⼤的运算能⼒和服务能⼒。

在语⾳识别率⽅⾯，百度、⾕歌，科⼤讯飞等主流平台识别准确率均在96%以上，稳定的识别能⼒为语⾳技术的落地提供了可能。

◈ 商业场景落地的重要环节语⾳交互有了重⼤突破

与此同时，语⾳交互的核⼼环节也取得重⼤突破。语⾳识别环节突破了单点能⼒，从远场识别，到语⾳分析和语义理解有了重⼤突破，呈现⼀种整体的交互⽅案。

4.2 智能车载、智能家居及可穿戴设备风潮的兴起加速语⾳技术落地

◈ 智能语⾳市场整体处于启动期，智能车载，智能家居，智能可穿戴等垂直领域处于爆发前夜

◈ 智能车载市场前景⼴阔，预计五年内车联⽹渗透率超过50%，语⾳将成为车载系统标配

◈ 智能家电渗透率提⾼，智能家居市场蕴涵千亿市场规模，语⾳作为家居交互⼊⼝将⼤有所为

4.3科技巨头，初创公司纷纷从不同维度布局相关产业链

◈ 国外科技巨头：通过并购等⼿段，夯实核⼼技术，开放应⽤平台，在既有的产品和业务中实现AI first，扩展以AI为核⼼的⽣态系统

在技术层，科技巨头多推出算法平台吸引开发者，实现产品快速迭代，打造开发者⽣态链，形成⾏业标准。例如，⾕歌通过⼀系列并购、开放平台的建⽴，软件硬件⼀体化来打造这个⽣态系统。

苹果在⾃⾝⽣态系统中相继推出⾯向可穿戴、家居、车载等领域的产品。亚马逊则基于⾃⾝电商⽣态业务，推出智能⾳箱，成功敲开了智能家居的⼤门。

◈ ⾕歌：延续既有开放模式，打造开发者⽣态链，推出Google Home，试图建⽴物联⽹时代安卓系统

在⾕歌的AI first战略中，⼀⽅⾯，推出⼈⼯智能学习系统平台TensorFlow，以吸引开发者，实现产品快速迭代，打造开发者⽣态链，形成⾏业标准；另⼀⽅⾯，推出⾕歌家庭，试图建⽴物联⽹时代安卓系统。同时，将AI技术应⽤于其原有的产品中，⽐如Google输⼊法、Google 翻译、Google Now等，不断提升产品性能，优化⽤户体验。

◈ 苹果：基于智能硬件定标准、做平台、获数据，重视物联⽹时代⽣态控制权

与⾕歌的开放⽣态不同，苹果依旧延续了其既有的封闭系统，瞄准物联⽹时代的⽣态控制权。同时，以硬件擅长的苹果这次仍从布局硬件起步，打造软硬件⽣态系统，依靠其⼴泛的OS系统⽤户，再基于已推⼴的OS系统拓展⾄物联⽹产业链。

◈ 国内互联⽹巨头：开放语⾳⽣态系统，以产业内合作的⽅式，将语⾳技术植⼊产品和或应⽤于相关

业务场景，构建全产业⽣态链

在中国，以BAT等为代表的众多互联⽹巨头也纷纷开发智能语⾳市场。在语⾳⽣态系统⽅⾯，百度宣布语⾳识别技术及能⼒全⾯开放。腾讯、搜狗语⾳开放平台相继上线。

◈ 百度：瞄准⼈⼯智能战场，对外开放语⾳⽣态系统，对内在⾃⾝产品业务中实现AI First

◈ 国内智能语⾳公司：依托原有优势，从单⼀智能语⾳技术商转型全⽅位⼈⼯智能技术服务商

◈ 科⼤讯飞：传统优势明显，未来将更注重通⽤⼈⼯智能技术和平台级业务的拓展

科⼤讯飞长期在教育领域拥有绝对优势。除教育外，政府便民⼯程、呼叫中⼼和客服也是讯飞长期深耕的领域。

近两年讯飞的重点关注的领域开始向移动互联⽹和物联⽹转移。从业务布局层⾯看，先后发布讯飞云平台和⼈⼯智能交互平台AIUI，利⽤通⽤的⼈⼯智能技术和平台级业务，将语⾳识别、⾃然语⾔处理能⼒授权给第三⽅，或者与其他公司进⾏合作，并且开始向垂直领域拓展。 ◈ 初创⼚商：以垂直领域和细分场景为突破⼝，重点布局家居，车载和可穿戴设备

◈ 图灵机器⼈：定位于语义和认知计算的平台服务提供商，提供聊天机器⼈平台和机器⼈操作系统

4.4 ⾯向物联⽹的智能语⾳产业链的形成将引起商业模式的变化

◈ 未来趋势：以语⾳为⼊⼝，建⽴以物联⽹为基础的商业模式

◈ 智能家居：以合适的⼊⼝级应⽤为载体，基于万物互联的标准，将技术与硬件结合，实现内容和服务的拓展

◈ 智能车载：车联⽹向纵深⽅向发展，硬件基础功能免费，基于⽤户数据的挖掘和增值服务将成为未来主要赢利点

本文发布于:2024-09-25 22:23:18，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/202061.html

上一篇：大众的OTS报告

下一篇：边缘AI助力MT8518,智能语音助手功耗再降低