【语音识别基础】总有一天你会用到,嗯,没有公式~

【语⾳识别基础】总有⼀天你会⽤到,嗯,没有公式~
-- 原创,未经授权,禁⽌转载 --
语⾳交互将会成为新的⼊⼝,也是各⼤公司务必争夺的资源之⼀,资源是指数据,不是技术,因为技术会开放,⽽有价值的有标注的数据才是制胜法宝。
所以,pm们需要了解语⾳识别技术的基础,总有⼀天你会⽤到,并且这⼀天不会太远。
我会从以下⼏个⽅⾯介绍语⾳识别:
语⾳识别基础.png卷纸架
缓冲块
⼀、 语⾳识别的基础概念
1. 概念
⾃动语⾳识别(Automatic Speech Recognition,ASR)技术是⼀种将⼈的语⾳转换为⽂本的技术。
炉灶节能器这项技术被当做是可以使⼈与⼈、⼈与机器更顺畅交流的桥梁,已经在研究领域活跃了50多年。
2. 发展
研究领域分类任务分类
语⾳对话系统
语⾳识别系统的架构
左半部分可以看做是前端,⽤于处理⾳频流,从⽽分隔可能发声的声⾳⽚段,并将它们转换成⼀系列数值。
声学模型就是识别这些数值,给出识别结果。后⾯我们会详细解释。
右半边看做是后端,是⼀个专⽤的搜索引擎,它获取前端产⽣的输出,在以下三个数据库进⾏搜索:⼀个发⾳模型,⼀个语⾔模型,⼀个词典。
【发⾳模型】表⽰⼀种语⾔的发⾳声⾳ ,可通过训练来识别某个特定⽤户的语⾳模式和发⾳环境的特征。
纳米烟嘴【语⾔模型】表⽰⼀种语⾔的单词如何合并 。
【词典】列出该语⾔的⼤量单词 ,以及关于每个单词如何发⾳的信息。
a)信号处理和特征提取:
排石床
以⾳频信号为输⼊,通过消除噪声和信道失真对语⾳进⾏增强,将信号从时域转化到频域,并为后⾯的声学模型提取合适的有代表性的特征向量。
b)声学模型:
将声学和发⾳学的知识进⾏整合,以特征提取部分⽣成的特征为输⼊,并为可变长特征序列⽣成声学模型分数直柄立铣刀
c)语⾔模型:
语⾔模型估计通过训练语料学习词与词之间的相互关系,来估计假设词序列的可能性,⼜叫语⾔模型分数。如果了解领域或任务相关的先验知识,语⾔模型的分数通常可以估计的更准确。
d)解码搜索:
综合声学模型分数与语⾔模型分数的结果,将总体输出分数最⾼的词序列当做识别结果。
2. 语⾳识别技术详解
看完上⾯的架构图,你应该有个⼤致的印象,知道整个语⾳识别是怎么回事⼉了。下⾯我们详细说⼀些重要的过程。
2.1 语⾳识别单元
我们的语⾳内容,由基本的语⾳单元组成。选择要识别的语⾳单元是语⾳识别研究的第⼀步。
就是说,你要识别的结果是以什么为基础单位的?是单词还是元⾳字母?
语⾳识别单元有单词 (句) 、⾳节和⾳素三种,具体选择哪⼀种,根据具体任务来定,如词汇量⼤⼩、训练语⾳数据的多少。
语⾳识别单元
【⾳素】:在汉语⾥,最⼩的语⾳单位是⾳素,是从⾳⾊的⾓度分出来的。
【⾳节】:⼀个⾳素单独存在或⼏个⾳素结合起来,叫做⾳节。可以从听觉上区分,汉语⼀般是⼀字⼀⾳节,少数的有两字⼀⾳节(如“花⼉”)和两⾳节⼀字。
语⾳识别单元
2.2 信号的数字化和预处理
接下来就要将收集到的语⾳转化为⼀系列的数值,这样机器才可以理解。
1)数字化
声⾳是作为波的形式传播的。将声波转换成数字包括两个步骤:采样和量化。
为了将声波转换成数字,我们只记录声波在等距点的⾼度,这被称为采样(sampling)。
采样定理(Nyquist theorem)规定,从间隔的采样中完美重建原始声波——只要我们的采样频率⽐期望得到的最⾼频率快⾄少两倍就⾏。
经过采样,我们获取了⼀系列的数字,这些数字才可以在机器上进⾏建模或计算。
我们每秒读取数千次,并把声波在该时间点的⾼度⽤⼀个数字记录下来。把每⼀秒钟所采样的数⽬称为采样频率或采率,单位为HZ(赫兹)。

本文发布于:2024-09-20 13:52:52,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/103420.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:识别   模型   采样   分数   声波   声学   单元   技术
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议