首页 > 专利查询

【语音识别基础】总有一天你会用到，嗯，没有公式~

【语⾳识别基础】总有⼀天你会⽤到，嗯，没有公式~

-- 原创，未经授权，禁⽌转载 --

语⾳交互将会成为新的⼊⼝，也是各⼤公司务必争夺的资源之⼀，资源是指数据，不是技术，因为技术会开放，⽽有价值的有标注的数据才是制胜法宝。

所以，pm们需要了解语⾳识别技术的基础，总有⼀天你会⽤到，并且这⼀天不会太远。

我会从以下⼏个⽅⾯介绍语⾳识别：

语⾳识别基础.png卷纸架

缓冲块

⼀、语⾳识别的基础概念

1. 概念

⾃动语⾳识别（Automatic Speech Recognition，ASR）技术是⼀种将⼈的语⾳转换为⽂本的技术。

炉灶节能器这项技术被当做是可以使⼈与⼈、⼈与机器更顺畅交流的桥梁，已经在研究领域活跃了50多年。

2. 发展

研究领域分类任务分类

语⾳对话系统

语⾳识别系统的架构

左半部分可以看做是前端，⽤于处理⾳频流，从⽽分隔可能发声的声⾳⽚段，并将它们转换成⼀系列数值。

声学模型就是识别这些数值，给出识别结果。后⾯我们会详细解释。

右半边看做是后端，是⼀个专⽤的搜索引擎，它获取前端产⽣的输出，在以下三个数据库进⾏搜索：⼀个发⾳模型，⼀个语⾔模型，⼀个词典。

【发⾳模型】表⽰⼀种语⾔的发⾳声⾳，可通过训练来识别某个特定⽤户的语⾳模式和发⾳环境的特征。

纳米烟嘴【语⾔模型】表⽰⼀种语⾔的单词如何合并。

【词典】列出该语⾔的⼤量单词，以及关于每个单词如何发⾳的信息。

a）信号处理和特征提取：

排石床

以⾳频信号为输⼊，通过消除噪声和信道失真对语⾳进⾏增强，将信号从时域转化到频域，并为后⾯的声学模型提取合适的有代表性的特征向量。

b）声学模型：

将声学和发⾳学的知识进⾏整合，以特征提取部分⽣成的特征为输⼊，并为可变长特征序列⽣成声学模型分数。直柄立铣刀

c）语⾔模型：

语⾔模型估计通过训练语料学习词与词之间的相互关系，来估计假设词序列的可能性，⼜叫语⾔模型分数。如果了解领域或任务相关的先验知识，语⾔模型的分数通常可以估计的更准确。

d）解码搜索：

综合声学模型分数与语⾔模型分数的结果，将总体输出分数最⾼的词序列当做识别结果。

2. 语⾳识别技术详解

看完上⾯的架构图，你应该有个⼤致的印象，知道整个语⾳识别是怎么回事⼉了。下⾯我们详细说⼀些重要的过程。

2.1 语⾳识别单元

我们的语⾳内容，由基本的语⾳单元组成。选择要识别的语⾳单元是语⾳识别研究的第⼀步。

就是说，你要识别的结果是以什么为基础单位的？是单词还是元⾳字母？

语⾳识别单元有单词 (句) 、⾳节和⾳素三种，具体选择哪⼀种，根据具体任务来定，如词汇量⼤⼩、训练语⾳数据的多少。

语⾳识别单元

【⾳素】：在汉语⾥，最⼩的语⾳单位是⾳素，是从⾳⾊的⾓度分出来的。

【⾳节】：⼀个⾳素单独存在或⼏个⾳素结合起来，叫做⾳节。可以从听觉上区分，汉语⼀般是⼀字⼀⾳节，少数的有两字⼀⾳节（如“花⼉”）和两⾳节⼀字。

语⾳识别单元

2.2 信号的数字化和预处理

接下来就要将收集到的语⾳转化为⼀系列的数值，这样机器才可以理解。

1）数字化

声⾳是作为波的形式传播的。将声波转换成数字包括两个步骤：采样和量化。

为了将声波转换成数字，我们只记录声波在等距点的⾼度，这被称为采样（sampling）。

采样定理（Nyquist theorem）规定，从间隔的采样中完美重建原始声波——只要我们的采样频率⽐期望得到的最⾼频率快⾄少两倍就⾏。

经过采样，我们获取了⼀系列的数字，这些数字才可以在机器上进⾏建模或计算。

我们每秒读取数千次，并把声波在该时间点的⾼度⽤⼀个数字记录下来。把每⼀秒钟所采样的数⽬称为采样频率或采率，单位为HZ（赫兹）。

本文发布于:2024-09-20 13:52:52，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/103420.html

上一篇：声波技术三维同步模型

下一篇：障碍避碰声呐的原理

标签：识别模型采样分数声波声学单元技术

留言与评论（共有 0 条评论）