首页 > 专利技术

人工智能自动语音识别系统技术规范标准

人工智能自动语音识别系统技术规范

1范围

本文件规定了人工智能自动语音识别系统的术语和定义、语音服务、基本要求、环境要求和测试方法技术要求。

本文件适用于人工智能自动语音识别系统的建设、测试和评价。

19rrr2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。

陶瓷纤维管GB3096声环境质量标准

GB/T22239信息安全技术网络安全等级保护基本要求

哺乳服装GB/T36464.1信息技术智能语音交互系统第1部分：通用规范

3术语和定义

下列术语和定义适用于本文件。

自动语音识别系统automatic speech recognition system

具有语音识别功能的开发工具、软件、装置或应用。

语音识别speech recognition

将人类的声音信号转化为文字或指令的过程。

词汇表vocabulary list

语音识别系统所包含和处理的所有词汇。

语音采集voice acquisition

通过传声器或麦克风阵列等拾音设备对语音进行采集。

语音服务voice service

人机之间通过自然语言对话来获取信息的服务。

语音合成speech synthesis

通过机械的、电子的方法合成人类语言的过程。

连续供墨

噪声noise

语音采集过程中，采集到的由非有效语音信源发出的，能干扰、影响对有效语音信号的理解或处理的声音信号。

平均意见得分mean opinion score(MOS)

语音质量的一种主观度量。

脉冲编码调制pulse code modulation(PCM)

是对连续变化的模拟信号进行抽样、量化和编码产生的数字信号。

等效声级equivalent continuous A-weighted sound pressure level

在声场中的某个位置上，用某一段时间内能量平均的方法，将间歇暴露的几个不同噪声，用这样一

个声级来表示该段时间的噪声大小。

塑料单向阀

语音唤醒speech wakeup

处于音频流监听状态的语音交互系统，在检测到特定的特征或事件出现后，切换到命令词识别、连续语音识别等其他处理状态的过程。

4语音服务

语音服务的组成

由语音采集与识别、语义理解、语音合成与播放、语音技能四个部分组成。

语音服务能力等级划分

语音服务能力根据成熟度划分为五个等级，见表1。

表1语音服务能力等级

语音服务能力等级定义

主体

语音采集与识别语义理解语音合成与播放语音技能堵漏工具

Ⅴ语义深度理解与智

能互动

端点检测

上下文及多场景语

义理解与智能终端

控制

智能翻译多级互动

Ⅳ语义理解与语音互

动

语义理解

自然合成（多语种、

多发音人）

应用唤醒、栏目唤

起、内容搜索

Ⅲ语音深度识别与自

然合成

Ⅱ语音识别与机器合

成

语音识别-机器合成-

Ⅰ语音采集与播放语音采集-语音播放-

5基本要求

语音采集与识别

5.1.1语音采集

人工智能语音服务使用智能语音终端进行语音采集，应能通过传声器或麦克风阵列等具备语音采集能力的拾音设备对语音、连续语音进行单声道或多声道的采集。语音采集应满足以下要求：

a)支持8kHz或16kHz采样率，16bit及以上的采样精度；

b)音频文件编码支持PCM或Opus或Speex格式；

c)对于连续性音频，支持30s或60s为时间单位进行切片分割。

注：Opus是有损音频的一种编码格式，Speex是一套针对语音音频的压缩格式。

5.1.2端点检测

人工智能语音服务在进行语音采集时，应对采集的音频进行端点检测，以区分用户说话的自然停顿和主观停止。

5.1.3语音识别

语音识别应满足以下要求：

a)支持场景下关键词语音识别能力；

本文发布于:2024-09-24 00:28:51，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/223580.html

上一篇：具有语音交互和场景控制的家用智能配电箱控制系统的制作流程

下一篇：智能语音外呼服务系统设计

标签：语音采集识别进行文件服务合成

留言与评论（共有 0 条评论）