语音识别模型的数据集清洗方法

(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 114187901 A
(43)申请公布日 2022.03.15
(21)申请号 CN202111498658.6
(22)申请日 2021.12.09
(71)申请人 杭州国芯科技股份有限公司
    地址 310012 浙江省杭州市文三路90号东部软件园创新大厦A座5-6层
(72)发明人 刘述琨 江增强 赵波凯
(74)专利代理机构 33240 杭州君度专利代理事务所(特殊普通合伙)
    代理人 陈炜
(51)Int.CI
      G10L15/06(20130101)
      G10L15/04(20130101)
      G10L15/10(20060101)
      G10L15/26(20060101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      语音识别模型的数据清洗方法
(57)摘要
      本发明公开了一种语音识别模型的数据集清洗方法。现有方法工作量大且效率低。本发明方法首先进行数据集初步清洗和前处理,去除无用数据和提高音频质量操作,然后将处理后音频文件通过网络同步上传至多个云端ASR平台进行内容识别,取得每个音频文件的识别结果文本,将每个音频文件的识别结果文本与该音频文件对应的标注文件进行内容比对,如比对一致,则保留该音频文件及对应的标注文件,否则剔除。比对正确的音频文件及对应的标注文件移到清洗正确目录下,完成清洗。本发明方法音频数据清洗过程中无需人员参与,可多个任务同时进行,效率得到提高。
法律状态
法律状态公告日
法律状态信息
法律状态
2022-03-15
公开
发明专利申请公布
2022-04-01
实质审查的生效IPC(主分类):G10L15/06专利申请号:2021114986586申请日:20211209
实质审查的生效
权 利 要 求 说 明 书
【语音识别模型的数据集清洗方法】的权利说明书内容是......
说  明  书
【语音识别模型的数据集清洗方法】的说明书内容是......

本文发布于:2024-09-23 15:23:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/406484.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   清洗   方法   音频文件   识别   进行   说明书
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议