(12)发明专利说明书 | ||
(10)申请公布号 CN 114187901 A (43)申请公布日 2022.03.15 | ||
权利要求说明书 说明书 幅图 |
本发明公开了一种语音识别模型的数据集清洗方法。现有方法工作量大且效率低。本发明方法首先进行数据集初步清洗和前处理,去除无用数据和提高音频质量操作,然后将处理后音频文件通过网络同步上传至多个云端ASR平台进行内容识别,取得每个音频文件的识别结果文本,将每个音频文件的识别结果文本与该音频文件对应的标注文件进行内容比对,如比对一致,则保留该音频文件及对应的标注文件,否则剔除。比对正确的音频文件及对应的标注文件移到清洗正确目录下,完成清洗。本发明方法音频数据清洗过程中无需人员参与,可多个任务同时进行,效率得到提高。 | |
法律状态公告日 | 法律状态信息 | 法律状态 |
2022-03-15 | 公开 | 发明专利申请公布 |
2022-04-01 | 实质审查的生效IPC(主分类):G10L15/06专利申请号:2021114986586申请日:20211209 | 实质审查的生效 |
本文发布于:2024-09-23 15:23:54,感谢您对本站的认可!
本文链接:https://www.17tex.com/tex/3/406484.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |