语音识别模型的数据集清洗方法

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 114187901 A (43)申请公布日 2022.03.15

(21)申请号 CN202111498658.6

(22)申请日 2021.12.09

(71)申请人杭州国芯科技股份有限公司

地址 310012 浙江省杭州市文三路90号东部软件园创新大厦A座5-6层

(72)发明人刘述琨江增强赵波凯

(74)专利代理机构 33240 杭州君度专利代理事务所(特殊普通合伙)

代理人陈炜

(51)Int.CI

G10L15/06(20130101)

G10L15/04(20130101)

G10L15/10(20060101)

G10L15/26(20060101)

权利要求说明书说明书幅图

(54)发明名称

语音识别模型的数据集清洗方法

(57)摘要

本发明公开了一种语音识别模型的数据集清洗方法。现有方法工作量大且效率低。本发明方法首先进行数据集初步清洗和前处理，去除无用数据和提高音频质量操作，然后将处理后音频文件通过网络同步上传至多个云端ASR平台进行内容识别，取得每个音频文件的识别结果文本，将每个音频文件的识别结果文本与该音频文件对应的标注文件进行内容比对，如比对一致，则保留该音频文件及对应的标注文件，否则剔除。比对正确的音频文件及对应的标注文件移到清洗正确目录下，完成清洗。本发明方法音频数据清洗过程中无需人员参与，可多个任务同时进行，效率得到提高。

法律状态

法律状态公告日	法律状态信息	法律状态
2022-03-15	公开	发明专利申请公布
2022-04-01	实质审查的生效IPC(主分类):G10L15/06专利申请号:2021114986586申请日:20211209	实质审查的生效