一种基于文本及语音识别的口语测评方法及系统与流程



1.本技术涉及语音测评技术领域,尤其是涉及一种基于文本及语音识别的口语测评方法及系统。


背景技术:



2.语音测评计分作为语言学习的口语测评标准,随着英语口语考试的普及,越来越多的学校都需要在日常教学中使用英语口语训练系统,对学生的英语口语语音进行测评计分,以帮助学生提升其英语口语的水平。在选拔性测试中使用英语口语考试系统,学生的英语口语考试成绩作为选拔性测试英语科目成绩的组成部分。
3.目前市面上主流的英语口语训练系统,通常只采用可辨识度的单一维度对受试者的口语水平进行测评,且每份口语测评材料均由相应的口语人员通过标准的阅读进行录制,并计算受试者和标准录音的语音相似度来进行评分。但每段口语材料均要求口语人员进行一次标准的阅读成本过高,且获得的口语训练材料过于单一,使得学员越来越多只能练习固定的文本,学到的只会是哑巴英语,失去实际意义。


技术实现要素:



4.有鉴于此,本技术的目的在于提供一种基于文本及语音识别的口语测评方法及系统,通过对阅读语音、自由陈述语音、阅读文本以及自由陈述文本测评,可以更加综合的评价待测评用户的口语能力,并通过不同用户所使用的测评系统对待测评用户进行二次测评,可以提高测评结果的准确性。
5.本技术实施例提供了一种基于文本及语音识别的口语测评方法,所述口语测评方法包括:获取待测评用户的阅读语音、自由陈述语音、所述阅读语音对应的阅读文本以及所述自由陈述语音对应的自由陈述文本;所述阅读语音为所述待测评用户阅读标准测评文本的语音,所述自由陈述语音为所述待测评用户针对测评题目进行自由陈述的语音;基于所述阅读语音和阅读文本,确定阅读部分的第一测评分数,基于所述自由陈述语音和自由陈述文本,确定自由陈述部分的第二测评分数;所述第一测评分数和第二测评分数均是由多个评分维度下的测评子分数构成的;不同评分维度用于代表待测评用户不同方面的口语能力;基于第一测评分数和第二测评分数,确定第一测评分差和每个评分维度下的第二测评分差;所述第一测评分差为第一测评分数和第二测评分数的分数差值;当所述第一测评分差大于第一阈值分数或任一第二测评分差大于第二阈值分数时,根据第一测评分数和第二测评分数,从口语测评数据库中查询满足预设要求的口语测评分数,并确定所述口语测评分数所对应的目标用户;通过所述目标用户所使用的口语测评系统分别对待测评用户的阅读语音和自由陈述语音进行重新评分,获得待测评用户的第三测评分数和第四测评分数;所述阅读语音
为所述阅读文本进行语音文本转换前所对应的语音,所述自由陈述语音为所述自由陈述文本进行语音文本转换前所对应的语音;基于所述待测评用户的第一测评分数、第二测评分数、第三测评分数以及第四测评分数,确定待测评用户的最终口语测评分数。
6.可选的,通过以下步骤确定待测评用户的第二测评分数以及所述第二测评分数包括的每个评分维度下的测评子分数:对所述自由陈述文本进行初测评,确定自由陈述文本包括的每个赋分段落的参考分数;分别对每个赋分段落进行测评特征提取,确定每个赋分段落包括的多种测评特征的测评参数;针对于每个赋分段落,基于该赋分段落包括的多种测评特征的测评参数、该赋分段落所对应的部分自由陈述语音、每个评分维度下的初始评分权重以及该赋分段落的参考分数,确定该赋分段落在每个评分维度下的初始段落测评分数;针对于每个赋分段落,分别基于该赋分段落包括的每种测评特征的测评参数,对对应评分维度下的初始评分权重进行调整,确定每个评分维度的目标评分权重;针对于每个赋分段落,基于该赋分段落在每个评分维度下的初始段落测评分数、每个评分维度下的初始评分权重以及目标评分权重,确定该赋分段落在每个评分维度下的目标段落测评分数;基于每个赋分段落在每个评分维度下的目标段落测评分数,确定待测评用户的第二测评分数以及所述第二测评分数包括的每个评分维度下的测评子分数。
7.可选的,所述评分维度包括以下至少一个:可辨识度、语气、流利度以及音准。
8.可选的,所述测评特征包括以下至少一种:文本事件数量、回答内容与题目主题的相关度、词向量个数和词汇重音节个数。
9.可选的,所述针对于每个赋分段落,分别基于该赋分段落包括的每种测评特征的测评参数,对对应评分维度下的初始评分权重进行调整,确定每个评分维度的目标评分权重,包括:基于该赋分段落包括的文本事件数量以及文本事件数量与权重的映射关系,对可辨识度的初始评分权重进行调整,确定可辨识度的目标评分权重;基于该赋分段落的回答内容与题目主题的相关度以及相关度与权重的映射关系,对语气的初始评分权重进行调整,确定语气的目标评分权重;基于该赋分段落包括的词向量个数以及词向量个数与权重的映射关系,对流利度的初始评分权重进行调整,确定流利度的目标评分权重;基于该赋分段落包括的词汇重音节个数以及词汇重音节个数与权重的映射关系,对音准的初始评分权重进行调整,确定音准的目标评分权重。
10.可选的,通过以下步骤确定所述回答内容与题目主题的相关度:获取题目文本对应的题目词向量以及赋分段落对应的段落词向量;所述题目文本为根据所述测评题目获得的文本;分别对题目词向量和段落词向量进行聚类处理,获得题目词向量对应的至少一个第一特征簇和段落词向量对应的至少一个第二特征簇;
提取每个第一特征簇的中心向量作为第一主题向量,提取每个第二特征簇的中心向量作为第二主题向量;对所有第一主题向量进行加权求和,得到题目主题向量,对所有第二主题向量进行加权求和,得到段落主题向量;基于题目主题向量和段落主题向量,确定回答内容与题目主题的相关度。
11.可选的,所述根据第一测评分数和第二测评分数,从口语测评数据库中查询满足预设要求的口语测评分数,并确定所述口语测评分数所对应的目标用户,其方法为:从口语成绩数据库中查询阅读部分与所述第一测评分数差值小于第三阈值分数、且相同评分维度下的测试子分数分差小于第四阈值分数的阅读口语分数;从口语成绩数据库中查询自由陈述部分与所述第二测评分数差值小于第三阈值分数、且相同评分维度下的测试子分数分差小于第四阈值分数的自由陈述口语分数;将查到的阅读口语分数和自由陈述口语分数所分别对应的用户确定为目标用户。
12.可选的,所述对所述自由陈述文本进行初测评,确定自由陈述文本包括的每个赋分段落各自的参考分数,包括:根据第一赋分规则,基于所述自由陈述文本所包括的词语数或字数,确定待测评用户的初始测评分数;针对于每个赋分段落,根据第二赋分规则,基于所述初始测评分数以及该赋分段落的文本内容,确定该赋分段落的参考分数;所有赋分段落的参考分数之和等于所述初始测评分数。
13.本技术实施例还提供了一种基于文本及语音识别的口语测评系统,所述口语测评系统包括:获取模块,用于获取待测评用户的阅读语音、自由陈述语音、所述阅读语音对应的阅读文本以及所述自由陈述语音对应的自由陈述文本;所述阅读语音为所述待测评用户阅读标准测评文本的语音,所述自由陈述语音为所述待测评用户针对测评题目进行自由陈述的语音;识别模块,用于基于所述阅读语音和阅读文本,确定阅读部分的第一测评分数,基于所述自由陈述语音和自由陈述文本,确定自由陈述部分的第二测评分数;所述第一测评分数和第二测评分数均是由多个评分维度下的测评子分数构成的;不同评分维度用于代表待测评用户不同方面的口语能力;第一确定模块,用于基于第一测评分数和第二测评分数,确定第一测评分差和每个评分维度下的第二测评分差;所述第一测评分差为第一测评分数和第二测评分数的分数差值;查询模块,用于当所述第一测评分差大于第一阈值分数或任一第二测评分差大于第二阈值分数时,根据第一测评分数和第二测评分数,从口语测评数据库中查询满足预设要求的口语测评分数,并确定所述口语测评分数所对应的目标用户;测评模块,用于通过所述目标用户所使用的口语测评系统分别对待测评用户的阅读语音和自由陈述语音进行重新评分,获得待测评用户的第三测评分数和第四测评分数;所述阅读语音为所述阅读文本进行语音文本转换前所对应的语音,所述自由陈述语音为所
述自由陈述文本进行语音文本转换前所对应的语音;第二确定模块,用于基于所述待测评用户的第一测评分数、第二测评分数、第三测评分数以及第四测评分数,确定待测评用户的最终口语测评分数。
14.可选的,所述识别模块在用于确定通过以下步骤确定待测评用户的第二测评分数以及所述第二测评分数包括的每个评分维度下的测评子分数时,所述识别模块用于:对所述自由陈述文本进行初测评,确定自由陈述文本包括的每个赋分段落的参考分数;分别对每个赋分段落进行测评特征提取,确定每个赋分段落包括的多种测评特征的测评参数;针对于每个赋分段落,基于该赋分段落包括的多种测评特征的测评参数、该赋分段落所对应的部分自由陈述语音、每个评分维度下的初始评分权重以及该赋分段落的参考分数,确定该赋分段落在每个评分维度下的初始段落测评分数;针对于每个赋分段落,分别基于该赋分段落包括的每种测评特征的测评参数,对对应评分维度下的初始评分权重进行调整,确定每个评分维度的目标评分权重;针对于每个赋分段落,基于该赋分段落在每个评分维度下的初始段落测评分数、每个评分维度下的初始评分权重以及目标评分权重,确定该赋分段落在每个评分维度下的目标段落测评分数;基于每个赋分段落在每个评分维度下的目标段落测评分数,确定待测评用户的第二测评分数以及所述第二测评分数包括的每个评分维度下的测评子分数。
15.可选的,所述评分维度包括以下至少一个:可辨识度、语气、流利度以及音准。
16.可选的,所述测评特征包括以下至少一种:文本事件数量、回答内容与题目主题的相关度、词向量个数和词汇重音节个数。
17.可选的,所述识别模块在用于针对于每个赋分段落,分别基于该赋分段落包括的每种测评特征的测评参数,对对应评分维度下的初始评分权重进行调整,确定每个评分维度的目标评分权重时,所述识别模块用于:基于该赋分段落包括的文本事件数量以及文本事件数量与权重的映射关系,对可辨识度的初始评分权重进行调整,确定可辨识度的目标评分权重;基于该赋分段落的回答内容与题目主题的相关度以及相关度与权重的映射关系,对语气的初始评分权重进行调整,确定语气的目标评分权重;基于该赋分段落包括的词向量个数以及词向量个数与权重的映射关系,对流利度的初始评分权重进行调整,确定流利度的目标评分权重;基于该赋分段落包括的词汇重音节个数以及词汇重音节个数与权重的映射关系,对音准的初始评分权重进行调整,确定音准的目标评分权重。
18.可选的,所述识别模块在用于通过以下步骤确定所述回答内容与题目主题的相关度时,所述识别模块用于:获取题目文本对应的题目词向量以及赋分段落对应的段落词向量;所述题目文本为根据所述测评题目获得的文本;分别对题目词向量和段落词向量进行聚类处理,获得题目词向量对应的至少一个第一特征簇和段落词向量对应的至少一个第二特征簇;
提取每个第一特征簇的中心向量作为第一主题向量,提取每个第二特征簇的中心向量作为第二主题向量;对所有第一主题向量进行加权求和,得到题目主题向量,对所有第二主题向量进行加权求和,得到段落主题向量;基于题目主题向量和段落主题向量,确定回答内容与题目主题的相关度。
19.可选的,所述口语测评系统还包括第三确定模块,所述第三确定模块用于:从口语成绩数据库中查询阅读部分与所述第一测评分数差值小于第三阈值分数、且相同评分维度下的测试子分数分差小于第四阈值分数的阅读口语分数;从口语成绩数据库中查询自由陈述部分与所述第二测评分数差值小于第三阈值分数、且相同评分维度下的测试子分数分差小于第四阈值分数的自由陈述口语分数;将查到的阅读口语分数和自由陈述口语分数所分别对应的用户确定为目标用户。
20.可选的,所述识别模块在用于对所述自由陈述文本进行初测评,确定自由陈述文本包括的每个赋分段落各自的参考分数时,所述识别模块用于:根据第一赋分规则,基于所述自由陈述文本所包括的词语数或字数,确定待测评用户的初始测评分数;针对于每个赋分段落,根据第二赋分规则,基于所述初始测评分数以及该赋分段落的文本内容,确定该赋分段落的参考分数;所有赋分段落的参考分数之和等于所述初始测评分数。
21.本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的口语测评方法的步骤。
22.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的口语测评方法的步骤。
23.本技术实施例提供的一种基于文本及语音识别的口语测评方法及系统,所述口语测评方法包括:获取待测评用户的阅读语音、自由陈述语音、所述阅读语音对应的阅读文本以及所述自由陈述语音对应的自由陈述文本;所述阅读语音为所述待测评用户阅读标准测评文本的语音,所述自由陈述语音为所述待测评用户针对测评题目进行自由陈述的语音;基于所述阅读语音和阅读文本,确定阅读部分的第一测评分数,基于所述自由陈述语音和自由陈述文本,确定自由陈述部分的第二测评分数;所述第一测评分数和第二测评分数均是由多个评分维度下的测评子分数构成的;不同评分维度用于代表待测评用户不同方面的口语能力;基于第一测评分数和第二测评分数,确定第一测评分差和每个评分维度下的第二测评分差;所述第一测评分差为第一测评分数和第二测评分数的分数差值;当所述第一测评分差大于第一阈值分数或任一第二测评分差大于第二阈值分数时,根据第一测评分数和第二测评分数,从口语测评数据库中查询满足预设要求的口语测评分数,并确定所述口语测评分数所对应的目标用户;通过所述目标用户所使用的口语测评系统分别对待测评用户的阅读语音和自由陈述语音进行重新评分,获得待测评用户的第三测评分数和第四测评分
数;所述阅读语音为所述阅读文本进行语音文本转换前所对应的语音,所述自由陈述语音为所述自由陈述文本进行语音文本转换前所对应的语音;基于所述待测评用户的第一测评分数、第二测评分数、第三测评分数以及第四测评分数,确定待测评用户的最终口语测评分数。
24.这样,本技术通过对阅读语音、自由陈述语音、阅读文本和自由陈述文本进行测评,可以更加综合的评价待测评用户的口语能力,并通过不同用户所使用的测评系统对待测评用户进行二次测评,可以提高测评结果的准确性。此外,本技术还公开了基于文本识别对口语自由陈述进行多维度测评的技术方案,解决了现有的口语测评系统无法对用户的自由陈述内容进行打分的问题。
25.为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
26.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
27.图1为本技术实施例所提供的一种基于文本及语音识别的口语测评方法的流程图;图2为本技术实施例所提供的一种基于文本及语音识别的口语测评系统的结构示意图之一;图3为本技术实施例所提供的一种基于文本及语音识别的口语测评系统的结构示意图之二;图4为本技术实施例所提供的一种电子设备的结构示意图。
具体实施方式
28.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本技术保护的范围。
29.语音测评计分作为语言学习的口语测评标准,随着英语口语考试的普及,越来越多的学校都需要在日常教学中使用英语口语训练系统,对学生的英语口语语音进行测评计分,以帮助学生提升其英语口语的水平。在选拔性测试中使用英语口语考试系统,学生的英语口语考试成绩作为选拔性测试英语科目成绩的组成部分。
30.目前市面上主流的英语口语训练系统,通常只采用可辨识度的单一维度对受试者的口语水平进行测评,且每份口语测评材料均由相应的口语人员通过标准的阅读进行录
制,并计算受试者和标准录音的语音相似度来进行评分。但每段口语材料均要求口语人员进行一次标准的阅读成本过高,且获得的口语训练材料过于单一,使得学员越来越多只能练习固定的文本,学到的只会是哑巴英语,失去实际意义。
31.基于此,一种基于文本及语音识别的口语测评方法及系统,通过对阅读语音、自由陈述语音、阅读文本以及自由陈述文本进行测评,可以更加综合的评价待测评用户的口语能力,并通过不同用户所使用的测评系统对待测评用户进行二次测评,可以提高测评结果的准确性。
32.请参阅图1,图1为本技术实施例所提供的一种基于文本及语音识别的口语测评方法的流程图。所如图1中所示,本技术实施例提供的口语测评方法,包括:s101、获取待测评用户的阅读语音、自由陈述语音、所述阅读语音对应的阅读文本以及所述自由陈述语音对应的自由陈述文本;所述阅读语音为所述待测评用户阅读标准测评文本的语音,所述自由陈述语音为所述待测评用户针对测评题目进行自由陈述的语音。
33.在进行口语测评时,一般包括两部分,一部分为朗读测试时所提供的标准测评文本(即阅读部分),另一部分为针对于测评题目进行相关内容的自由陈述(即自由陈述部分)。
34.对于阅读部分,获取阅读语音和阅读语音对应的阅读文本;对于自由陈述部分,获取自由陈述语音和自由陈述语音对应的自由陈述文本。
35.这里,在进行语音文本转换时,可通过预先训练好的语音文本转换模型进行转换,也可以使用现有语音文本转换工具进行转换,在此不做限定。
36.这样,通过获取两种不同的文本及语音,并进行后续文本及语音识别得到待测评用户的口语评分,可以更加综合的评估所述待测评用户的口语表达能力。
37.s102、基于所述阅读语音和阅读文本,确定阅读部分的第一测评分数,基于所述自由陈述语音和自由陈述文本,确定自由陈述部分的第二测评分数;所述第一测评分数和第二测评分数均是由多个评分维度下的测评子分数构成的;不同评分维度用于代表待测评用户不同方面的口语能力。
38.这里,所述第一测评分数是对阅读语音进行预打分再通过对所述阅读文本进行识别并进行分数调整后所得到的分数,所述第二测评分数是对自由陈述语音进行预打分再通过对所述自由陈述文本进行识别并进行分数调整后所得到的分数。所述第一测评分数和所述第二测评分数对应的评分维度的数量和类型是相同,但是每种评分维度下的测评子分数可以相同也可以不同。
39.所述第一测评分数代表了待测评用户阅读部分的得分,所述第二测评分数代表了待测评用户自由陈述部分的得分。
40.在本技术的一种实施方式中,通过以下步骤确定待测评用户的第二测评分数以及所述第二测评分数包括的每个评分维度下的测评子分数:对所述自由陈述文本进行初测评,确定自由陈述文本包括的每个赋分段落的参考分数;分别对每个赋分段落进行测评特征提取,确定每个赋分段落包括的多种测评特征的测评参数;针对于每个赋分段落,基于该赋分段落包括的多种测评特征的测评参数、该赋分段落所对应的部分自由陈述语音、每个评分维度下的初始评分权重以及该赋分段落的参考分数,确定该赋分段落在每个评分维度下的初始段落测评分数;针对于每个赋分段落,分别基于该赋分段落包括的每种测评特征
的测评参数,对对应评分维度下的初始评分权重进行调整,确定每个评分维度的目标评分权重;针对于每个赋分段落,基于该赋分段落在每个评分维度下的初始段落测评分数、每个评分维度下的初始评分权重以及目标评分权重,确定该赋分段落在每个评分维度下的目标段落测评分数;基于每个赋分段落在每个评分维度下的目标段落测评分数,确定待测评用户的第二测评分数以及所述第二测评分数包括的每个评分维度下的测评子分数。
41.在本技术提供的另一种实施方式中,所述对所述自由陈述文本进行初测评,确定自由陈述文本包括的每个赋分段落各自的参考分数,包括:根据第一赋分规则,基于所述自由陈述文本所包括的词语数或字数,确定待测评用户的初始测评分数;针对于每个赋分段落,根据第二赋分规则,基于所述初始测评分数以及该赋分段落的文本内容,确定该赋分段落的参考分数;所有赋分段落的参考分数之和等于所述初始测评分数。
42.这里,对所述自由陈述文本进行初测评,可以确定所述自由陈述文本中所包括的词语数或字数;所述第一赋分规则中规定了不同字数或不同词语数对应不同初始测评分数;所述自由陈述文本中包括至少一个赋分段落,其中,可以通过识别所述自由陈述文本中包括的特定字符(例如句号),来确定所述自由陈述文本中具体包括的赋分段落。
43.示例的,假设识别所述自由陈述文本包括的词语数量为260个词语,而第一赋分规则中规定的100-200词的文本,赋初始测评分数为60分(满分),201-300词的文本,赋初始测评分数为80分(满分),300词以上的文本,赋初始测评分数为100分(满分)。因此根据第一赋分规则确定的待测评用户的初始测评分数为80分。
44.所述第二赋分规则中规定了根据每个赋分段落的各自的篇幅占比或该段落与测试题目的相关性,基于所述自由陈述文本确定出的初始测评分数,确定每个赋分段落的参考分数。
45.为了更好的理解所述第二赋分规则,通过以下示例进行说明。当所述第二赋分规则中规定了根据篇幅占比确定赋分段落的参考分数时,假设所述自由陈述文本的所述初始测评分数为80分,该自由陈述文本中包括赋分段落1、赋分段落2以及赋分段落3三个段落,其中赋分段落1中包括的词语数占所述自由陈述文本总词语数的20%,则确定该赋分段落1的参考分数为16分(满分);赋分段落2中包括的词语数占所述自由陈述文本总词语数的30%,则确定该赋分段落2的参考分数为24分(满分);赋分段落3中包括的词语数占所述自由陈述文本总词语数的50%,则确定该赋分段落3的参考分数为40分(满分)。
46.确定出每个赋分段落的参考分数后,为了确定每个赋分段落的实际得分(即初始段落测评分数),针对于每个赋分段落,需要对该段落进行测评特征提取,确定该赋分段落包括的多种测评特征以及每种测评特征的测评参数,同时还要确定该赋分段落所对应的部分自由陈述语音。所述测评特征可以包括以下至少一种:文本事件数量、回答内容与题目主题的相关度、词向量个数和词汇重音节个数。
47.其中,文本事件数量是指该赋分段落包括的文本事件的数量,可通过文本事件抽取模型确定每个赋分段落中所包括的文本事件,从而确定文本事件数量。
48.在本技术提供的另一种实施方式中,通过以下步骤确定所述回答内容与题目主题的相关度:获取题目文本对应的题目词向量以及赋分段落对应的段落词向量;所述题目文本为根据所述测评题目获得的文本;分别对题目词向量和段落词向量进行聚类处理,获得题目词向量对应的至少一个第一特征簇和段落词向量对应的至少一个第二特征簇;提取每
个第一特征簇的中心向量作为第一主题向量,提取每个第二特征簇的中心向量作为第二主题向量;对所有第一主题向量进行加权求和,得到题目主题向量,对所有第二主题向量进行加权求和,得到段落主题向量;基于题目主题向量和段落主题向量,确定回答内容与题目主题的相关度。
49.这里,可通过词向量提取模型,获得题目文本对应的题目词向量以及赋分段落对应的段落词向量;其中,在获取段落词向量前可以先获取所述自由陈述文本的回答词向量,从而基于回答词向量确定每个赋分段落对应的段落词向量;对于所述词向量提取模型,可以优先采用word2vec模型。
50.对于分别对题目词向量和段落词向量进行聚类处理,可以采用kmeans方法对词向量进行聚类,确定出题目词向量对应的至少一个第一特征簇,以及每个第一特征簇的中心向量;确定出段落词向量对应的至少一个第二特征簇,以及每个第二特征簇的中心向量。从而再进行加权求和处理后,可得到题目主题向量和段落主题向量,最后基于向量相似度计算,可以确定赋分段落中回答内容与题目主题的相关度。
51.其中,在获取赋分段落的段落词向量后,也就可以确定出该赋分段落包括的词向量个数和词汇重音节个数。
52.在确定赋分段落在每个评分维度下的初始段落测评分数时,具体可以为:首先基于该赋分段落对应的每个评分维度下的初始评分权重以及该赋分段落的参考分数,确定该赋分段落在每个评分维度下的参考分数,然后再分别基于该段落包括的测评特征的测评参数、该赋分段落所对应的部分自由陈述语音以及预设的段落评分规则,确定该赋分段落在每个评分维度下的初始段落测评分数。
53.这里,所述评分维度包括以下至少一个:可辨识度、语气、流利度以及音准。需要说明的是,评分维度和测评特征是一一对应的关系,文本事件数量与可辨识度对应,回答内容与题目主题的相关度与语气对应,词向量个数与流利度对应,词汇重音节个数与音准对应。这样,通过文本事件数量的具体测评参数可以确定该赋分段落在可辨识度下的参考分数以及初始段落测评分数,其他评分维度对应的测评分数与此相类似,在此不再赘述。
54.为了更好的理解某个赋分段落在每个评分维度下的初始段落测评分数的确定方式,通过以下示例进行说明。假设该段落的参考分数为24分,可辨识度、语气、流利度以及音准各评分维度对应的初始评分权重均为0.25,该赋分段落包括的文本事件数量为5、回答内容与题目主题的相关度为80%、词向量个数为78和词汇重音节个数为10个。基于该赋分段落对应的每个评分维度下的初始评分权重以及该赋分段落的参考分数,确定该赋分段落在每个评分维度下的参考分数均为6分,然后根据段落评分规则,基于该段落包括的文本事件数量为5确定辨识度下的初始段落测评分数为4分,基于该段落包括的回答内容与题目主题的相关度为80%确定语气下的初始段落测评分数为5分,基于该段落包括的词向量个数为78确定流利度下的初始段落测评分数为6分,基于该段落包括的词汇重音节个数为10个确定音准下的初始段落测评分数为4分。这样也就确定了该赋分段落在每个评分维度下的初始段落测评分数。其中,段落评分规则中规定了每种测评特征的测评参数与对应评分维度下的初始段落测评分数和参考分数的比值的对应关系。
55.此外,还可以通过预先训练好的评分模型进行初始段落测评分数的确定,将该赋分段落所对应的部分自由陈述语音输入至评分模型中,通过评分模型输出该赋分段落的初
始段落测评分数,然后乘以各个评分维度下的初始评分权重,即确定该赋分段落在每个评分维度下的初始段落测评分数。
56.确定出赋分段落在每个评分维度下的初始段落测评分数后,还需对每个评分维度下的初始评分权重进行调整,在本技术提供的另一种实施方式中,所述针对于每个赋分段落,分别基于该赋分段落包括的每种测评特征的测评参数,对对应评分维度下的初始评分权重进行调整,确定每个评分维度的目标评分权重,包括:基于该赋分段落包括的文本事件数量以及文本事件数量与权重的映射关系,对可辨识度的初始评分权重进行调整,确定可辨识度的目标评分权重;基于该赋分段落包括的回答内容与题目主题的相关度以及相关度与权重的映射关系,对语气的初始评分权重进行调整,确定语气的目标评分权重;基于该赋分段落包括的词向量个数以及词向量个数与权重的映射关系,对流利度的初始评分权重进行调整,确定流利度的目标评分权重;基于该赋分段落包括的词汇重音节个数以及词汇重音节个数与权重的映射关系,对音准的初始评分权重进行调整,确定音准的目标评分权重。
57.这里,文本事件数量与权重的映射关系中限定了文本事件数量的具体测评参数与对应目标权重或权重调节参数的关系,其他三种映射关系同文本事件数量与权重的映射关系相类似,在此不再赘述。
58.为了更好的理解调节初始评分权重的方式,继续上述示例,对调节初始评分权重的过程进行说明。这里以调节可辨识度的初始评分权重为例进行说明,可辨识度对应的初始评分权重为0.25,文本事件数量与权重的映射关系中规定文本事件数量为4-6的权重减0.05,确定出的文本事件数量为5,所以将可辨识度对应的初始评分权重由0.25调节到目标评分权重0.2。其他评分维度的初始评分权重的调节过程与可辨识度的调节过程相类似,在此不再赘述。
59.在确定出赋分段落在每个评分维度下的初始段落测评分数、每个评分维度下的初始评分权重以及目标评分权重,就该赋分段落在每个评分维度下的目标段落测评分数,具体确定方式可以为:针对于每个赋分段落在每个评分维度下的初始段落测评分数,使用该初始段落测评分数除以对应维度下的初始评分权重,然后再乘以对应维度下的目标评分权重,此时所得到的分数即为该赋分段落在该评分维度下的目标段落测评分数。
60.这样,在确定出每个赋分段落在每个评分维度下的目标段落测评分数后,将相同维度下的每个赋分段落的目标段落测评分数相加所得到的分数即为所述第二测评分数中包括的该评分维度下的测评子分数。将所有赋分段落在每个评分维度下的目标段落测评分数相加即可得到所述第二测评分数。
61.此外,需要说明的是,阅读部分对应的第一测评分数的确定方式与自由陈述部分的第二测评分数的确定方式相类似,也是从四个评分维度进行评分以及进行权重修改等操作,故,在此不再赘述。
62.s103、基于第一测评分数和第二测评分数,确定第一测评分差和每个评分维度下的第二测评分差;所述第一测评分差为第一测评分数和第二测评分数的分数差值。
63.这里,可以使用第一测评分数与第二测评分数相减,确定第一测评分差。对每个评分维度下的第二测评分差的确定,可通过以下方式进行确定:使用相同评分维度下的所述第一测评分数包括的测评子分数与所述第二测评分数包括的测评子分数相减进行确定。其中,如果求取的分差为负值时,可以进行绝对值变化,将取绝对值后的分数确定为求取的第
一测评分差或第二测评分差。
64.s104、当所述第一测评分差大于第一阈值分数或任一第二测评分差大于第二阈值分数时,根据第一测评分数和第二测评分数,从口语测评数据库中查询满足预设要求的口语测评分数,并确定所述口语测评分数所对应的目标用户。
65.这里,所述第一阈值分数和所述第二阈值分数的具体数值可适用性进行选择。
66.其中,当所述第一测评分差不大于第一阈值分数且任一第二测评分差不大于第二阈值分数时,可以将所述待测评用户的第一测评分数和第二测评分数的总分,确定为待测评用户的最终口语测评分数。
67.示例的,所述预设要求为第一测评分数的各测评子分数构成比例偏差小于或等于预设的相似阈值(例如可设为10%,若检索不到可逐步设置15%,20%);或所述预设要求为第二测评分数的各测评子分数构成比例偏差小于或等于预设的相似阈值(例如可设为10%,若检索不到可逐步设置15%,20%);在本技术提供的一种实施方式中,所述根据第一测评分数和第二测评分数,从口语测评数据库中查询满足预设要求的口语测评分数,并确定所述口语测评分数所对应的目标用户,包括:从口语成绩数据库中查询阅读部分与所述第一测评分数差值小于第三阈值分数、且相同评分维度下的测试子分数分差小于第四阈值分数的阅读口语分数;从口语成绩数据库中查询自由陈述部分与所述第二测评分数差值小于第三阈值分数、且相同评分维度下的测试子分数分差小于第四阈值分数的自由陈述口语分数;将查到的阅读口语分数和自由陈述口语分数所分别对应的用户确定为目标用户。
68.这里,所述口语成绩数据库中存储有不同地区多个用户的口语测评分数,每个用户的口语测评分数中均包括阅读部分的测评分数、阅读部分中每个评分维度下的测评子分数、自由陈述部分的测评分数以及自由陈述部分中每个评分维度下的测评子分数。
69.其中,在确定目标用户时,分别确定阅读部分对应的目标用户和自由陈述部分对应的目标用户,每部分确定出的目标用户的数量为至少一个。
70.示例的,在确定阅读部分对应的目标用户时,具体可以为:在所述口语成绩数据库中遍历阅读部分对应的测评成绩(阅读口语分数),当存在第一测评分数差值小于第三阈值分数、可辨识度下的测试子分数分差小于第四阈值分数、流利度下的测试子分数分差小于第四阈值分数、语气下的测试子分数分差小于第四阈值分数、音准下的测试子分数分差小于第四阈值分数的阅读口语分数时,将该阅读口语分数对应的用户确定为目标用户。自由陈述部分确定目标用户的方式同阅读部分相类似,在此不再赘述。
71.s105、通过所述目标用户所使用的口语测评系统分别对待测评用户的阅读语音和自由陈述语音进行重新评分,获得待测评用户的第三测评分数和第四测评分数;所述阅读语音为所述阅读文本进行语音文本转换前所对应的语音,所述自由陈述语音为所述自由陈述文本进行语音文本转换前所对应的语音。
72.需要说明的是,之所有通过目标用户所使用的口语测评系统对待测评用户的阅读语音和自由陈述语音进行重新测评,是因为不同地区所使用的口语测评系统在设置不同评分维度对应的初始评分权重时可能存在轻微不同。根据各地设备的不同,可能一个地方话筒好,采集环境好,那考官就会把语音-文本转换这些调的要求高一些,或者采集环境嘈杂、设备旧、就会语音-文本转换的精度调低一些,比如增加文本纠错、或者设置某些语音自动
认定为正确等,这些调校有很多方式,从而不同测评用户所使用的口语测评系统也会存在一些差别。此外,不同的地方,同一段语音可能会转换为不一样的文本,从而造成最后的口语测评分数存在不同。
73.这里,通过阅读口语分数对应的目标用户所使用的口语测评系统对待测评用户的阅读语音进行重新评分,确定待测评用户的第三测评分数;通过自由陈述口语分数对应的目标用户所使用的口语测评系统对待测评用户的自由陈述语音进行重新评分,确定待测评用户的第四测评分数。
74.还要说明的是,本技术通过将有评分异常的语音信息分别传输至不同区域的测评系统进行重新测评并相互印证,能够提高语音测评系统的准确客观性。
75.s106、基于所述待测评用户的第一测评分数、第二测评分数、第三测评分数以及第四测评分数,确定待测评用户的最终口语测评分数。
76.这里,基于所述待测评用户的第一测评分数、第二测评分数、第三测评分数以及第四测评分数,确定待测评用户的口语测评分数可以为:以两次测评分数的平均分作为待测评用户的最终口语测评分数。即对第一测评分数和第三测评分数做均值处理,确定第五测评分数,对第二测评分数和第四测评分数做均值处理,确定第六测评分数,将第五测评分数和第六测评分数相加后的分数确定为待测评用户的最终口语测评分数。
77.此外,也可以设置第一次测评成绩和第二次测评成绩分差的差异阈值,当两次测评成绩分数的分差小于预设的差异阈值时,选取第一次测评成绩和第二次测评成绩的平均分作为最终测评成绩,当两次测评成绩分数的分差大于或等于预设的差异阈值时选取其中的最高分作为最终测评成绩。
78.这样,本技术通过对阅读语音、自由陈述语音、阅读文本和自由陈述文本进行测评,可以更加综合的评价待测评用户的口语能力,并通过不同用户所使用的测评系统对待测评用户进行二次测评,可以提高测评结果的准确性。此外,本技术还公开了基于文本识别对口语自由陈述进行多维度测评的技术方案,解决了现有的口语测评系统无法对用户的自由陈述内容进行打分的问题。
79.请参阅图2、图3,图2为本技术实施例所提供的一种基于文本及语音识别的口语测评系统的结构示意图之一,图3为本技术实施例所提供的一种基于文本及语音识别的口语测评系统的结构示意图之二。如图2中所示,所述口语测评系统200包括:获取模块210,用于获取待测评用户的阅读语音、自由陈述语音、所述阅读语音对应的阅读文本以及所述自由陈述语音对应的自由陈述文本;所述阅读语音为所述待测评用户阅读标准测评文本的语音,所述自由陈述语音为所述待测评用户针对测评题目进行自由陈述的语音;识别模块220,用于基于所述阅读语音和阅读文本,确定阅读部分的第一测评分数,基于所述自由陈述语音和自由陈述文本,确定自由陈述部分的第二测评分数;所述第一测评分数和第二测评分数均是由多个评分维度下的测评子分数构成的;不同评分维度用于代表待测评用户不同方面的口语能力;第一确定模块230,用于基于第一测评分数和第二测评分数,确定第一测评分差和每个评分维度下的第二测评分差;所述第一测评分差为第一测评分数和第二测评分数的分数差值;
查询模块240,用于当所述第一测评分差大于第一阈值分数或任一第二测评分差大于第二阈值分数时,根据第一测评分数和第二测评分数,从口语测评数据库中查询满足预设要求的口语测评分数,并确定所述口语测评分数所对应的目标用户;测评模块250,用于通过所述目标用户所使用的口语测评系统分别对待测评用户的阅读语音和自由陈述语音进行重新评分,获得待测评用户的第三测评分数和第四测评分数;所述阅读语音为所述阅读文本进行语音文本转换前所对应的语音,所述自由陈述语音为所述自由陈述文本进行语音文本转换前所对应的语音;第二确定模块260,用于基于所述待测评用户的第一测评分数、第二测评分数、第三测评分数以及第四测评分数,确定待测评用户的最终口语测评分数。
80.可选的,所述识别模块220在用于确定通过以下步骤确定待测评用户的第二测评分数以及所述第二测评分数包括的每个评分维度下的测评子分数时,所述识别模块220用于:分别对每个赋分段落进行测评特征提取,确定每个赋分段落包括的多种测评特征的测评参数;针对于每个赋分段落,基于该赋分段落包括的多种测评特征的测评参数、该赋分段落所对应的部分自由陈述语音、每个评分维度下的初始评分权重以及该赋分段落的参考分数,确定该赋分段落在每个评分维度下的初始段落测评分数;针对于每个赋分段落,分别基于该赋分段落包括的每种测评特征的测评参数,对对应评分维度下的初始评分权重进行调整,确定每个评分维度的目标评分权重;针对于每个赋分段落,基于该赋分段落在每个评分维度下的初始段落测评分数、每个评分维度下的初始评分权重以及目标评分权重,确定该赋分段落在每个评分维度下的目标段落测评分数;基于每个赋分段落在每个评分维度下的目标段落测评分数,确定待测评用户的第二测评分数以及所述第二测评分数包括的每个评分维度下的测评子分数。
81.可选的,所述评分维度包括以下至少一个:可辨识度、语气、流利度以及音准。
82.可选的,所述测评特征包括以下至少一种:文本事件数量、回答内容与题目主题的相关度、词向量个数和词汇重音节个数。
83.可选的,所述识别模块220在用于针对于每个赋分段落,分别基于该赋分段落包括的每种测评特征的测评参数,对对应评分维度下的初始评分权重进行调整,确定每个评分维度的目标评分权重时,所述识别模块220用于:基于该赋分段落包括的文本事件数量以及文本事件数量与权重的映射关系,对可辨识度的初始评分权重进行调整,确定可辨识度的目标评分权重;基于该赋分段落的回答内容与题目主题的相关度以及相关度与权重的映射关系,对语气的初始评分权重进行调整,确定语气的目标评分权重;基于该赋分段落包括的词向量个数以及词向量个数与权重的映射关系,对流利度的初始评分权重进行调整,确定流利度的目标评分权重;基于该赋分段落包括的词汇重音节个数以及词汇重音节个数与权重的映射关系,对音准的初始评分权重进行调整,确定音准的目标评分权重。
84.可选的,所述识别模块220在用于通过以下步骤确定所述回答内容与题目主题的
相关度时,所述识别模块220用于:获取题目文本对应的题目词向量以及赋分段落对应的段落词向量;所述题目文本为根据所述测评题目获得的文本;分别对题目词向量和段落词向量进行聚类处理,获得题目词向量对应的至少一个第一特征簇和段落词向量对应的至少一个第二特征簇;提取每个第一特征簇的中心向量作为第一主题向量,提取每个第二特征簇的中心向量作为第二主题向量;对所有第一主题向量进行加权求和,得到题目主题向量,对所有第二主题向量进行加权求和,得到段落主题向量;基于题目主题向量和段落主题向量,确定回答内容与题目主题的相关度。
85.可选的,如图3所示,所述口语测评系统200还包括第三确定模块270,所述第三确定模块270用于:从口语成绩数据库中查询阅读部分与所述第一测评分数差值小于第三阈值分数、且相同评分维度下的测试子分数分差小于第四阈值分数的阅读口语分数;从口语成绩数据库中查询自由陈述部分与所述第二测评分数差值小于第三阈值分数、且相同评分维度下的测试子分数分差小于第四阈值分数的自由陈述口语分数;将查到的阅读口语分数和自由陈述口语分数所分别对应的用户确定为目标用户。
86.可选的,所述识别模块220在用于对所述自由陈述文本进行初测评,确定自由陈述文本包括的每个赋分段落各自的参考分数时,所述识别模块220用于:根据第一赋分规则,基于所述自由陈述文本所包括的词语数或字数,确定待测评用户的初始测评分数;针对于每个赋分段落,根据第二赋分规则,基于所述初始测评分数以及该赋分段落的文本内容,确定该赋分段落的参考分数;所有赋分段落的参考分数之和等于所述初始测评分数。
87.请参阅图4,图4为本技术实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
88.所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1以所示方法实施例中的口语测评方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
89.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以所示方法实施例中的口语测评方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
90.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
91.在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可
以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
92.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
93.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
94.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
95.最后应说明的是:以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。

技术特征:


1.一种基于文本及语音识别的口语测评方法,其特征在于,所述口语测评方法包括:获取待测评用户的阅读语音、自由陈述语音、所述阅读语音对应的阅读文本以及所述自由陈述语音对应的自由陈述文本;所述阅读语音为所述待测评用户阅读标准测评文本的语音,所述自由陈述语音为所述待测评用户针对测评题目进行自由陈述的语音;基于所述阅读语音和阅读文本,确定阅读部分的第一测评分数,基于所述自由陈述语音和自由陈述文本,确定自由陈述部分的第二测评分数;所述第一测评分数和第二测评分数均是由多个评分维度下的测评子分数构成的;不同评分维度用于代表待测评用户不同方面的口语能力;基于第一测评分数和第二测评分数,确定第一测评分差和每个评分维度下的第二测评分差;所述第一测评分差为第一测评分数和第二测评分数的分数差值;当所述第一测评分差大于第一阈值分数或任一第二测评分差大于第二阈值分数时,根据第一测评分数和第二测评分数,从口语测评数据库中查询满足预设要求的口语测评分数,并确定所述口语测评分数所对应的目标用户;通过所述目标用户所使用的口语测评系统分别对待测评用户的阅读语音和自由陈述语音进行重新评分,获得待测评用户的第三测评分数和第四测评分数;所述阅读语音为所述阅读文本进行语音文本转换前所对应的语音,所述自由陈述语音为所述自由陈述文本进行语音文本转换前所对应的语音;基于所述待测评用户的第一测评分数、第二测评分数、第三测评分数以及第四测评分数,确定待测评用户的最终口语测评分数。2.根据权利要求1所述的口语测评方法,其特征在于,通过以下步骤确定待测评用户的第二测评分数以及所述第二测评分数包括的每个评分维度下的测评子分数:对所述自由陈述文本进行初测评,确定自由陈述文本包括的每个赋分段落的参考分数;分别对每个赋分段落进行测评特征提取,确定每个赋分段落包括的多种测评特征的测评参数;针对于每个赋分段落,基于该赋分段落包括的多种测评特征的测评参数、该赋分段落所对应的部分自由陈述语音、每个评分维度下的初始评分权重以及该赋分段落的参考分数,确定该赋分段落在每个评分维度下的初始段落测评分数;针对于每个赋分段落,分别基于该赋分段落包括的每种测评特征的测评参数,对对应评分维度下的初始评分权重进行调整,确定每个评分维度的目标评分权重;针对于每个赋分段落,基于该赋分段落在每个评分维度下的初始段落测评分数、每个评分维度下的初始评分权重以及目标评分权重,确定该赋分段落在每个评分维度下的目标段落测评分数;基于每个赋分段落在每个评分维度下的目标段落测评分数,确定待测评用户的第二测评分数以及所述第二测评分数包括的每个评分维度下的测评子分数。3.根据权利要求2所述的口语测评方法,其特征在于,所述评分维度包括以下至少一个:可辨识度、语气、流利度以及音准。4.根据权利要求3所述的口语测评方法,其特征在于,所述测评特征包括以下至少一种:文本事件数量、回答内容与题目主题的相关度、词向量个数和词汇重音节个数。
5.根据权利要求4所述的口语测评方法,其特征在于,所述针对于每个赋分段落,分别基于该赋分段落包括的每种测评特征的测评参数,对对应评分维度下的初始评分权重进行调整,确定每个评分维度的目标评分权重,包括:基于该赋分段落包括的文本事件数量以及文本事件数量与权重的映射关系,对可辨识度的初始评分权重进行调整,确定可辨识度的目标评分权重;基于该赋分段落的回答内容与题目主题的相关度以及相关度与权重的映射关系,对语气的初始评分权重进行调整,确定语气的目标评分权重;基于该赋分段落包括的词向量个数以及词向量个数与权重的映射关系,对流利度的初始评分权重进行调整,确定流利度的目标评分权重;基于该赋分段落包括的词汇重音节个数以及词汇重音节个数与权重的映射关系,对音准的初始评分权重进行调整,确定音准的目标评分权重。6.根据权利要求5所述的口语测评方法,其特征在于,通过以下步骤确定所述回答内容与题目主题的相关度:获取题目文本对应的题目词向量以及赋分段落对应的段落词向量;所述题目文本为根据所述测评题目获得的文本;分别对题目词向量和段落词向量进行聚类处理,获得题目词向量对应的至少一个第一特征簇和段落词向量对应的至少一个第二特征簇;提取每个第一特征簇的中心向量作为第一主题向量,提取每个第二特征簇的中心向量作为第二主题向量;对所有第一主题向量进行加权求和,得到题目主题向量,对所有第二主题向量进行加权求和,得到段落主题向量;基于题目主题向量和段落主题向量,确定回答内容与题目主题的相关度。7.根据权利要求1所述的口语测评方法,其特征在于,所述根据第一测评分数和第二测评分数,从口语测评数据库中查询满足预设要求的口语测评分数,并确定所述口语测评分数所对应的目标用户,包括:从口语成绩数据库中查询阅读部分与所述第一测评分数差值小于第三阈值分数、且相同评分维度下的测试子分数分差小于第四阈值分数的阅读口语分数;从口语成绩数据库中查询自由陈述部分与所述第二测评分数差值小于第三阈值分数、且相同评分维度下的测试子分数分差小于第四阈值分数的自由陈述口语分数;将查到的阅读口语分数和自由陈述口语分数所分别对应的用户确定为目标用户。8.根据权利要求2所述的口语测评方法,其特征在于,所述对所述自由陈述文本进行初测评,确定自由陈述文本包括的每个赋分段落各自的参考分数,包括:根据第一赋分规则,基于所述自由陈述文本所包括的词语数或字数,确定待测评用户的初始测评分数;针对于每个赋分段落,根据第二赋分规则,基于所述初始测评分数以及该赋分段落的文本内容,确定该赋分段落的参考分数;所有赋分段落的参考分数之和等于所述初始测评分数。9.一种基于文本及语音识别的口语测评系统,其特征在于,所述口语测评系统包括:获取模块,用于获取待测评用户的阅读语音、自由陈述语音、所述阅读语音对应的阅读
文本以及所述自由陈述语音对应的自由陈述文本;所述阅读语音为所述待测评用户阅读标准测评文本的语音,所述自由陈述语音为所述待测评用户针对测评题目进行自由陈述的语音;识别模块,用于基于所述阅读语音和阅读文本,确定阅读部分的第一测评分数,基于所述自由陈述语音和自由陈述文本,确定自由陈述部分的第二测评分数;所述第一测评分数和第二测评分数均是由多个评分维度下的测评子分数构成的;不同评分维度用于代表待测评用户不同方面的口语能力;第一确定模块,用于基于第一测评分数和第二测评分数,确定第一测评分差和每个评分维度下的第二测评分差;所述第一测评分差为第一测评分数和第二测评分数的分数差值;查询模块,用于当所述第一测评分差大于第一阈值分数或任一第二测评分差大于第二阈值分数时,根据第一测评分数和第二测评分数,从口语测评数据库中查询满足预设要求的口语测评分数,并确定所述口语测评分数所对应的目标用户;测评模块,用于通过所述目标用户所使用的口语测评系统分别对待测评用户的阅读语音和自由陈述语音进行重新评分,获得待测评用户的第三测评分数和第四测评分数;所述阅读语音为所述阅读文本进行语音文本转换前所对应的语音,所述自由陈述语音为所述自由陈述文本进行语音文本转换前所对应的语音;第二确定模块,用于基于所述待测评用户的第一测评分数、第二测评分数、第三测评分数以及第四测评分数,确定待测评用户的最终口语测评分数。10.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至8任一所述的口语测评方法的步骤。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至8任一所述的口语测评方法的步骤。

技术总结


本申请提供了一种基于文本及语音识别的口语测评方法及系统,包括:分别对待测评用户的文本及语音进行识别,得到第一测评分数和第二测评分数;基于第一测评分数和第二测评分数,确定第一测评分差和每个评分维度下的第二测评分差;当第一测评分差大于第一阈值分数或任一第二测评分差大于第二阈值分数时,从口语测评数据库中确定目标用户;通过目标用户所使用的口语测评系统对待测评用户进行重新评分,获得第三测评分数和第四测评分数;基于第一测评分数、第二测评分数、第三测评分数以及第四测评分数,确定待测评用户的最终口语测评分数。这样,通过结合待测评用户的语音和文件进行口语测评,可以更加综合的评价待测评用户的口语能力。口语能力。口语能力。


技术研发人员:

郭松柳 刘宝泉 张小平 李铭晖

受保护的技术使用者:

上海清华国际创新中心

技术研发日:

2022.04.18

技术公布日:

2022/8/1

本文发布于:2024-09-22 19:20:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/20061.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分数   所述   段落   评分
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议