一种基于拼音距离和滑动窗口的儿童语音短语匹配方法

1.本发明涉及自然语言处理领域，具体涉及一种基于拼音距离和滑动窗口的儿童语音短语匹配方法。

背景技术：

2.如今，儿童的认知能力评估是脑科学研究的一个方向，其中一个方案是让儿童给出图片或场景的短语描述，与目标文本短语匹配进行认知正确性的判定。而由于低龄儿童识字能力欠缺，常常需要根据说话内容进行评估，这涉及音频的采集、转写和判定，大幅增加了志愿者的工作量。针对该问题，机器可以参与转写和判定环节，以节约人工成本。随着语音识别技术的发展，目前成人语音的识别准确率可以达到95％以上，相关产品应用广泛。然而儿童说话可能口齿不清，现有语音识别模型难以纠正表达模糊的部分，导致目标文本短语匹配困难，增加了误判为认知错误的音频数量。
3.从拼音角度而言，若两个完全不同的汉字发音相近，则对应的拼音也具有一定的相似性。通过拼音距离的度量，允许在一定范围内匹配发音类似的汉字，能够较好地解决上述问题。目前，拼音距离常采用两个拼音对应英文字母串的编辑距离表示，具有一定的可实施性，但忽略了拼音的声母或韵母之间发音的相似程度。
4.在音频采集过程中，考虑到低龄儿童的认知能力，难以对儿童说话内容的长度进行限制，往往会出现较多冗余词，影响目标文本短语的匹配。因此，在较长的儿童语音转写文本中，需要寻可能匹配的目标文本短语，滑动窗口策略具有可实施性。

技术实现要素：

5.有鉴于此，本发明的目的在于提供一种基于拼音距离和滑动窗口的儿童语音短语匹配方法，以便在儿童说话的内容中，寻可能匹配的目标文本短语，减少儿童发音模糊带来的不利影响。
6.为了实现上述目的，本发明采用如下技术方案：
7.一种基于拼音距离和滑动窗口的儿童语音短语匹配方法，包括以下步骤：
8.步骤1：给定目标文本短语，收集儿童短语音频，通过语音识别模型得到儿童短语音频的转写文本，根据音频表达的内容是否包括目标文本短语进行标注；
9.步骤2：将目标文本短语与转写文本转化为对应的拼音序列，在转写文本对应的拼音序列中，使用滑动窗口算法，寻与目标文本短语的拼音距离最小的子序列，并记录最小距离，具体包括：
10.2.1)不考虑拼音声调，将目标文本短语与转写文本转化为对应的拼音序列；
11.2.2)使用滑动窗口算法，窗口大小与目标文本短语的字数相同，窗口每次向右滑动1个字，遍历转写文本对应的拼音序列，寻与目标文本短语的拼音距离最小的子序列，子序列长度＝窗口大小，并记录最小距离，若存在多个目标文本短语，则对每个目标文本短语分别进行该操作，得到最小距离的集合，集合元素个数为目标文本短语的个数，最后在该
集合中寻最小值作为转写文本与多个目标文本短语的最小距离；
12.2.3)对于两个拼音序列s＝{s1，s2，......，sn}、q＝{q1，q2，......，qn}，有：
13.d(s，q)＝[d(s1，q1)+d(s2，q2)+
……
+d(sn，qn)]
÷n[0014]
d为拼音距离，对于两个独立字的拼音si、qi，将si、qi分别拆分为声母部分和韵母部分，则有：
[0015]
d(si，qi)＝声母距离(si，qi)+韵母距离(si，qi)
[0016]
声母距离(si，qi)＝声母编辑距离(si，qi)
×
声母权值(si，qi)
[0017]
其中声母权值(si，qi)由人工根据si、qi的声母发音相似度设计，权值范围[0.5，1.5]，韵母距离(si，qi)的计算方式与声母距离一致。
[0018]
步骤3：对于步骤1的所有已标注数据，使用步骤2所述方法计算最小距离，得到最小距离的集合，并根据人工参与程度的设定比例，得到判定区间，对于每一个最小距离，若小于区间左端点，则目标文本短语匹配成功，若大于等于区间右端点，则目标文本短语匹配失败，若在区间内即包括区间左端点但不包括区间右端点，则由人工判定是否匹配目标文本短语；根据数据标注结果，对于每一个设定的人工参与比例，使用滑动窗口算法，寻使准确率达到最大时对应的判定区间，具体包括：
[0019]
3.1)令判定区间为[left，right)，若最小距离＜left，则目标文本短语匹配成功，若最小距离≥right，则目标文本短语匹配失败，若left≤最小距离＜right，则由人工判定是否匹配目标文本短语；
[0020]
3.2)人工参与程度的设定比例为序列{0，k1％，k2％，......，k
t
％}，对步骤2计算得到的所有已标注数据的最小距离共m个进行升序排序，得到有序数组a＝{d1，d2，......，di，......，dj，......，dm}，当人工比例为kr％时，对有序数组a使用滑动窗口算法，以m
×
kr％为窗口大小，令当前窗口为(di，dj)，则j-i+1＝m
×
kr％，判定区间[left，right)的确定方式为：
[0021][0022][0023]
对每一个判定区间，所有数据使用步骤3.1)所述规则进行匹配结果判定，过滤需要人工判定的数据，并与已标注数据进行比较，计算当前判定结果的准确率；使用滑动窗口算法时，初始i＝0，窗口每次向右移动1个单位，寻使判定结果的准确率最大时的判定区间作为人工比例为kr％时的最佳判定区间。
[0024]
本发明与现有技术相比，具有以下技术效果：
[0025]
本发明是基于拼音距离和滑动窗口的儿童语音短语匹配方法，相较过去仅使用拼音的编辑距离计算拼音相似度，考虑了声母和韵母的发音相似度，构建了声母和韵母之间编辑距离的权值矩阵，进一步优化了拼音距离的计算方式。同时，判定区间基于大量数据进行确定，具有统计意义。
[0026]
本发明考虑了儿童发音的模糊性和说话内容的冗余性，提高了目标文本短语匹配
的精确度，更准确地判定儿童的认知水平，具有可实施性。
附图说明
[0027]
图1为本发明实施例的流程示意图。
具体实施方式
[0028]
下面结合具体的实施例以及附图对本发明进行进一步说明。
[0029]
实施例
[0030]
参阅图1所示，本发明是一种基于拼音距离和滑动窗口的儿童语音短语匹配方法，包括以下步骤：
[0031]
步骤1：通过语音识别模型得到发音模糊的儿童语音的转写文本{这是牙此}，并给定目标文本短语{牙齿}；
[0032]
步骤2：将目标文本短语与转写文本转化为对应的拼音序列，在转写文本对应的拼音序列中，使用滑动窗口算法，寻与目标文本短语的拼音距离最小的子序列，并记录最小距离，具体包括：
[0033]
2.1)不考虑拼音声调，将目标文本短语与转写文本分别转化为对应的拼音序列{ya，chi}、{zhe，shi，ya，ci}；
[0034]
2.2)使用滑动窗口算法，窗口大小与目标文本短语的字数相同(字数为2)，窗口每次向右滑动1个字，遍历转写文本对应的拼音序列{zhe，shi，ya，ci}，寻与目标文本短语的拼音距离最小的子序列，子序列长度＝窗口大小，并记录最小距离d
min
＝min{d({ya，chi}，{zhe，shi})，d({ya，chi}，{shi，ya})，d({ya，chi}，{ya，ci})}，d为拼音距离。若存在多个目标文本短语，则对每个目标文本短语分别进行该操作，得到最小距离的集合，集合元素个数为目标文本短语的个数，最后在该集合中寻最小值作为转写文本与多个目标文本短语的最小距离；
[0035]
2.3)两个拼音序列s＝{ya，chi}、q＝{ya，ci}的距离为：
[0036]
d(s，q)＝[d(ya，ya)+d(chi，ci)]
÷
2(d为拼音距离)
[0037]
对于两个独立字的拼音chi、ci，将chi、ci分别拆分为声母部分ch、c和韵母部分i、i，则有：
[0038]
d(chi，ci)＝d(ch，c)+d(i，i)
[0039]
d(ch，c)＝编辑距离(ch，c)
×
权值(ch，c)
[0040]
其中权值(ch，c)由人工根据ch、c的发音相似度设计，值为0.5，则d(ch，c)＝1
×
0.5＝0.5，d(i，i)＝0
×
1.0＝0。
[0041]
步骤3：对于步骤1的所有已标注数据，使用步骤2所述方法计算最小距离，得到最小距离的集合，并根据人工参与程度的设定比例，得到判定区间，对于每一个最小距离，若小于区间左端点，则目标文本短语匹配成功，若大于等于区间右端点，则目标文本短语匹配失败，若在区间内即包括区间左端点但不包括区间右端点，则由人工判定是否匹配目标文本短语；根据数据标注结果，对于每一个设定的人工参与比例，使用滑动窗口算法，寻使准确率达到最大时对应的判定区间，具体包括：
[0042]
3.1)令判定区间为[left，right)，若最小距离＜left，则目标文本短语匹配成功，
若最小距离≥right，则目标文本短语匹配失败，若left≤最小距离＜right，则由人工判定是否匹配目标文本短语；
[0043]
3.2)人工参与程度的设定比例为序列{0，5％，10％，......，50％}，对步骤2计算得到的所有已标注数据的共m＝5000个最小距离进行升序排序，得到有序数组a＝{d1，d2，......，d
i-1
，di，d
i+1
，......，d
j-1
，dj，d
j+1
，......，dm}＝{0，0，......，1.4，1.5，1.5，......1.9，1.9，1.9，......，4.0}，当人工比例为5％时，对有序数组a使用滑动窗口算法，以5000
×
5％＝250为窗口大小，则i、j满足j-i+1＝250，存在i、j，使得窗口为(di，dj)＝(1.5，1.9)，判定区间[left，right)的确定方式为：
[0044]
left＝(1.4+1.5+1.5)
÷
3≈1.47
[0045]
right＝(1.9+1.9+1.9)
÷
3＝1.9
[0046]
对每一个判定区间，所有数据使用步骤3.1)所述规则进行匹配结果判定，过滤需要人工判定的数据，并与已标注数据进行比较，计算当前判定结果的准确率；使用滑动窗口算法时，初始i＝0，窗口每次向右移动1个单位，寻使判定结果的准确率最大即89.29％时的判定区间[1.5，1.9)作为人工比例为5％时的最佳判定区间。
[0047]
以上所述仅为本发明的较佳实施例，在本发明权利要求所限定的范围内可对其进行一定修改，但都将落入本发明的保护范围内。

技术特征：

1.一种基于拼音距离和滑动窗口的儿童语音短语匹配方法，其特征在于，该方法包括以下步骤：步骤1：给定目标文本短语，收集儿童短语音频，通过语音识别模型得到儿童短语音频的转写文本，根据音频表达的内容是否包括目标文本短语进行标注；步骤2：将目标文本短语与转写文本转化为对应的拼音序列，在转写文本对应的拼音序列中，使用滑动窗口算法，寻与目标文本短语的拼音距离最小的子序列，并记录最小距离；步骤3：对于步骤1的所有已标注数据，使用步骤2所述方法计算最小距离，得到最小距离的集合，并根据人工参与程度的设定比例，得到判定区间，对于每一个最小距离，若小于区间左端点，则目标文本短语匹配成功，若大于等于区间右端点，则目标文本短语匹配失败，若在区间内即包括区间左端点但不包括区间右端点，则由人工判定是否匹配目标文本短语；根据数据标注结果，对于每一个设定的人工参与比例，使用滑动窗口算法，寻使准确率达到最大时对应的判定区间。2.根据权利要求1所述的儿童语音短语匹配方法，其特征在于，所述步骤2具体为：2.1)不考虑拼音声调，将目标文本短语与转写文本转化为对应的拼音序列；2.2)使用滑动窗口算法，窗口大小与目标文本短语的字数相同，窗口每次向右滑动1个字，遍历转写文本对应的拼音序列，寻与目标文本短语的拼音距离最小的子序列，子序列长度＝窗口大小，并记录最小距离，若存在多个目标文本短语，则对每个目标文本短语分别进行该操作，得到最小距离的集合，集合元素个数为目标文本短语的个数，最后在该集合中寻最小值作为转写文本与多个目标文本短语的最小距离；2.3)对于两个拼音序列s＝{s1，s2，......，s
n
}、q＝{q1，q2，......，q
n
}，有：d(s，q)＝[d(s1，q1)+d(s2，q2)+
……
+d(s
n
，q
n
)]
÷
nd为拼音距离，对于两个独立字的拼音s
i
、q
i
，将s
i
、q
i
分别拆分为声母部分和韵母部分，则有：d(s
i
，q
i
)＝声母距离(s
i
，q
i
)+韵母距离(s
i
，q
i
)声母距离(s
i
，q
i
)＝声母编辑距离(s
i
，q
i
)
×
声母权值(s
i
，q
i
)其中声母权值(s
i
，q
i
)由人工根据s
i
、q
i
的声母发音相似度设计，权值范围[0.5，1.5]，韵母距离(s
i
，q
i
)的计算方式与声母距离一致。3.根据权利要求1所述的儿童语音短语匹配方法，其特征在于，所述步骤3具体为：3.1)令判定区间为[left，right)，若最小距离＜left，则目标文本短语匹配成功，若最小距离≥right，则目标文本短语匹配失败，若left≤最小距离＜right，则由人工判定是否匹配目标文本短语；3.2)人工参与程度的设定比例为序列{0，k1％，k2％，......，k
t
％}，对步骤2计算得到的所有已标注数据的最小距离共m个进行升序排序，得到有序数组a＝{d1，d2，......，d
i
，......，d
j
，......，d
m
}，当人工比例为k
r
％时，对有序数组a使用滑动窗口算法，以m
×
k
r
％为窗口大小，令当前窗口为(d
i
，d
j
)，则j-i+1＝m
×
k
r
％，判定区间[left，right)的确定方式为：
对每一个判定区间，所有数据使用步骤3.1)所述规则进行匹配结果判定，过滤需要人工判定的数据，并与已标注数据进行比较，计算当前判定结果的准确率；使用滑动窗口算法时，初始i＝0，窗口每次向右移动1个单位，寻使判定结果的准确率最大时的判定区间作为人工比例为k
r
％时的最佳判定区间。

技术总结

本发明公开了一种基于拼音距离和滑动窗口的儿童语音短语匹配方法，该方法包括如下步骤：收集儿童短语音频，通过语音识别模型得到音频转写文本，并给定目标文本短语进行标注；将目标文本短语与转写文本转化为对应的拼音序列，对转写文本的拼音序列使用滑动窗口，寻与目标文本短语的最小拼音距离；根据数据标注结果和最小距离集合，计算最佳判定区间，最小距离小于区间左端点时短语匹配成功，大于等于区间右端点时匹配失败，在区间内时交给人工判定。本发明考虑了儿童发音的模糊性和语句长度的不确定性，结合拼音距离和滑动窗口思想，并用人工辅助判定，有利于提高目标文本短语匹配的精确度，更准确地判定儿童的认知水平，具有可实施性。有可实施性。有可实施性。