一种字符选择方法、信息输入方法、终端设备及存储介质与流程



1.本技术涉及人工智能技术领域,特别是涉及一种字符选择方法、信息输入方法、终端设备及存储介质。


背景技术:



2.随着社会的发展,电脑等电子设备的普及,打字成了人们日常生活、办公、创作等不可或缺的要求。
3.目前,人们多以使用键盘打字、手机按键/触摸打字、语音识别转化三种方式作为主要的打字方式。然而,这些方法对于手部残疾人士、渐冻症患者、重症患者等极其不友好,他们很难用手来操控键盘和手机,而使用语音识别的方法又存在不准、保密性不强等缺点。
4.因此,需要提供一种新型的字符输入方法以方便更多人。


技术实现要素:



5.为了解决现有技术的中存在的字符输入方法较为局限的技术问题,本技术提供了一种字符选择方法、信息输入方法、终端设备及存储介质。
6.为解决上述问题,本技术提供了一种字符选择方法,字符选择方法包括:获取用户的脸部图像;从所述脸部图像中识别出嘴形数据;基于所述嘴形数据从字符图像中选择特定区域,并将所述特定区域中的字符确定为目标字符。
7.为解决上述问题,本技术提供了一种信息输入方法,所述信息输入方法包括:获取目标字符,其中,所述目标字符通过上述的方法获取得到;利用所述目标字符输入目标信息。
8.在一实施例中,所述基于所述嘴形数据从字符图像中选择特定区域,包括:基于所述嘴形数据从所述字符图像中的第一选择区中选择第一显示区域;将所述第一显示区域中的每个字符分别显示在所述字符图像中的第二选择区中的不同的第二显示区域;基于所述嘴形数据从所述第二选择区中选择其中一个所述第二显示区域作为所述特定区域。
9.由此,字符图像包括第一选择区和第二选择区,分别利用嘴形数据对选择区进行两次选择,以便于以较少次数的嘴形数据,从众多字符中到目标字符。
10.在一实施例中,所述获取用户的脸部图像,包括:分别获取用户的第一脸部图像和用户的第二脸部图像;所述从所述脸部图像中识别出嘴形数据,包括:从所述第一脸部图像中识别出第一嘴形数据,其中,所述第一嘴形数据用于选择所述第一显示区域;从所述第二脸部图像中识别出第二嘴形数据,其中,所述第二嘴形数据用于选择所述特定区域。
11.由此,通过第一嘴形数据选择第一显示区域,通过第二嘴形数据选择特定区域,以提高对目标字符选择的可控性,以及目标字符选择的准确性。
12.在一实施例中,所述基于所述嘴形数据从所述字符图像中的第一选择区中选择第一显示区域,包括:基于所述第一嘴形数据确定所述第一脸部图像中嘴巴指示的第一方向;按照所述第一方向从所述第一选择区中选择位于所述第一方向处的区域作为所述第一显
示区域。
13.由此,利用第一嘴形数据定义第一方向,通过第一方向选择第一显示区域,能够较为高效准确的从第一选择区中确定第一显示区域,提高字符选择的效率。
14.在一实施例中,所述基于所述嘴形数据从所述第二选择区中选择所述第二显示区域作为所述特定区域,包括:基于所述第二嘴形数据确定所述第二脸部图像中的嘴巴指示的第二方向;按照所述第二方向从所述第二选择区中选择位于所述第二方向处的第二显示区域作为所述特定区域。
15.由此,利用第二嘴形数据定义第二方向,通过第二方向选择特定区域,能够较为高效准确的从第二选择区中确定特定区域,提高字符选择的效率。
16.在一实施例中,所述方法包括:获取连续多帧的脸部图像;在所述连续多帧的脸部图像中识别出嘴巴的运动状态;在所述嘴巴的运动状态符合预设运动条件的情况下,基于所述嘴巴的运动状态切换所述目标字符的显示形式。
17.由此,通过嘴巴的运动状态切换目标字符的显示形式,能够提高目标字符选择的多样性以及便捷性。
18.在一实施例中,所述从所述脸部图像中识别出嘴形数据,包括:在所述脸部图像中定位嘴巴区域;基于所述嘴巴区域在所述脸部图像中提取嘴形特征;利用评分模型对所述嘴形特征进行评分,根据评分结果确定所述嘴形数据。
19.由此,利用评分模型对嘴形特征进行评分,能够快速准确的从嘴形特征中确定脸部图像中的嘴形数据,提高目标字符的选择效率。
20.在一实施例中,所述利用评分模型对所述嘴形特征进行评分,根据评分结果确定所述嘴形数据,包括:获取所述评分模型中的多种预设嘴形特征与所述脸部图像中的嘴形特征的特征相似度;利用所述特征相似度确定所述脸部图像中的嘴形特征的置信度,其中,所述置信度表征所述嘴形特征属于对应的所述预设嘴形特征的可能性;按照所述评分结果中的最大置信度,确定所述嘴形特征对应的嘴形数据。
21.在一实施例中,所述在所述脸部图像中定位嘴巴区域,包括:获取所述脸部图像中的人脸关键点;基于所述人脸关键点中的嘴巴关键点定位所述嘴巴区域。
22.由此,通过嘴巴关键点定位嘴巴区域,能够较为精准的定位嘴巴区域在脸部图像中的位置,便于从脸部图像中提取嘴形特征。
23.在一实施例中,所述脸部图像包括脸部热力图。
24.由此,利用脸部热力图,可以不受光线的影响,在光线较弱的环境下,也能精确的识别出脸部热力图中的嘴形数据。
25.为解决上述问题,本技术提供了一种终端设备,所述终端设备包括处理器和存储器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据用以实现上述的方法。
26.为解决上述问题,本技术提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现上述的方法。
27.与现有技术相比,本技术的字符选择包括:获取用户的脸部图像;从脸部图像中识别出嘴形数据;基于嘴形数据从字符图像中选择特定区域,并将特定区域中的字符确定为目标字符。通过上述方式,从用户的脸部图像中识别出嘴形数据,并基于嘴形数据选择特定
区域中的目标字符,相对于通过手动打字的方式选择字符而言,本方案通过嘴形数据即可选择字符,能够适用于难以用双手选择字符的特殊人,提高字符选择的便捷性,以及增加字符选择的多样性。
28.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。
附图说明
29.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
30.图1是本技术提供的字符选择方法的一实施例流程示意图;
31.图2是本技术提供的选择特定区域的一实施例流程示意图;
32.图3是本技术提供的字符图像的一实施例的结构示意图;
33.图4是本技术提供的选择第一显示区域的一实施例流程示意图;
34.图5是本技术的改变字符的显示形式的一实施例流程示意图;
35.图6是本技术提供的从脸部图像中识别出嘴形数据的一实施例流程示意图;
36.图7是本技术提供的识别网络的一实施例的结构示意图;
37.图8是本技术提供的信息输入装置的一实施例结构示意图;
38.图9是本技术终端设备一实施例的结构示意图;
39.图10是本技术计算机存储介质一实施例的结构示意图。
具体实施方式
40.下面结合附图和实施例,对本技术作进一步的详细描述。特别指出的是,以下实施例仅用于说明本技术,但不对本技术的范围进行限定。同样的,以下实施例仅为本技术的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
41.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。
42.本技术的描述中,需要说明书的是,除非另外明确的规定和限定,术语“安装”、“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,可以是可拆卸连接,或一体地连接;可以是机械来能接,也可以是电连接;可以是直接相连,也可以通过中间媒介间隔相连。对于本领域的普通技术人员而言,可以具体情况连接上述属于在本技术的具体含义。
43.参见图1,图1是本技术提供的字符选择方法的一实施例流程示意图。具体而言,包括如下步骤s101~步骤s103。
44.步骤s101:获取用户的脸部图像。
45.脸部图像通过图像传感器采集得到,采集的图像可以包括用户的脸部图像以及用
户所处环境的背景图像,脸部图像中可以包括用户的脸部的轮廓、用户的五官(眉毛、耳朵、眼睛、鼻子和嘴巴)和用户的头发等。示例性地,可以通过采集大范围的场景图像,场景图像中包括至少一名用户,然后通过人脸关键点检测技术识别出场景图像中的多个人脸关键点,例如可以对场景图像中的每一名用户进行106个人脸关键点检测,再根据人脸关键点定位场景图像中的人脸区域,然后按照人脸区域对场景图像进行裁剪,以获取至少一帧的脸部图像。
46.步骤s102:从脸部图像中识别出嘴形数据。
47.脸部图像中包括用户的嘴巴部分,通过在脸部图像中确定用户的嘴形数据。其中,嘴形数据可以包括嘴巴的不同状态,例如嘴形数据可以包括张嘴、闭嘴、连续张嘴、长时间闭嘴、嘴吧向上方偏移、嘴吧向左上方偏移、嘴吧向左方偏移、嘴吧向左下方偏移、嘴吧向下方偏移、嘴吧向右下方偏移、嘴吧向右方偏移和嘴吧向右上方偏移等。
48.步骤s103:基于嘴形数据从字符图像中选择特定区域,并将特定区域中的字符确定为目标字符。
49.字符图像中包括多个区域,每个区域中均存在特定的字符。字符包括字母、数字、运算符号、标点符号、其他符号以及一些功能性的符号等。示例性地,字符可以包括26个英文字母、0-9的阿拉伯数字等等。当识别到嘴形数据之后,即可根据识别到的嘴形数据在字符图像中选择其中至少一个特定区域,每个被选择的特定区域中均存在字符,最终将特定区域中的字符作为目标字符。
50.相对于利用手动输入字符的方式而言,本技术利用嘴形数据选择目标字符的方式,能够适用于更多类型人员,示例性地,适用人员还可包括手部残疾人士、渐冻症患者、重症患者等不方便用手动方式选择目标字符的人员。相对于利用语音输入字符的方式而言,本技术利用嘴形数据选择目标字符的方式,能够增强字符选择的保密性,示例性地,利用语音选择字符时,会在字符选择的过程中通过语音的方式讲出需要选择的字符,而在此过程中极容易被他人窃听所选择的内容,导致内容泄露,保密性较差,而本技术通过嘴形数据选择目标字符,整个选择过程中均无需发出声音即可完成,能够增强字符选择的保密性。相对于利用眼动仪选择字符的方式而言,本技术利用嘴形数据选择目标字符的方式,能够提高字符选择的准确性,示例性地,利用眼动仪选择字符的过程中,可能出现用户的眼神漂移,导致选择字符时被干扰,选择的字符并非是目标字符;又或者,由于部分用户的眼睛较小,无法满足眼动仪选择字符的需求,导致字符选择并非是目标字符,而本技术通过嘴形数据能够避免利用眼动仪选择字符的过程中遇到的上述问题,能够提高字符选择的准确性。
51.在一实施例中,脸部图像可以包括脸部热力图。利用脸部热力图,可以不受光线的影响,在光线较弱的环境下,也能精确的识别出脸部热力图中的嘴形数据。脸部热力图可通过热成像传感器获取得到,热成像传感器用于将物体发出的不可见红外能量转变为可见的热图像,热图像的上面的不同颜代表被测物体的不同温度。
52.参见图2,图2是本技术提供的选择特定区域的一实施例流程示意图。具体而言,可以包括如下步骤s201~步骤s203。
53.步骤s201:基于嘴形数据从字符图像中的第一选择区中选择第一显示区域。
54.在一实施例中,字符图像可以为双层选择区,如图3所示,图3是本技术提供的字符图像的一实施例的结构示意图。字符图像可以包括内轮选择区域和外轮选择区,内轮选择
区和外轮选择区可以分别包括多个显示区域,显示区域用于显示字符。在其他实施例中,字符图像还可以是其他显示形状,例如字符图像中的选择区可以只有一个、三个或者其他数量,每个显示区域中可以存在至少一个字符。
55.在本实施例中,结合图3,第一选择区可以包括内轮选择区,第一选择区包括8个第一显示区域,每个第一显示区域中均可包括8个字符。在获得嘴形数据之后,即从第一选择区域中选择至少一个第一显示区域。
56.步骤s202:将第一显示区域中的每个字符分别显示在字符图像中的第二选择区中的不同的第二显示区域。
57.在本实施例中,结合图3,第二选择区域可以包括外轮选择区,第二选择区包括8个第二显示区域,其中,在未确定第一显示区域时,每个第二显示区域中可为空白区域,也即第二显示区域中不包括字符。在本实施例中,基于嘴形数据选择的第一显示区域为上角的第一显示区域,其中被选择的第一显示区域中包括8个字符,分别为a、b、c、d、e、f、g、h。将被选择的第一显示区域中的8个字符分别显示在第二选择区域中的每个第二显示区域中,使得每个第二显示区域中均包括一个字符,以得到图3所示的字符图像的显示状态。
58.步骤s203:基于嘴形数据从第二选择区中选择其中一个第二显示区域作为特定区域。
59.在每个第二显示区域均显示有字符之后,再基于嘴形数据从多个第二显示区中选择其中一个区域作为特定区域,然后以最终被选择的特定区域中的字符作为目标字符。示例性地,在图3中,当选择的第二显示区域为包括字符a的第二显示区域,则以字符a作为选择的目标字符。因此,在本实施例中,字符图像包括第一选择区和第二选择区,分别利用嘴形数据对选择区进行两次选择,以便于以较少次数的嘴形数据,从众多字符中到目标字符。
60.在一实施例中,获取用户的脸部图像,包括:分别获取用户的第一脸部图像和用户的第二脸部图像。从脸部图像中识别出嘴形数据,包括:从第一脸部图像中识别出第一嘴形数据,其中,第一嘴形数据用于选择第一显示区域;从第二脸部图像中识别出第二嘴形数据,其中,第二嘴形数据用于选择特定区域。
61.第一脸部图像和第二脸部图像均可为脸部热力图。第一脸部图像和第二脸部图像可以为同一用户不同时刻的脸部图像。在确定第一脸部图像之后,即可从第一脸部图像中识别出第一嘴形数据,然后利用第一嘴形数据从字符图像中的第一选择区中选择第一显示区域。将第一显示区域中的每个字符分别显示在字符图像中的第二选择区中的不同的第二显示区域之后,再获取第二脸部图像,然后在第二脸部图像中识别出第二嘴形数据,在利用第二嘴形数据从第二选择区中选择其中一个第二显示区域作为特定区域。由此,通过第一嘴形数据选择第一显示区域,通过第二嘴形数据选择特定区域,以提高对目标字符选择的可控性,以及目标字符选择的准确性。
62.参见图4,图4是本技术提供的选择第一显示区域的一实施例流程示意图。具体而言,可以包括步骤s401~步骤s402。
63.步骤s401:基于第一嘴形数据确定第一脸部图像中嘴巴指示的第一方向。
64.在本实施例中,第一嘴形数据可以包括嘴吧向上方偏移、嘴吧向左上方偏移、嘴吧向左方偏移、嘴吧向左下方偏移、嘴吧向下方偏移、嘴吧向右下方偏移、嘴吧向右方偏移和
嘴吧向右上方偏移8种状态。在其他实施例中,还可以将第一嘴形数据的状态按照时钟方向进一步细化,例如,第一嘴形数据包括嘴巴向12点钟方向偏移、嘴巴向11点钟方向偏移、嘴巴向13点钟方向偏移等。第一方向与第一嘴形数据所指示的方向对应,当第一嘴形数据为嘴吧向上方偏移时,第一反向为上方;当第一嘴形数据为嘴吧向左上方偏移时,第一反向为左上方。以此方式类推,即可根据第一嘴形数据得到第一方向。
65.步骤s402:按照第一方向从第一选择区中选择位于第一方向处的区域作为第一显示区域。
66.第一显示区可绕第一选择区的中心旋转分布,如图3所示,第一选择区为扇环形,以扇环形的圆心为中心,每个第一显示区均分布于与圆心不同的相对位置。当确定第一方向时,即可确定第一方向所指示的第一显示区。示例性地,当第一方向确定为上方时,则位于第一方向处的区域为包括字符abcdefgh的第一显示区域。通过上述实施方式,利用第一嘴形数据定义第一方向,通过第一方向选择第一显示区域,能够较为高效准确的从第一选择区中确定第一显示区域,提高字符选择的效率。
67.在一实施例中,基于嘴形数据从第二选择区中选择第二显示区域作为特定区域,包括:基于第二嘴形数据确定第二脸部图像中的嘴巴指示的第二方向;按照第二方向从第二选择区中选择位于第二方向处的第二显示区域作为特定区域。其中,对于特定区域的选择,可以采用与选择第一显示区域相同的方式进行,在本实施例中不再赘述。
68.参见图5,图5是本技术的改变字符的显示形式的一实施例流程示意图。具体而言,可以包括如下步骤s501~步骤s503。
69.步骤s501:获取连续多帧的脸部图像。
70.连续多帧的脸部图像可以是通过热成像传感器获得的脸部热力图。连续多帧的脸部图像能够在一段时间内反应出用户的脸部运动情况,例如眨眼、张嘴、挑眉等等。
71.步骤s502:在连续多帧的脸部图像中识别出嘴巴的运动状态。
72.在连续多帧的脸部图像中包括嘴巴的运动状态,例如嘴巴的运动状态包括在某一段时间内连续张嘴的次数、在某一段时间内处于闭嘴状态、以及在某一段时间内嘴形的变换状态等等。
73.步骤s503:在嘴巴的运动状态符合预设运动条件的情况下,基于嘴巴的运动状态切换目标字符的显示形式。
74.目标字符的显示形式可以包括对英文字符的大小写变化等,例如,当运动状态符合预设运动条件的情况下,则将小写的英文字符转换为大写的英文字符;或者当运动状态符合预设运动条件的情况下,可以切换数字的种类,使得阿拉伯数字、中国小写数字、中国大写数字、罗马数字之间进行切换。
75.需要注意的是,在本实施例中,对目标字符的显示形式的切换可以是在不同的时间段,例如,可以在已经确定目标字符时,再切换字符的显示形式;也可以在还未确定目标字符时,便通过切换该类别的目标字符的显示形式,然后再从切换了显示形式的字符中确定字符。示例性地,如图3所示的实施例中,对字符的显示形式切换,可以是在选择第一显示区域之前进行切换;也可在选择第二显示区域之间进行切换;还可以在确定目标字符之后再进行切换。其中对于字符的显示形式切换也可以是指切换某一个显示区域中的全部字符的显示形式;也可以是切换整个选择区中的全部字符的显示形式,或者切换整个字符图像
中的所有字符的显示形式。
76.参见图6,图6是本技术提供的从脸部图像中识别出嘴形数据的一实施例流程示意图。具体而言,可以包括如下步骤s601~步骤s603。
77.步骤s601:在脸部图像中定位嘴巴区域。
78.其中脸部图像可以包括脸部热力图,可以将脸部热力图中符合预设的温度阈值的区域标记为脸部热力图中的嘴巴区域。由于根据脸部热力图直接定位嘴巴区域,只能根据温度数据来筛选出嘴巴区域的像素点。用户的脸部各个区域的温度值差异实际上比较小,在脸部热力图直接定位嘴巴区域需要高精度的识别技术和大量的算力才能完成。
79.在一实施例中,在脸部图像中定位嘴巴区域包括:获取脸部图像中的人脸关键点;基于人脸关键点中的嘴巴关键点定位嘴巴区域。
80.脸部图像中可以包括用户的包括人脸区域,人脸区域中存在多个人脸关键点,例如,人脸关键点可以包括106个关键点或68个关键点,通过确定嘴巴关键点在人脸区域中的位置即可在脸部图像中定位嘴巴区域。
81.步骤s602:基于嘴巴区域在脸部图像中提取嘴形特征。
82.可以将嘴巴区域输入至嘴形识别网络中,然后使用嘴形识别网络在脸部图像中提取出嘴形特征。在一些实施例中,在提取出嘴形特征之后,还可以对提取的嘴形特征进行筛选,最终得到筛选后的嘴形特征。具体地,参见图7,图7是本技术提供识别网络的一实施例结构示意图。如图7所示,从左至右,第一个框图为包括嘴巴区域图像,第二个框图为resnet18网络,通过resnet18网络来提取嘴巴区域图像中的嘴形特征,第三个框图为maxpool(最大池化层),通过maxpool来缩减提取的嘴形特征,第四个框图为两层全连接网络层,通过全连接网络层输出嘴形特征对应的嘴形分数,第五个框图为通过全连接层输出嘴形分数,共包括八种嘴形分数。在图7所示的实施例中,通过resnet18网络提取嘴形特征,在其他实施例中,也可通过其他网络从嘴巴区域中提取嘴形特征,网络的类型在此不再一一列举,只要能够从嘴巴区域中提取嘴形特征的网络即可。
83.步骤s603:利用评分模型对嘴形特征进行评分,根据评分结果确定嘴形数据。
84.将提取的嘴形特征输入至评分模型中,利用评分模型对嘴形特征进行评分,得到对应的评分结果,最终根据评分结果得到嘴形数据。其中,评分模型是预先已经训练完成的评分模型。利用评分模型对嘴形特征进行评分,能够快速准确的从嘴形特征中确定脸部图像中的嘴形数据,提高目标字符的选择效率。
85.具体地,利用评分模型对嘴形特征进行评分,根据评分结果确定嘴形数据的步骤(步骤s603),包括:获取评分模型中的多种预设嘴形特征与脸部图像中的嘴形特征的特征相似度;利用特征相似度确定脸部图像中的嘴形特征的置信度,其中,置信度表征嘴形特征属于对应的预设嘴形特征的可能性;按照评分结果中的最大置信度,确定嘴形特征对应的嘴形数据。在图7所示的识别网络中,在利用resnet18网络来提取嘴巴区域图像中的嘴形特征,以及利用maxpool来缩减提取的嘴形特征之后,可通过两层全连接层对嘴形特征进行评分,并输出八个评分结果。示例性地,评分模型中的预设嘴形特征可包括八种,分别包括嘴吧向上方偏移、嘴吧向左上方偏移、嘴吧向左方偏移、嘴吧向左下方偏移、嘴吧向下方偏移、嘴吧向右下方偏移、嘴吧向右方偏移和嘴吧向右上方偏移。在得到脸部图像中的嘴形特征之后,即可得到脸部图像中的嘴形特征分别与八种预设嘴形特征之间的特征相似度,特征
相似度越高的嘴形特征的置信度越高,两层全连接层分别输出嘴形特征所对应这八种预设嘴形的置信度,得到嘴形特征对应每个预设嘴形特征的一个置信度。然后从八个置信度中选取最大的置信度,并将最大置信度对应的预设嘴形特征作为嘴形数据。
86.为了解决现有技术的中存在的信息输入方法较为局限的技术问题,本技术还提供了一种信息输入方法,该信息输入方法包括:获取目标字符,利用目标字符输入目标信息,其中,目标字符可通过上述任意实施例的字符选择方法得到。通过上述方式,从用户的脸部图像中识别出嘴形数据,并基于嘴形数据选择特定区域中的目标字符,相对于通过手动打字的方式选择字符而言,本方案通过嘴形数据即可选择字符,能够适用于难以用双手选择字符的特殊人,提高字符选择的便捷性,以及增加字符选择的多样性,在确定目标字符之后,即可根据选择的目标字符生成目标信息。
87.本实施例中的字符选择方法和信息输入方法可以应用于信息输入装置,本技术的信息输入装置可以为服务器,也可以为移动设备,还可以为由服务器和移动设备相互配合的系统。相应地,移动设备包括的各个部分,例如各个单元、子单元、模块、子模块可以全部设置于服务器中,也可以全部设置于移动设备中,还可以分别设置于服务器和移动设备中。
88.进一步地,上述服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块,例如用来提供分布式服务器的软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。
89.为实现上述实施例的字符选择方法和信息输入方法,本技术提供了一种信息输入装置。参见图8,图8是本技术提供的信息输入装置的一实施例结构示意图。
90.具体地,信息输入装置70可以包括:获取模块71、识别模块72和选择模块73。获取模块71用于获取用户的脸部图像;识别模块72用于从脸部图像中识别出嘴形数据;选择模块73用于基于嘴形数据从字符图像中选择特定区域,并将特定区域中的字符确定为目标字符。
91.其中,在本技术的一个实施例,图8所示的信息输入装置70中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本技术的其它实施例中,信息输入装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
92.上述方法应用于终端设备中。具体请参阅图9,图9是本技术终端设备一实施例的结构示意图,本实施例终端设备80包括处理器81和存储器82。其中,存储器82中存储有计算机程序,处理器81用于执行计算机程序以实现上述的方法。
93.其中,处理器81可以是一种集成电路芯片,具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
94.对于上述实施例的方法,其可以计算机程序的形式呈现,本技术提出一种承载计
算机程序的计算机存储介质,请参阅图10,图10是本技术计算机存储介质一实施例的结构示意图,本实施例计算机存储介质90包括计算机程序91,其可被执行以实现上述方法。
95.本实施例计算机存储介质90可以是u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等可以存储程序指令的介质,或者也可以为存储有该程序指令的服务器,该服务器可将存储的程序指令发送给其他设备运行,或者也可以自运行该存储的程序指令。
96.若本技术技术方案涉及个人信息,应用本技术技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本技术技术方案涉及敏感个人信息,应用本技术技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
97.另外,上述功能如果以软件功能的形式实现并作为独立产品销售或使用时,可存储在一个移动终端可读取存储介质中,即,本技术还提供一种存储有程序数据的存储装置,所述程序数据能够被执行以实现上述实施例的方法,该存储装置可以为如u盘、光盘、服务器等。也就是说,本技术可以以软件产品的形式体现出来,其包括若干指令用以使得一台智能终端执行各个实施例所述方法的全部或部分步骤。
98.在本技术的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
99.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
100.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
101.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(可以是个人计算机,服务器,网络设备或其他可以从指令执行
系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
102.以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。

技术特征:


1.一种字符选择方法,其特征在于,所述方法包括:获取用户的脸部图像;从所述脸部图像中识别出嘴形数据;基于所述嘴形数据从字符图像中选择特定区域,并将所述特定区域中的字符确定为目标字符。2.根据权利要求1所述的方法,其特征在于,所述基于所述嘴形数据从字符图像中选择特定区域,包括:基于所述嘴形数据从所述字符图像中的第一选择区中选择第一显示区域;将所述第一显示区域中的每个字符分别显示在所述字符图像中的第二选择区中的不同的第二显示区域;基于所述嘴形数据从所述第二选择区中选择其中一个所述第二显示区域作为所述特定区域。3.根据权利要求2所述的方法,其特征在于,所述获取用户的脸部图像,包括:分别获取用户的第一脸部图像和用户的第二脸部图像;所述从所述脸部图像中识别出嘴形数据,包括:从所述第一脸部图像中识别出第一嘴形数据,其中,所述第一嘴形数据用于选择所述第一显示区域;从所述第二脸部图像中识别出第二嘴形数据,其中,所述第二嘴形数据用于选择所述特定区域。4.根据权利要求3所述的方法,其特征在于,所述基于所述嘴形数据从所述字符图像中的第一选择区中选择第一显示区域,包括:基于所述第一嘴形数据确定所述第一脸部图像中嘴巴指示的第一方向;按照所述第一方向从所述第一选择区中选择位于所述第一方向处的区域作为所述第一显示区域。5.根据权利要求3所述的方法,其特征在于,所述基于所述嘴形数据从所述第二选择区中选择所述第二显示区域作为所述特定区域,包括:基于所述第二嘴形数据确定所述第二脸部图像中的嘴巴指示的第二方向;按照所述第二方向从所述第二选择区中选择位于所述第二方向处的第二显示区域作为所述特定区域。6.根据权利要求1所述的方法,其特征在于,所述方法包括:获取连续多帧的脸部图像;在所述连续多帧的脸部图像中识别出嘴巴的运动状态;在所述嘴巴的运动状态符合预设运动条件的情况下,基于所述嘴巴的运动状态切换所述目标字符的显示形式。7.根据权利要求1所述的方法,其特征在于,所述从所述脸部图像中识别出嘴形数据,包括:在所述脸部图像中定位嘴巴区域;基于所述嘴巴区域在所述脸部图像中提取嘴形特征;
利用评分模型对所述嘴形特征进行评分,根据评分结果确定所述嘴形数据。8.根据权利要求7所述的方法,其特征在于,所述利用评分模型对所述嘴形特征进行评分,根据评分结果确定所述嘴形数据,包括:获取所述评分模型中的多种预设嘴形特征与所述脸部图像中的嘴形特征的特征相似度;利用所述特征相似度确定所述脸部图像中的嘴形特征的置信度,其中,所述置信度表征所述嘴形特征属于对应的所述预设嘴形特征的可能性;按照所述评分结果中的最大置信度,确定所述嘴形特征对应的嘴形数据。9.根据权利要求7所述的方法,其特征在于,所述在所述脸部图像中定位嘴巴区域,包括:获取所述脸部图像中的人脸关键点;基于所述人脸关键点中的嘴巴关键点定位所述嘴巴区域。10.根据权利要求1-9任意一项所述方法,其特征在于,所述脸部图像包括脸部热力图。11.一种信息输入方法,其特征在于,所述信息输入方法包括:获取目标字符,其中,所述目标字符通过权利要求1-10任意一项所述的方法获取得到;利用所述目标字符输入目标信息。12.一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据以实现如权利要求1-11任一项所述的方法。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现权利要求1-11任一项所述的方法。

技术总结


本申请公开了一种字符选择方法、信息输入方法、终端设备及存储介质。该字符选择方法包括:获取用户的脸部图像;从脸部图像中识别出嘴形数据;基于嘴形数据从字符图像中选择特定区域,并将特定区域中的字符确定为目标字符。通过上述方式,从用户的脸部图像中识别出嘴形数据,并基于嘴形数据选择特定区域中的目标字符,相对于通过手动打字的方式选择字符而言,本方案通过嘴形数据即可选择字符,能够适用于难以用双手选择字符的特殊人,提高字符选择的便捷性,以及增加字符选择的多样性。以及增加字符选择的多样性。以及增加字符选择的多样性。


技术研发人员:

左谊 孙其功 杨慧 马堃

受保护的技术使用者:

西安商汤智能科技有限公司

技术研发日:

2022.08.19

技术公布日:

2022/11/22

本文发布于:2024-09-20 14:42:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/6530.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   字符   脸部   区域
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议