语音转写方法、语音转写装置和电子设备与流程



1.本技术属于通信技术领域,具体涉及一种语音转写方法、语音转写装置及电子设备。


背景技术:



2.随着语音转写技术的成熟,利用语音转写设备记录不同场景的语音信息已得到广泛的应用。
3.在日常生活中,人们在访谈,直播,演讲等不同场景中都会使用录音设备来记录相关的语音信息,但由于语音录入场景复杂,后续对录音材料进行语音转写的过程中会出现大量噪音及空白音频片段,很难从录音材料中快速确定有效信息。相关技术中,通常需要使用专业的软件在电脑上进行降噪处理,操作复杂,上手难度高。


技术实现要素:



4.本技术实施例的目的是提供一种语音转写方法、语音转写装置和电子设备,能够解决降噪操作复杂的问题。
5.第一方面,本技术实施例提供了一种语音转写方法,该方法包括:
6.基于第一语音,在显示屏的第一区域显示所述第一语音对应的波形图,在所述显示屏的第二区域显示转写所述第一语音得到的文本信息;
7.接收用户的第一输入;
8.响应于所述第一输入,确定分贝范围;
9.按照所述分贝范围过滤所述第一语音,并更新显示所述波形图和所述文本信息。
10.第二方面,本技术实施例提供了一种语音转写装置,该装置包括:
11.显示模块,用于基于第一语音,在显示屏的第一区域显示所述第一语音对应的波形图,在所述显示屏的第二区域显示转写所述第一语音得到的文本信息;
12.第一接收模块,用于接收用户的第一输入;
13.第一处理模块,用于响应所述第一输入,确定分贝范围;
14.按照所述分贝范围过滤所述第一语音,并更新显示所述波形图和所述文本信息。
15.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
16.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
17.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
18.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介
质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
19.在本技术实施例中,通过将第一语音的波形图以及转写的文本信息分别在两个界面显示,并调整分贝范围来过滤波形图和文本信息的噪音以更新第一语音,显示更直观,极大地降低了用户的操作难度。
附图说明
20.图1是本技术实施例提供的语音转写方法的流程示意图;
21.图2是本技术实施例提供的语音转写方法的界面示意图之一;
22.图3是本技术实施例提供的语音转写方法的界面示意图之二;
23.图4是本技术实施例提供的语音转写方法的界面示意图之三;
24.图5是本技术实施例提供的语音转写方法的界面示意图之四;
25.图6是本技术实施例提供的语音转写装置的结构示意图;
26.图7是本技术实施例提供的电子设备的结构示意图;
27.图8是本技术实施例提供的电子设备的硬件示意图。
具体实施方式
28.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
29.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
30.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的语音转写方法、语音转写装置进行详细地说明。
31.其中,语音转写方法可应用于终端,具体可由,终端中的硬件或软件执行。
32.该终端包括但不限于具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话或平板电脑等其它便携式通信设备。还应当理解的是,在某些实施例中,该终端可以不是便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
33.以下各个实施例中,描述了包括显示器和触摸敏感表面的终端。应当理解的是,终端可以包括诸如物理键盘、鼠标和控制杆的一个或多个其它物理用户接口设备。
34.本技术实施例提供的语音转写方法,该语音转写方法的执行主体可以为电子设备或者电子设备中能够实现该语音转换方法的功能模块或功能实体,本技术实施例提及的电子设备包括但不限于手机、平板电脑、笔记本电脑、可穿戴设备等,下面以电子设备作为执行主体为例对本技术实施例提供的语音转换方法进行说明。
35.如图1所示,该语音转写方法包括:步骤110、步骤120和步骤130。
36.步骤110、基于第一语音,在显示屏的第一区域显示第一语音对应的波形图,在显示屏的第二区域显示转写第一语音得到的文本信息。
37.需要说明的是,第一语音是指待转写文本信息的语音,该语音可以是记录会议和演讲等线下场景的录音材料,例如,用录音设备记录一场会议中多个参会人员的发言,并在会议结束后将录制的语音转写成文字信息后梳理;也可以是网络直播或在线学习课堂等线上活动播放的声音信息,例如,利用语音转写设备记录一次网课的全部声音内容,并以文字的方式查看,以避免在上网课时因走神或其他原因导致漏听部分声音片段;还可以是其他需要记录后转写或者实时转写的声音,本实施例不作具体限制。
38.在该步骤中,显示屏的第一区域和第二区域是指显示屏界面上的两个独立显示区域,用于显示该第一语音对应的波形图和文本信息。
39.需要说明的是,第一语音对应的波形图是指通过语音采样技术对语音信号进行转换得到的特性分析图,可以通过波形图振幅的变化情况反映第一语音中噪音的分布情况;其中,该波形图可以是用于反映该语音信号时间波形的时域图,也可以是用于反映语音信号的幅频分布状态的频谱图,还可以是用于反映声纹变化特点的语谱图;而第一语音对应的文本信息是指通过语音识别技术对语音信号进行转换得到的文字、标点或其他符号。
40.在该实施例中,显示屏可以是不会发生表面形变的直屏,如电脑和平板;也可以是易发生表面形变的柔性屏,如柔性屏手机和阅读器;还可以是折叠屏,如折叠屏手机等,将折叠屏手机的一个屏显示界面作为第一区域,显示由第一语音转换得到的波形图,将折叠屏的另一个屏显示界面作为第二区域,显示由第一语音转写得到的文本信息。
41.需要说明的是,折叠屏是指由两个显示屏构成的一种可折叠的显示屏,该折叠屏可通过折叠或取消折叠的方式来改变显示屏的大小,且携带方便;而柔性屏是指一种特殊的有机发光显示器(organic light emitting display,oled),柔性屏是由偏振片、柔性封装膜、有机发光二极管、柔性薄膜等材料组成的轻薄的、可弯曲或卷曲的显示屏。
42.当接收对显示屏的输入后,显示屏响应于该输入,显示待转写的第一语音。
43.其中,该输入可以为如下至少一种方式:
44.其一,该输入可以为触控输入,包括但不限于点击输入、滑动输入和按压输入等。
45.在该实施方式中,接收用户的输入,可以为接收用户在显示屏的触控操作。
46.为了降低用户误操作率,可以将显示屏的作用区域限定在特定的区域内,比如显示屏界面的空白区域。
47.在该实施例中,用户点击显示屏上的选择控件后,弹出一个包含多条语音的语音列表,并从语音列表中选择第一条语音作为第一语音。
48.其二,该输入可以为实体按键输入。
49.在该实施方式中,终端的机身上设有调用语音列表的实体按键,接收用户输入,可以为接收用户按压对应的实体按键的操作;该输入还可以为同时按压多个实体案件的组合操作。
50.在该实施例中,用户对显示屏的实体按键“#”连续点击两次后,在显示屏上弹出一个包含多条语音的语音列表,在通过点击数字“1”选中语音列表中选择第一条语音作为第一语音。
51.其三,该输入可以为语音输入。
52.该实施方式中,在打开显示屏后,可以在接收到语音为“打开语音列表”后,在显示屏上弹出一个包含多条语音的语音列表,然后接收到语音为“选择第一条语音”后,选中语音列表中选择第一条语音作为第一语音。
53.当然,在其他实施例中,该输入也可以为其他形式,包括但不限于字符输入等,具体可根据实际需要决定,本实施例对此不作限定。
54.当接收对第一语音的输入后,显示屏响应于该输入,在显示屏的第一区域显示第一语音对应的波形图,并在显示屏的第二区域显示第一语音对应的文本信息。
55.其中,该输入的形式可以是触控输入、实体按键及其组合输入、语音输入和其他类型的输入,具体参考上述输入的形式,本实施例不再赘述。
56.在该实施例中,当接收对第一语音的输入为触控输入时,例如,显示屏上的第一语音对应的转换控件后,在显示屏的第一区域显示第一语音对应的波形图,在显示屏的第二区域显示第一语音对应的文本信息。
57.在一些实施例中,当接收对第一语音的输入为实体按键及其组合输入时,例如,选中第一语音后,用户对显示屏的实体按键“*”连续点击两次后,触发对第一语音的转换功能,并在显示屏的第一区域显示第一语音对应的波形图,在显示屏的第二区域显示第一语音对应的文本信息。
58.在一些实施例中,当接收对第一语音的输入为语音输入时,例如,在接收到“将第一语音转换波形图和文本信息”后,在显示屏的第一区域显示第一语音对应的波形图,在显示屏的第二区域显示第一语音对应的文本信息。
59.步骤120、接收用户的第一输入。
60.在该本步骤中,在显示屏的第一区域上显示第一语音对应的波形图,并在第二区域显示第一语音对应的文本信息后,接收用户的第一输入,用于确定出分贝范围,而分贝范围用于从第一语音中筛选或过滤出目标分贝的语音。
61.其中,第一输入可以为如下至少一种方式:
62.其一,第一输入可以为触控输入,包括但不限于点击输入、滑动输入和按压输入等。
63.在该实施方式中,接收用户的第一输入,可以为接收用户在显示屏的触控操作。
64.为了降低用户误操作率,可以将显示屏的作用区域限定在特定的区域内,比如显示屏的空白区域。
65.在该实施例中,接收用户的第一输入,显示屏上的去噪控件响应于第一输入,显示包含多个去噪分贝选项的目标列表。
66.在该实施例中,点击显示屏上的去噪控件后,显示包含0db-10db、0db-20db和0db-30db三个去噪选项的目标列表,上述三个去噪选项可用于过滤对应分贝范围的声音。
67.当然,在一些实施例中,接收用户的第一输入,响应于第一输入,显示屏上的数值显示区显示任意数值的分贝值。
68.在该实施例中,在显示屏上输入数值5后,在数值显示区上显示5,可用于过滤第一语音中5db的声音。
69.在一些实施例中,接收用户的第一输入,显示屏上的数值显示区响应于第一输入,显示任意两个分贝数值组成的区间。
70.在该实施例中,在显示屏上输入数值5和35后,在数值显示区上显示5-35,可以用于过滤5db-30db的声音。
71.在一些实施例中,当显示屏为折叠屏时,接收到用户对显示屏的第一输入可以为对折叠的第一屏和第二屏的操作,例如,通过改变第一屏和的第二屏的夹角来调整过滤噪音的分贝值,如调整第一屏和的第二屏的折叠角度为10
°
时,可以表示折叠屏对应的声音分贝值为10db,还可以表示折叠屏对应的声音分贝值区间为0db-10db。
72.在一些实施例中,当显示屏为柔性屏时,接收到用户对显示屏的第一输入可以为对柔性屏中不同区域的触控操作,例如,滑动柔性屏顶部空白区域时,可以表示柔性屏对应的声音分贝值为10db,也可以表示柔性屏对应的分贝范围为0db-10db,滑动柔性屏中间位置的空白区域时,可以表示柔性屏对应的声音分贝值为20db,也可以表示柔性屏对应的分贝范围为0db-20db,以此类推;接收到用户对显示屏的第一输入也可以为对柔性屏不同区域弯曲固定角度的操作,例如,将柔性屏顶部弯曲10
°
,表示柔性屏对应的声音分贝值为10db或对应的分贝范围为0db-10db,将柔性屏中间位置顶部空白区域弯曲10
°
时,表示柔性屏对应的声音分贝值为20db或对应的分贝范围为0db-20db,以此类推。
73.其二,第一输入可以为实体按键输入。
74.在该实施方式中,显示屏的机身键盘上设有开启目标列表的实体按键,接收用户的第一输入,可以为接收用户按压对应的实体按键的操作;该第一输入还可以为同时按压多个实体案件的组合操作。
75.在该实施例中,点击键盘上的“ok”按键后,在显示屏上弹出目标列表,显示包含0db-10db、0db-20db和0db-30db三个去噪选项的目标列表,点击其中任意一个去噪选项后可以得到对应的分贝区间。
76.在一些实施例中,还可以直接点击键盘上的数字按键,选择任意区间的分贝值,例如,依次点击数字按键“5”和“35”,在显示屏上出现“5-35”,表示显示屏对应的声音分贝值在5db-35db之间。
77.其三,第一输入可以为语音输入。
78.在该实施例中,接收到用户对显示屏的第一输入为“分贝值为15db-45db”的语音输入后,显示屏将显示“15-45”的分贝区间。
79.当然,在其他实施例中,第一输入也可以为其他形式,包括但不限于字符输入等,具体可根据实际需要决定,本实施例对此不作限定。
80.步骤130、响应于第一输入,确定分贝范围;按照分贝范围过滤第一语音,并更新显示波形图和文本信息。
81.需要说明的是,分贝范围是指滤除第一语音中的噪音对应的分贝取值范围。第一语音中的噪音是指干扰语音正常播放的杂音或噪点,不同的噪音或噪点对应的分贝值不同,可以根据第一输入获取的多个分贝值来确定所需的分贝范围,进而消除第一语音中噪音。
82.在一些实施例中,用户可根据分贝范围过滤掉第一语音中包含该分贝范围的语音。
83.在该实施例中,当用户在目标列表中选中0db-20db时,表示对第一语音过滤的分贝范围为0db-20db,过滤后第一语音中不包含20db以内的语音,然后将过滤后第一语音对
应的波形图更新显示在第一区域,并将对应的文本信息更新显示在第二区域。
84.在一些实施例中,用户可根据分贝范围过滤掉第一语音中不包括该分贝范围的语音,即以该分贝范围作为过滤后的第一语音对应的分贝范围。
85.在该实施例中,当用户在目标列表中选中0db-20db时,表示对第一语音过滤的分贝范围为0db-20db,过滤后第一语音中只包含20db分贝以内的语音,然后将过滤后第一语音对应的波形图更新显示在第一区域,并将对应的文本信息更新显示在第二区域。
86.需要说明的是,该分贝范围可以是固定的区间值,例如,分贝范围0db-10db和0db-20db等;该分贝范围也可以是任意区间值,例如,分贝范围为8db-62db等。
87.在该步骤中,按照上述分贝范围对第一语音进行过滤后,第一语音对应的波形图和文本信息亦会随之改变,用户可根据查看波形图或文本信息中是否包含无效波形或无效字符来评价对当前分贝范围过滤第一语音的效果。
88.根据本技术实施例提供的方法,通过将第一语音的波形图以及转写的文本信息分别在两个界面显示,并调整声音分贝范围来过滤波形图和文本信息的噪音以更新第一语音,能够快速获取第一语音中的有效信息,且同时在两个界面均根据确定的分贝范围更新波形图和文本信息,可直观地同步向用户展示过滤结果,使用方便,极大地降低了用户的操作难度。
89.在一些实施例中,步骤110、基于第一语音,在显示屏的第一区域显示第一语音对应的波形图,在显示屏的第二区域显示转写第一语音得到的文本信息,包括:对第一语音进行语义分割,得到多个语音片段;基于多个语音片段,在第一区域显示对应的多段波形图,在第二区域显示转写对应的多段文本信息。
90.在该实施例中,对第一语音进行语义分割,得到多个语音片段,然后将每个语音片段通过显示屏内置的语音采样单元转换成波形图,并在显示屏的第一区域显示;将每个语音片段通过语音识别单元将其转换为对应的文本信息,并在显示屏的第二区域显示。
91.在该实施例中,显示屏内置有语音采样单元和语音识别单元,语音采样单元能够将一段或多段语音转换成对应数目的波形图语音识别单元能够将一段或多段语音转写成对应数目的文本信息。
92.在图2所示的实施例中,显示屏210内存储的第一语音被分割为多个语音片段后,通过语音采样单元将各语音片段转换成对应数目的波形图2111,并在第一区域211上显示,又通过语音识别单元将各个语音片段转换成对应数目的文本信息2121,并在第二区域212上显示。
93.当然,在一些实施例中,也可以不需要对第一语音进行语义分割成多个语音片段,而是直接将第一语音的转换为波形图和文本信息,并在对应区域显示。
94.根据本技术实施例提供的方法,通过将第一语音分割得到多个语音片段后,将语音片段分别以波形图和文本信息的显示方式在显示屏的两个区域分段显示,有助于对各语音片段中包含的噪音进行可视化分析,也为后续过程动态更新波形图和文本信息提供方便。
95.下面,对如何更新波形图和文本信息,进行说明。
96.在一些实施例中,步骤110、在基于多个语音片段,在第一区域显示对应的多段波形图,在第二区域显示转写对应的多段文本信息之后,该方法还包括:接收用户对多段波形
图中目标波形图的第二输入;响应于第二输入,播放目标波形图对应的语音。
97.在该实施例中,一个语音被分割成多个语音片段,通过语音采样单元将多个语音片段转换成对应数目的波形图,并在第一区域显示;通过语音识别单元将多个语音片段对应的波形图,在第二区域显示。
98.需要说明的是,目标波形图为多段波形图中的一个或多个,且目标波形图为待更新的波形图。
99.在该实施例中,接收用户的第二输入,响应于多个波形图中的目标波形图,显示目标波形图的播放界面,并由显示屏内置的麦克风播放该波形图对应的语音。
100.其中,第二输入可以为如下至少一种方式:
101.其一,第二输入可以为触控输入,包括但不限于点击输入、滑动输入和按压输入等。
102.在该实施方式中,接收用户的第二输入,可以为接收用户在目标波形图的触控操作。
103.为了降低用户误操作率,可以将第二区域中的目标波形图的作用区域限定在特定的区域内,比如目标波形图的空白区域。
104.在该实施例中,长按显示屏第一区域上显示的第一段波形图所在区域,能够播放该波形图对应语音。
105.其二,第二输入可以为实体按键输入。
106.在该实施方式中,显示屏的机身上设有播放目标波形图对应语音的实体按键,接收用户的第二输入,可以为接收用户按压对应的实体按键的操作;该第二输入还可以为同时按压多个实体案件的组合操作。
107.在该实施例中,用户可通过分别点击“*”和“1”对应的实体按键播放第一段波形图对应的语音,通过分别点击“*”和“2”对应的实体按键播放第一段波形图对应的语音,以此类推,本实施例不再赘述。
108.其三,第二输入可以为语音输入。
109.该实施方式中,在显示屏的第二区域显示多段波形图后,可以在接收到语音为“播放语音片段1”后,播放第一段波形图对应的语音。
110.当然,在其他实施例中,第二输入也可以为其他形式,包括但不限于字符输入等,具体可根据实际需要决定,本实施例对此不作限定。
111.根据本技术实施例提供的方法,通过接收对目标波形图的第二输入以播放该目标波形图的语音,有助于对各分段波形图对应语音中的噪音进行精确识别,操作简单。
112.下面,以上述方法进行语音转写为例,进行说明。
113.一、基于折叠屏的语音转写。
114.在一些实施例中,显示屏为折叠屏,且包括可折叠的第一屏和第二屏,第一区域位于第一屏,第二区域位于第二屏;第一输入包括:折叠第一屏和第二屏的操作;响应于第一输入,确定分贝范围,包括:基于第一屏和第二屏的夹角,确定分贝范围。
115.在该实施例中,显示屏为折叠屏,折叠屏的第一屏和第二屏分别位于第一区域和第二区域,接收用户的第一输入,显示屏响应于第一输入确定分贝范围,可以是通过改变第一屏和第二屏之间的夹角确定过滤第一语音的分贝范围,并根据该分贝范围过滤第一语
音,最后更新显示第一区域中的波形图以及第二区域中的文本信息。
116.在该实施例中,通过改变折叠屏第一屏和第二屏的夹角来改变分贝范围,例如,根据折叠屏中两个屏的夹角变化与不同分贝范围建立的映射关系来确定所需的分贝范围,这种映射关系可以是,当折叠屏中两个屏的夹角的变化范围在0
°‑
10
°
时,设定折叠屏对应的分贝范围0
°‑
10
°
,此时,折叠屏可以过滤第一语音中0db-10db的声音,也可以是只保留第一语音中0db-10db的声音;当折叠屏中两个屏的夹角的变化范围在10
°‑
20
°
时,设定折叠屏对应的分贝范围0
°‑
20
°
,此时,折叠屏可以过滤第一语音中0db-20db的声音,也可以是只保留第一语音中0db-20db的声音,以此类推。
117.需要说明的是,该实施例可根据折叠屏中两个屏的夹角变化来控制分贝范围,且当两个屏的夹角增大1
°
时,对应的分贝范围增加1db,对应的,当两个屏的夹角减小1
°
时,对应的分贝范围减小1db。
118.在图2-图4所示的实施例中,将第一语音按照语音分割成多个语音片段后,在显示屏210的第一区域211和第二区域212分别显示多个语音片段对应的波形图2111和文本信息2121,并通过改变折叠屏的第一屏和第二屏的夹角,确定过滤第一语音的分贝范围,最后在显示屏210的第一区域211和第二区域212分别更新显示过滤后的第一语音对应的波形图和文本信息。
119.在图3所示的实施例中,当显示屏210的第一区域211和第二区域212之间的夹角增加10
°
后,显示屏210能够过滤第一语音中10db以内的语音,并在显示屏210的第一区域211更新显示过滤后的第一语音对应的波形图2112,第二区域212更新显示过滤后的第一语音对应的文本信息2122。
120.在一些实施例中,当播放更新后的波形图对应的语音或观察更新后的文本信息后,仍存在上述无效波形或无效字符,则还需要继续调整折叠屏的分贝范围对第一语音进行过滤。
121.在图4所示的实施例中,对显示屏210的第一区域211和第二区域212之间的夹角增加20
°
时,显示屏210能够过滤第一语音中20db以内的语音,并在显示屏210的第一区域211更新显示过滤后的第一语音对应的波形图2113,第二区域212更新显示过滤后的第一语音对应的文本信息2123。
122.当播放更新后的波形图对应的语音或观察更新后的文本信息后,不存在上述无效波形或无效字符时,可以认为对第一语音的过滤过程已结束。
123.根据本技术实施例提供的方法,当显示屏为折叠屏时,通过接收用户的第一输入为改变折叠屏中两个屏之间夹角的操作,确定对第一语音去噪的分贝范围,简化了用折叠屏进行语音去噪的操作,并根据该分贝范围对第一语音去噪后,在折叠屏的第一屏和第二屏中分别更新显示该语音对应的波形图和文本信息,显示更加直观。
124.二、基于柔性屏的进行语音转写。
125.在一些实施例中,显示屏为柔性屏;第一输入包括:折叠柔性屏的目标区域的操作;响应于第一输入,确定分贝范围,包括:基于目标区域的位置,确定分贝范围;或者,基于目标区域被折叠的角度,确定分贝范围。
126.在该实施例中,显示屏为柔性屏,接收用户的第一输入,目标区域响应于第一输入确定分贝范围,可以是通过接收第一输入的目标区域的不同位置来确定过滤第一语音的分
贝范围,并根据该分贝范围过滤第一语音,最后更新显示第一区域中的波形图以及第二区域中的文本信息更新显示第一区域的波形图以及第二区域的文本信息,其中,第一区域用于显示第一语音对应的波形图,第二区域用于显示第一语音对应的文本信息。
127.在该实施例中,可根据对柔性屏目标区域的操作与不同分贝范围建立的映射关系确定所需的分贝范围;这种映射关系可以是,当目标区域存在多个时,可根据接收第一输入的目标区域的不同位置,来确定不同的分贝范围。例如,当第一目标区域接收第一输入后,柔性屏对应的分贝范围0db-10db,当第二目标区域接收第一输入后,柔性屏对应的分贝范围0db-20db,以此类推。
128.在图5所示的实施例中,显示屏210为柔性屏,显示屏210存在三个目标区域213(对应区域

、区域

和区域

),点击目标区域213(对应

)后,显示屏210能够过滤第一语音中10db以内的语音,并在显示屏210的第一区域211更新显示过滤后的第一语音对应的波形图2112,第二区域212更新显示过滤后的第一语音对应的文本信息2122。
129.在一些实施例中,当目标区域只存在一个时,可根据对该目标区域的时长或频率来确定不同的分贝范围;例如,对该目标区域长按超过2s,折叠屏对应的分贝范围为0db-10db,对该目标区域长按超过4s,折叠屏对应的分贝范围为0db-20db,并根据该分贝范围对第一语音进行过滤,然后将过滤后的第一语音对应的波形图和文本信息分别更新显示在第一区域和第二区域中。
130.在一些实施例中,还可以通过对柔性屏的目标区域进行折叠来确定分贝范围。
131.在该实施例中,当目标区域存在多个时,可根据对多个区域折叠固定角度来确定不同的分贝范围,该固定角度可以在0
°‑
90
°
之间。
132.在该实施例中,柔性屏上存在三个目标区域,对第一个目标区域折叠10
°
,柔性屏对应的分贝范围0db-10db,对第二个目标区域折叠10
°
,柔性屏对应的分贝范围0db-20db,对第三目标区域折叠10
°
,柔性屏对应的分贝范围0db-30db。
133.在一些实施例中,当目标区域只有一个时,可根据对该目标区域折叠不同角度来确定不同的分贝范围。
134.在该实施例中,对柔性屏上目标区域折叠10
°
,柔性屏对应的分贝范围0db-10db,对目标区域折叠20
°
,柔性屏对应的分贝范围0db-20db,对目标区域折叠30
°
,柔性屏对应的分贝范围为0db-30db。
135.在一些实施例中,当播放更新后的波形图对应的语音或观察更新后的文本信息后,仍存在上述无效波形或无效字符,则还需要继续调整柔性屏分贝范围对第一语音进行过滤,如上述调整折叠屏的分贝范围对第一语音进行过滤的方法,本实施例不再赘述。
136.根据本技术实施例提供的方法,当显示屏为柔性屏时,通过接收用户对目标区域的操作,确定对第一语音去噪的分贝范围,为柔性屏的语音去噪过程带来了便捷,并根据该分贝范围对第一语音去噪后,在柔性屏的第一区域和第二区域中分别更新显示该语音对应的波形图和文本信息,操作简单,显示更加直观。
137.本技术实施例提供的语音转写方法,执行主体可以为语音转写装置。本技术实施例中以语音转写装置执行语音转写方法为例,说明本技术实施例提供的语音转写装置。
138.本技术实施例还提供一种语音转写装置。
139.如图6所示,该语音转写装置包括:显示模块610、第一接收模块620和第一处理模
块630。
140.显示模块610,用于基于第一语音,在显示屏的第一区域显示第一语音对应的波形图,在显示屏的第二区域显示转写第一语音得到的文本信息;
141.第一接收模块620,用于接收用户的第一输入;
142.第一处理模块630,用于响应第一输入,确定分贝范围;
143.按照分贝范围过滤第一语音,并更新显示波形图和文本信息。
144.根据本技术实施例提供的语音转写装置,通过显示模块610将第一语音的波形图以及转写的文本信息分别在两个界面显示,通过第一接收模块620接收用户的第一输入后,通过第一处理模块630响应与第一输入,调整分贝范围来过滤波形图和文本信息的噪音以更新第一语音,显示更直观,极大地降低了用户的操作难度。
145.在一些实施例中,该装置还包括:
146.第二处理模块,用于对第一语音进行语义分割,得到多个语音片段;显示模块,还用于基于多个语音片段,在第一区域显示对应的多段波形图,在第二区域显示转写对应的多段文本信息。
147.根据本技术实施例提供的语音转写装置,通过将第一语音分割得到多个语音片段后,将语音片段分别以波形图和文本信息的显示方式在显示屏的两个区域分段显示,有助于对各语音片段中包含的噪音进行可视化分析,也为后续过程动态更新波形图和文本信息提供方便。
148.在一些实施例中,在基于多个语音片段,在第一区域显示对应的多段波形图,在第二区域显示转写对应的多段文本信息之后,该装置还包括:
149.第二接收模块,用于接收用户对多段波形图中目标波形图的第二输入;
150.第三处理模块,用于响应第二输入,播放目标波形图对应的语音。
151.根据本技术实施例提供的语音转写装置,通过接收对目标波形图的第二输入以播放该目标波形图的语音,有助于对各分段波形图对应语音中的噪音进行精确识别,且操作简单。
152.在一些实施例中,显示屏为折叠屏,且包括可折叠的第一屏和第二屏,第一区域位于第一屏,第二区域位于第二屏;
153.第一输入包括:折叠第一屏和第二屏的操作;
154.响应于第一输入,确定分贝范围,包括:
155.第一处理模块,还用于基于第一屏和第二屏的夹角,确定分贝范围。
156.根据本技术实施例提供的语音转写装置,当显示屏为折叠屏时,通过接收用户改变折叠屏中两个屏之间夹角的操作,确定对第一语音去噪的分贝范围,简化了用折叠屏进行语音去噪的操作,并根据该分贝范围对第一语音去噪后,在折叠屏的第一屏和第二屏中分别更新显示该语音对应的波形图和文本信息,显示更加直观。在一些实施例中,显示屏为柔性屏;
157.第一输入包括:折叠柔性屏的目标区域的操作;
158.响应于第一输入,确定分贝范围,包括:
159.第一处理模块,还用于基于目标区域的位置,确定分贝范围;
160.或者,第一处理模块,还用于基于目标区域被折叠的角度,确定分贝范围。
161.根据本技术实施例提供的语音转写装置,当显示屏为柔性屏时,通过接收用户对目标区域的操作,确定对第一语音去噪的分贝范围,为柔性屏的语音去噪过程带来了便捷,并根据该分贝范围对第一语音去噪后,在柔性屏的第一区域和第二区域中分别更新显示该语音对应的波形图和文本信息,操作简单,显示更加直观。
162.本技术实施例中的语音转写装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)或者自助机等,本技术实施例不作具体限定。
163.本技术实施例中的语音转写装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
164.本技术实施例提供的语音转写装置能够实现图1至图5的方法实施例实现的各个过程,为避免重复,这里不再赘述。
165.可选地,如图7所示,本技术实施例还提供一种电子设备700,包括处理器701,存储器702,存储在存储器702上并可在所述处理器701上运行的程序或指令,该程序或指令被处理器701执行时实现上述语音转写方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
166.需要说明的是,本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
167.图8为实现本技术实施例的一种电子设备的硬件结构示意图。
168.该电子设备800包括但不限于:射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809以及处理器810等部件。
169.本领域技术人员可以理解,电子设备800还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器810逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
170.其中,显示单元806,用于基于第一语音,在显示屏的第一区域显示第一语音对应的波形图,在显示屏的第二区域显示转写第一语音得到的文本信息;
171.用户输入单元807,用于接收用户的第一输入;
172.处理器810,用于响应第一输入,确定分贝范围;
173.按照分贝范围过滤第一语音,并更新显示波形图和文本信息。
174.根据本技术实施例提供的电子设备,通过将第一语音的波形图以及转写的文本信息分别在两个界面显示,可直观地同步向用户展示过滤结果,使用方便,并调整分贝范围来
过滤波形图和文本信息的噪音以更新第一语音,极大地降低了用户的操作难度。可选地,处理器810,还用于对第一语音进行语义分割,得到多个语音片段;
175.显示单元806,还用于基于多个语音片段,在第一区域显示对应的多段波形图,在第二区域显示转写对应的多段文本信息。
176.根据本技术实施例提供的电子设备,通过将第一语音分割得到多个语音片段后,将语音片段分别以波形图和文本信息的显示方式在显示屏的两个区域分段显示,有助于对各语音片段中包含的噪音进行可视化分析,也为后续过程动态更新波形图和文本信息提供方便。
177.可选的,用户输入单元807,用于接收用户对多段波形图中目标波形图的第二输入;
178.音频输出单元8038,用于响应第二输入,播放目标波形图对应的语音。
179.根据本技术实施例提供的电子设备,通过接收对目标波形图的第二输入以播放该目标波形图的语音,有助于对各分段波形图对应语音中的噪音进行精确识别,且操作简单。
180.可选的,显示屏为折叠屏,且包括可折叠的第一屏和第二屏,第一区域位于第一屏,第二区域位于第二屏;第一输入包括:折叠第一屏和第二屏的操作;响应于第一输入,确定分贝范围,包括:
181.处理器810,还用于基于第一屏和第二屏的夹角,确定分贝范围。
182.根据本技术实施例提供的电子设备,当显示屏为折叠屏时,通过接收用户改变折叠屏中两个屏之间夹角的操作,确定对第一语音去噪的分贝范围,简化了用折叠屏进行语音去噪的操作,并根据该分贝范围对第一语音去噪后,在折叠屏的第一屏和第二屏中分别更新显示该语音对应的波形图和文本信息,显示更加直观。
183.可选的,显示屏为柔性屏;第一输入包括:折叠柔性屏的目标区域的操作;
184.响应于第一输入,确定分贝范围,包括:
185.处理器810,还用于基于目标区域的位置,确定分贝范围;
186.或者,处理器810,还用于基于目标区域被折叠的角度,确定分贝范围。
187.根据本技术实施例提供的电子设备,当显示屏为柔性屏时,通过接收用户对目标区域的操作,确定对第一语音去噪的分贝范围,为柔性屏的语音去噪过程带来了便捷,并根据该分贝范围对第一语音去噪后,在柔性屏的第一区域和第二区域中分别更新显示该语音对应的波形图和文本信息,操作简单,显示更加直观。
188.应理解的是,本技术实施例中,输入单元804可以包括图形处理器(graphics processing unit,gpu)8041和麦克风8042,图形处理器8041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元806可包括显示面板8061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板8061。用户输入单元807包括触控面板8071以及其他输入设备8072中的至少一种。触控面板8071,也称为触摸屏。触控面板8071可包括触摸检测装置和触摸控制器两个部分。其他输入设备8072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
189.存储器809可用于存储软件程序以及各种数据。存储器809可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个
功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器809可以包括易失性存储器或非易失性存储器,或者,存储器809可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术实施例中的存储器809包括但不限于这些和任意其它适合类型的存储器。
190.处理器810可包括一个或多个处理单元;可选地,处理器810集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器810中。
191.本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述语音转换方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
192.其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
193.本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述语音转换方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
194.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
195.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
196.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储
介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
197.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。

技术特征:


1.一种语音转写方法,其特征在于,包括:基于第一语音,在显示屏的第一区域显示所述第一语音对应的波形图,在所述显示屏的第二区域显示转写所述第一语音得到的文本信息;接收用户的第一输入;响应于所述第一输入,确定分贝范围;按照所述分贝范围过滤所述第一语音,并更新显示所述波形图和所述文本信息。2.根据权利要求1所述的语音转写方法,其特征在于,所述基于第一语音,在显示屏的第一区域显示所述第一语音对应的波形图,在所述显示屏的第二区域显示转写所述第一语音得到的文本信息,包括:对所述第一语音进行语义分割,得到多个语音片段;基于所述多个语音片段,在所述第一区域显示对应的多段波形图,在所述第二区域显示转写对应的多段文本信息。3.根据权利要求2所述的语音转写方法,其特征在于,在所述基于所述多个语音片段,在所述第一区域显示对应的多段波形图,在所述第二区域显示转写对应的多段文本信息之后,所述方法还包括:接收用户对所述多段波形图中目标波形图的第二输入;响应于所述第二输入,播放所述目标波形图对应的语音。4.根据权利要求1-3任一项所述的语音转写方法,其特征在于,所述显示屏为折叠屏,且包括可折叠的第一屏和第二屏,所述第一区域位于所述第一屏,所述第二区域位于所述第二屏;所述第一输入包括:折叠所述第一屏和所述第二屏的操作;所述响应于所述第一输入,确定分贝范围,包括:基于所述第一屏和所述第二屏的夹角,确定分贝范围。5.根据权利要求1-3任一项所述的语音转写方法,其特征在于,所述显示屏为柔性屏;所述第一输入包括:折叠所述柔性屏的目标区域的操作;所述响应于所述第一输入,确定分贝范围,包括:基于所述目标区域的位置,确定分贝范围;或者,基于所述目标区域被折叠的角度,确定分贝范围。6.一种语音转写装置,其特征在于,包括:显示模块,用于基于第一语音,在显示屏的第一区域显示所述第一语音对应的波形图,在所述显示屏的第二区域显示转写所述第一语音得到的文本信息;第一接收模块,用于接收用户的第一输入;第一处理模块,用于响应所述第一输入,确定分贝范围;按照所述分贝范围过滤所述第一语音,并更新显示所述波形图和所述文本信息。7.根据权利要求6所述的语音转写装置,其特征在于,所述装置还包括:第二处理模块,用于对所述第一语音进行语义分割,得到多个语音片段;所述显示模块,还用于基于所述多个语音片段,在所述第一区域显示对应的多段波形图,在所述第二区域显示转写对应的多段文本信息。8.根据权利要求7所述的语音转写装置,其特征在于,在所述基于所述多个语音片段,
在所述第一区域显示对应的多段波形图,在所述第二区域显示转写对应的多段文本信息之后,所述装置还包括:第二接收模块,用于接收用户对所述多段波形图中目标波形图的第二输入;第三处理模块,用于响应所述第二输入,播放所述目标波形图对应的语音。9.根据权利要求6-8任一项所述的语音转写装置,其特征在于,所述显示屏为折叠屏,且包括可折叠的第一屏和第二屏,所述第一区域位于所述第一屏,所述第二区域位于所述第二屏;所述第一输入包括:折叠所述第一屏和所述第二屏的操作;所述响应于所述第一输入,确定分贝范围,包括:所述第一处理模块,还用于基于所述第一屏和所述第二屏的夹角,确定分贝范围。10.根据权利要求6-8任一项所述的语音转写装置,其特征在于,所述显示屏为柔性屏;所述第一输入包括:折叠所述柔性屏的目标区域的操作;所述响应于所述第一输入,确定分贝范围,包括:所述第一处理模块,还用于基于所述目标区域的位置,确定分贝范围;或者,所述第一处理模块,还用于基于所述目标区域被折叠的角度,确定分贝范围。

技术总结


本申请公开了一种语音转写方法、语音转写装置和电子设备,属于通信技术领域。所述语音转写方法,包括:基于第一语音,在显示屏的第一区域显示所述第一语音对应的波形图,在所述显示屏的第二区域显示转写所述第一语音得到的文本信息;接收用户的第一输入;响应于所述第一输入,确定分贝范围;按照所述分贝范围过滤所述第一语音,并更新显示所述波形图和所述文本信息。本信息。本信息。


技术研发人员:

张进

受保护的技术使用者:

维沃移动通信有限公司

技术研发日:

2022.04.02

技术公布日:

2022/7/29

本文发布于:2024-09-24 07:14:31,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/20555.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   波形   分贝   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议