实时语音到文本的交互增强和集成的制作方法


实时语音到文本的交互增强和集成


背景技术:



1.用户通常很难在听演讲(例如,讲座)的同时还记下与该讲座相关的笔记。这可能是由于各种原因造成的。例如,用户可能不熟悉演讲主题、具有听觉学习问题、具有听力问题和/或语言问题(例如,演讲不是以用户的第一语言)。字幕是提高用户理解内容能力的优秀机制。然而,即使字幕在现场演示期间可用,在执行一个或多个附加任务(例如,做笔记)时,也很难跟随或与之交互。
2.针对该一般技术环境想到本文公开的本技术的各方面。此外,尽管讨论了一般环境,但是应当理解,本文描述的示例不应限制于背景技术中标识的一般环境。


技术实现要素:



3.提供本发明内容是为了以简化形式介绍一组概念,这些概念将在下面的具体实施方式部分中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用作协助确定所要求保护的主题的范围。示例的附加方面、特征和/或优点将部分地在下面的描述中陈述,并且部分地将从本公开的描述中显而易见或可以通过本公开的实施来了解。
4.本公开的非限制性示例描述了用于在生产力应用中集成语音到文本转录的系统、方法和设备。加入码生成请求可以从与说话用户相关联的计算设备被接收。该请求可以被实时语音到文本服务接收。实时语音到文本服务可以生成加入码并将其发送到与说话用户相关联的计算设备。包括语音的音频信号可以由与说话用户相关联的计算设备接收。音频信号可以被发送到实时语音到文本服务,在该服务中它可以被转录。
5.与加入用户相关联的计算设备可以在转录被生成(例如,转录实例)时请求访问该转录。该请求可以包括由实时语音到文本服务生成的加入码。在被认证后,转录可以实时或几乎实时地被呈现在与加入用户相关联的生产力应用中的转录窗格中。各种动作可以与转录、生产力应用、其他应用和/或其组合相关联地被执行。在一些示例中,转录窗格中的内容可以被突出显示和/或注释。来自转录窗格的内容可以从转录窗格移动(例如,经由拖动或放置)到生产力应用的另一窗口(例如,笔记本窗口、做笔记窗口)。针对单词和短语的定义可以在转录窗格中被呈现。与转录窗格中的单词和短语相关联的web搜索可以被自动执行。在一些示例中,转录窗格的暂停功能可以被利用以暂停针对转录实例的传入字幕。在暂停期间被保持的字幕然后可以在恢复转录实例后被呈现。在附加示例中,转录窗格可以包括用于将转录从第一语言翻译成一种或多种附加语言的可选择选项。实时语音到文本服务和/或翻译服务可以处理这样的请求,在正在接收转录和/或音频信号的同时对其进行翻译,并将翻译发送到加入用户的计算设备,在该计算设备处,该翻译可以被呈现在转录窗格中。
附图说明
6.参考以下附图描述非限制性且非穷举的示例:
7.图1是示出了用于在生产力应用中集成语音到文本转录的示例分布式计算环境的示意图。
8.图2示出了可以被利用在生产力应用中的集成语音到文本转录中的三个基于云的服务的示例性元素。
9.图3示出了与被集成在生产力应用中的转录窗格中的文本的交互。
10.图4示出了将转录窗格中的文本转移到生产力应用中的分离的窗口。
11.图5示出了生产力应用的转录窗格中的文本的注释。
12.图6示出了用于改变实时语音到文本转录被呈现在转录窗格中的语言的可选择元素。
13.图7a示出了用于呈现被包括在生产力应用的转录窗格中的单词和/或短语的定义的可选择元素。
14.图7b示出了用于使得web搜索与包括在生产力应用的转录窗格中的单词和/或短语相关联地执行的可选择元素。
15.图8示出了与生产力应用的转录窗格中的实时语音到文本字幕的暂停和恢复相关联的可选择元素和相关动作。
16.图9a是用于在生产力应用中集成语音到文本转录的示例性方法。
17.图9b是用于从自定义词典呈现被包括在生产力应用的转录窗格中的单词和/或短语的定义的示例性方法。
18.图9c是用于在生产力应用的转录窗格中暂停和恢复实时语音到文本字幕的示例性方法。
19.图10和图11是可以用于实施本公开的各方面的移动计算设备的简化图。
20.图12是示出可以用于实施本公开的各方面的计算设备的示例物理组件的框图。
21.图13是可以实施本公开的各方面的分布式计算系统的简化框图。
具体实施方式
22.将参考附图详细描述各种实施例,其中相同的附图标记在整个几个视图中表示相同的部件和组件。对各种实施例的引用不限制本文所附权利要求的范围。另外,本说明书中阐述的任何示例都不旨在是限制性的,而仅仅阐述了所附权利要求的许多可能实施例中的一些。
23.本公开的非限制性示例描述了用于在生产力应用中集成语音到文本转录的系统、方法和设备。根据示例,想要启动可以由一个或多个其他用户访问的转录实例的第一用户(即,说话用户)可以在计算设备上发起该实例。发起转录实例的请求可以由实时文本到语音服务接收,该实时文本到语音服务可以生成可以由一个或多个其他用户和相关联的计算设备使用以加入转录实例的加入码。
24.可以将加入码发送给说话用户想要给予对转录实例的访问权限的用户和/或用户账户。在一些示例中,可以将加入码以电子方式发送回与第一用户相关联的计算设备。然后,第一用户可以经由各种手段(例如,将其写在白板上、通过发送、将其放在共享网站上等)将加入码提供给其他用户。在其他示例中,加入码可以以电子方式自动发送到一个或多个用户账户(例如,经由sms消息提供的与班级列表服务相关联的用户账户等)。在附
加示例中,设备或第一用户账户可以被授权接收与不同的设备或用户账户相关联的转录(例如,经由高速缓存的令牌),并且可以在与第一用户账户相关联的设备上呈现可选择选项以加入在转录实例被发起时被授权的转录实例。因此,加入用户可以不需要在每次要加入新的转录实例时手动输入新的加入码。
25.当加入用户在加入用户的计算设备上输入加入码时,具有包括说话用户的转录实例的实时转录的转录窗格的生产力应用可以被呈现。也就是说,加入码可以被发送到代码被认证的实时语音到文本转录服务,并且实时语音到文本转录服务然后可以开始将转录信息从转录实例发送到加入用户的计算设备。加入码可以被输入到生产力应用中或在计算设备上的分离的界面中。生产力应用可以包括以下各项中的一项或多项:例如,做笔记应用、笔记本应用、文字处理应用、演示应用、任务完成应用、电子表格应用和/或消息传送应用。
26.转录窗格可以包括用于执行多个动作的多个可选择元素。第一元素可以被选择以用于突出显示转录窗格中的内容(例如,字幕、注释)和/或将该内容从转录窗格移动到包括该转录窗格的生产力应用的第二窗口中。第二窗口可以包括例如做笔记窗口、日记窗口或演示窗口。第二元素可以被选择以用于改变呈现转录的语言。第三元素可以被选择以用于向转录添加注释和/或向转录中的特定内容添加注释。第四元素可以被选择以用于呈现与转录中的单词或短语相关联的定义。第五元素可以被选择以用于执行与转录中的单词或短语相关的web搜索。第六元素可以被选择以用于添加将与转录中的一个或多个单词相关联的链接或针(pin)。第七元素可以被选择以用于暂停和恢复转录中的内容的呈现。也就是说,第七元素可以暂停当前转录实例的字幕的呈现,并且当恢复时,可以使积压的字幕在转录窗格中呈现。
27.根据示例,生产力应用的转录窗格中呈现的转录可以被自动保存到生产力应用的转录部分。因此,在生产力应用是具有多个部分的笔记本应用或做笔记应用的示例中,每个新转录可以默认地被保存到笔记本应用或做笔记应用的转录部分。以这样的方式,可以在单个位置访问与用户账户相关联的所有转录。在一些示例中,可以将每个转录与生成和/或完成转录的日期和/或时间一起被保存到相应的生产力应用的部分。在附加示例中,一个或多个自然语言处理模型可以被应用于转录。那些一个或多个自然语言处理模型可以被训练以标识与转录相关联的一个或多个主题类型。因此,可以将转录保存到生产力应用中与一个或多个所标识的主题类型相对应的位置(例如,在笔记本应用的“生物”转录部分中、在笔记本应用的“化学”转录部分中、在笔记本应用的班级类型和/或编号中)。在附加示例中,用户可以自定义保存转录的位置。
28.本文描述的系统、方法和设备提供了用于在生产力应用中集成实时语音到文本转录的技术优势。提供用于自动呈现与生产力应用相关联的说话用户的实时转录的机制以及利用做笔记特征来增强该呈现也提供了增强的用户体验。例如,用户可以在生产力应用的第一窗口中做与演讲(例如,讲座)相关的笔记,同时在该窗口旁边呈现演讲的实时转录。然后,用户可以突出显示转录文本、拖动和放置来自用户笔记中的转录的内容、将笔记链接到转录、注释转录、对转录中的单词的表面标准定义和自定义定义、以及随意暂停和恢复转录。与转录中的单词和短语相关的自动web搜索以及提供将来自那些web搜索的最相关内容链接到转录中的单词和短语的能力也增强了用户体验并减少了手动搜索。
29.图1是示出了用于在生产力应用中集成语音到文本转录的示例分布式计算环境
100的示意图。计算环境100包括转录子环境102、网络和处理子环境114以及计算设备104b。网络和处理子环境114可以包括生产力应用服务120、sst服务122和/或翻译服务124,和/或与生产力应用服务120、sst服务122和/或翻译服务124通信。本文描述的任何和所有设备可以经由网络彼此通信,诸如网络和处理子环境114中的网络116。
30.转录子环境102包括说话环境106和计算设备104a。在说话环境106中,计算设备110与云中的实时语音到文本服务(例如,stt服务122)通信。在该示例中,计算设备110是智能电话。然而,计算设备110可以是包括麦克风或可以从麦克风接收信号的任何计算设备(例如,膝上型计算机、台式机、平板电脑、智能手表)。计算设备110可以经由特定stt应用、经由包括与stt应用相关联的插件的应用、经由web浏览器或其他通信手段(例如,语音翻译服务应用、经由辅助设备和/或应用等)与stt服务122通信。计算设备110还可以利用api来与stt服务122通信。
31.在该示例中,计算设备110接收到针对声音转录生成加入码的请求。例如,用户108可以利用在计算设备110上执行的应用来输入生成代码请求,并且该生成代码请求可以由计算设备110和/或stt服务122中的一者或两者来处理。对该请求的处理可以包括生成加入码,该加入码可由其他设备和/或应用用来加入来自计算设备110的活动的实时语音的语音到文本实例(例如,由计算设备110接收的音频以及在云中执行的该音频的转录)。加入码可以包括一个或多个字符、qr码、条形码或提供对语音到文本实例的活动实例的访问的不同代码类型。在该示例中,已生成的加入码是加入码112[jc123]。
[0032]
说话用户108说话,并且该音频信号被计算设备110接收。计算设备110将音频信号发送到stt服务122。stt服务122分析音频信号并基于该分析生成文本转录。下面参考图2更详细地描述在生成文本转录时可以被执行的分析。转录可以以原始接收到音频的语言来执行(例如,如果说话用户108说英语,则该音频最初可以由stt服务122以英语转录)。在示例中,翻译服务124可以将转录翻译成不是音频原始被接收的一种或多种其他语言。在一些示例中,来自原始语言的音频的转录可以由翻译服务124翻译。在其他示例中,原始音频可以被直接转录成一种或多种附加语言。下面参考图2提供与翻译服务124执行的处理相关的附加细节。
[0033]
被包括在生产力应用服务120中的信息可以被利用以处理从计算设备110接收的音频、增强该音频的转录或翻译、和/或增强或以其他方式补充该音频的转录。作为示例,生产力应用服务120可以包括与说话用户108正在做的讲座相关联的材料(例如,讲座笔记、演示文档、测验、测试等),并且该信息可以被利用以生成自定义词典和/或语料库,该词典和/或语料库被用以生成由计算设备110接收的音频的转录。在另一示例中,生产力应用服务120可以包括与关于计算设备104b的用户账户相关联的转录设置和/或翻译设置,并且可以根据这些设置向计算设备126提供字幕和/或翻译。
[0034]
在该示例中,在计算设备104a上显示生产力应用。具体地,显示用于做笔记的生产力应用,且在该应用中呈现了字幕窗口,用于加入与说话用户108的演讲/讲座和加入码112相关的正在进行的讲座。加入码112被输入到字幕窗口的“加入对话”区域中,并且与计算设备104a相关联的用户选择了英语作为她用于接收转录实例的转录的优选语言。将加入码112从计算设备104a发送到实时语音到文本服务,该实时语音到文本服务认证该代码并授权来自说话用户108的转录实例的语音到文本被提供给计算设备104a。在该示例中,语音到
文本被发送到计算设备104b,计算设备104b是与计算设备104a相同的计算设备,如转录窗格129中的字幕128所示。转录窗格129被包括在做笔记生产力应用中,紧挨着“讲座#1”的笔记窗口126。例如,说话用户108可以是在课堂上提供她的第一讲座的有机化学教授,该讲座的转录可以经由stt服务122自动生成,并且呈现在学生用户正在做与第一讲座相关的笔记的做笔记应用中的转录窗格129中。下面提供了与可以针对字幕128进行的各种交互有关的附加细节。
[0035]
图2示出了可以被利用在生产力应用中集成语音到文本转录中的三个基于云的服务200的示例性元素。基于云的服务包括生产力应用服务221、语音到文本(stt)服务222和翻译服务224。这些服务中的一项或多项可以经由诸如图1中的网络116的网络彼此通信。
[0036]
生产力应用服务221包括服务存储库220,服务存储库220可以包括与一个或多个用户账户相关联的所存储数据,该一个或多个用户账户与由生产力应用服务221托管的一个或多个生产力应用相关。这些用户账户可以附加地或备选地是相关联的stt服务222和/或翻译服务224。在所图示的示例中,服务存储220包括文档数据216,其可以包括一个或多个所存储的生产力文档和/或相关联的元数据;数据212和相关联的元数据;日历数据214和相关联的日历元数据;以及用户设置218,其可以包括例如隐私设置、语言设置、位置偏好和词典偏好。在一些示例中,文档数据216可以包括讲座材料232,其将在下面关于stt服务222进行讨论。
[0037]
stt服务222包括一个或多个语音到文本语言处理模型。这些语言处理模型由神经网络228、受监督机器学习模型224和语言处理模型226示出。在一些示例中,当从正在接收音频的计算设备(例如,图1中的计算设备110)发起了转录实例时,从该设备接收的音频信号可以被发送到stt服务222,在stt服务222中它被处理以用于转录。音频信号由语音230表示。可以将语音230提供给一个或多个语音到文本语言处理模型。如图所示,在处理语音230时,一个或多个语音到文本语言处理模型可以被训练和/或可以利用诸如讲座材料232的文档。例如,如果提供语音230的用户正在利用与讲座相关的一个或多个对应的文档(例如,来自关于有机化学的演示应用的电子幻灯片、讲座讲义等)呈现讲座,则被用以转录语音230的语言处理模型可以利用该材料(例如,经由对那些电子文档的分析)来开发自定义语料库和/或词典,该自定义语料库和/或词典可以在语言处理模型中被利用以确定语音230的正确输出。这通过特定于领域的词典/语料库234来说明。
[0038]
根据一些示例,被确定为对特定语言处理模型、自定义语料库和/或自定义词典特定和/或唯一的词汇(例如,单词、短语)可以自动突出显示和/或以其他方式区别于生产力应用中转录窗格中的其他字幕。例如,如果有在特定学科中使用的术语在转录窗格中作为来自被转录的音频的字幕提供(例如,有机化学、进化生物学、机械工程等)。这些术语,则这些术语可以突出显示、加下划线、加粗或以其他方式指示为与特定学科相关联。
[0039]
在一些示例中,在语言处理模型中用于生成、增强和/或用于音频/语音处理的文档/材料可以与多个用户相关联。例如,来自大学第一理科系中的第一组用户(例如,教授)的电子文档/材料可以被利用在针对该科系中的用户接收的语音的语言处理模型中,并且来自大学的第二理科系中的第二组用户(例如,教授)的电子文档/材料可以被利用在从该科系中的用户接收的语音的语言处理模型中。来自其他组的其他电子文档/材料可以被利用以用于处理来自具有相似词汇的用户的语音。用于转录语音230的语言处理模型可以利
用标准词典和/或一个或多个标准语料库来确定语音230的正确输出。这一点通过标准词典/语料库236来说明。
[0040]
翻译服务224可以从stt服务222接收输出(例如,语音230的转录),并将该输出翻译成一种或多种附加语言。翻译服务224包括可以被利用在翻译从stt服务222接收的输出的一个或多个语言处理模型中。这些模型由受监督机器学习模型204、神经网络206和语言处理模型208示出。
[0041]
图3示出了与集成在生产力应用中的转录窗格中的文本的交互。图3包括显示生产力应用304的计算设备302。生产力应用304包括应用笔记310和转录窗格306。转录窗格306集成在生产力应用304中,并且包括字幕308。字幕308相对于语音的接收(例如,经由音频信号)以及随后将该音频信号处理成文本而实时或几乎实时地被呈现。然后使该文本在转录窗格306中显示为字幕308。
[0042]
在该示例中,选择了字幕308中的一个或多个单词。该选择被示为经由鼠标从所选单词的一侧点击并拖动到所选单词的另一侧来进行。然而,应当理解,可以利用用于选择转录窗格306中的字幕的其他机制(例如,口头命令、触摸输入等)。下面将进一步描述与所选字幕的交互。
[0043]
在一些示例中,可以选择转录窗格306中的突出显示元素307。该选择可以使突出显示元素被呈现,该突出显示元素可以被利用以突出显示文本,诸如此处所示的所选感兴趣的文本。在一些示例中,用户可以从多种颜中选择可以突出显示文本的颜。在另外的示例中,高亮显示和/或所选的文本可以如下面更全面地描述的那样进行交互。
[0044]
图4示出了将转录窗格中的文本转移到生产力应用中的分离的窗口。图4包括显示生产力应用404的计算设备402。生产力应用404包括应用笔记410和转录窗格406。转录窗格406集成在生产力应用404中,并且包括字幕408。字幕408相对于语音的接收(例如,经由音频信号)以及随后将该音频信号处理成文本而实时或几乎实时地被呈现。然后使该文本在转录窗格406中显示为字幕408。
[0045]
在该示例中,对字幕408中的一个或多个单词进行了选择。该一个或多个单词被示为所选择的文本414。做出了与所选择的文本414进行交互的指示。具体地,进行了对所选择的文本414的点击和拖动,由此接收到相对于字幕408中的所选择的文本414的点击。然后,相对于应用笔记410的字幕408进行拖动和放置机制。因此,可以将所选择的文本414插入到应用笔记410中其被放置的位置。在一些示例中,可以经由拖动和放置机制将所选择的文本414复制并粘贴到应用笔记410中。在其他示例中,所选择的文本414可以经由剪切和粘贴类型机制而被传送。在一些示例中,所选择的文本414可以在其从转录窗格406移动(例如,经由拖动和放置)到应用笔记410的同时被复制并存储在计算设备402上的临时存储装置中。此外,在该示例中,当所选择的文本414被插入到应用笔记410中时,它与链接412相关联。如果被选择,链接412可以使得字幕408中的所选择的文本414的位置在转录窗格406中被呈现。在一些示例中,链接412可以是嵌入的链接。作为可以使用链接的示例,如果用户当前不具有与转录窗格406中显示的字幕408相对应的讲座笔记,并且用户与链接412交互,则可以使得与所选择的文本414相对应的那些讲座笔记和/或那些讲座笔记中的特定位置呈现在转录窗格406中。
[0046]
图5示出了生产力应用的转录窗格中的文本的注释。图5包括显示生产力应用504
的计算设备502。生产力应用504包括应用笔记510和转录窗格506。转录窗格506集成在生产力应用504中,并且包括字幕508。字幕508相对于语音的接收(例如,经由音频信号)以及随后将该音频信号处理成文本而实时或几乎实时地被呈现。然后使该文本在转录窗格506中显示为字幕508。
[0047]
在该示例中,对字幕508中的一个或多个单词做出了选择。那些一个或多个单词被示出为所选择的文本514。然后在转录窗格506中接收与注释元素512相关的后续选择。在该示例中,经由对注释元素512进行鼠标点击而做出选择。然而,也可以考虑其他选择机制(例如,触摸输入、语音输入等)。在对注释元素512的选择后,使得注释窗口516被显示在转录窗格506中。注释窗口516针对用户提供了留下将与所选择的文本相关联的注释的机制。在该示例中,用户在具有所选择的文本514的注释窗口516中添加文本“教授说该概念将会在考试中”。在一些示例中,在将注释与所选择的文本相关联之后,当在转录窗格中的对应字幕/所选择的文本旁边接收到输入时,可以自动地呈现该注释(例如,在注释窗口516中或在分离的窗口或窗格中)。在附加示例中,在将注释与所选择的文本相关联之后,如果然后所选择的文本被插入到应用笔记510中,则用户可以与所插入的文本进行交互,这可以使得注释相对于应用笔记510中的所插入文本而被自动呈现。
[0048]
图6示出了用于改变实时语音到文本转录被呈现在转录窗格中的语言的可选择元素。图6包括显示生产力应用604的计算设备602。生产力应用604包括应用笔记610和转录窗格606。转录窗格606被集成在生产力应用604中,并且包括字幕608。字幕608相对于语音的接收(例如,经由音频信号)以及随后将该音频信号处理成文本而实时或几乎实时地被呈现。然后使得该文本在转录窗格606中显示为字幕608。
[0049]
在该示例中,在转录窗格606中,翻译语言元素612被选择。在该示例中,经由对翻译语言元素612进行鼠标点击而做出选择。然而,也可以考虑其他选择机制(例如,触摸输入、语音输入等)。在翻译语言元素612被选择后,使得显示用于修改字幕608的呈现语言的多个可选择元素。在该示例中,多个可选择元素呈现在语言飞出窗口613中,然而可以想到其他用户界面元素(例如,弹出窗口、下拉列表等)。可以对包括在语言飞出窗口613中的任何语言做出选择,这可以使得字幕608以该所选择的语言呈现在转录窗格606中。
[0050]
图7a示出了用于呈现被包括在生产力应用的转录窗格中的单词和/或短语的定义的可选择元素。图7a包括显示生产力应用704a的计算设备702a。生产力应用704a包括应用笔记710a和转录窗格706a。转录窗格706a被集成在生产力应用704a中,并且包括字幕708a。字幕708a相对于语音的接收(例如,经由音频信号)以及随后将该音频信号处理成文本而实时或几乎实时地被呈现。然后使该文本在转录窗格706a中显示为字幕708a。
[0051]
在该示例中,对字幕708a中的单词做出了选择。该单词是所选择的单词716a。然后在转录窗格706a中接收与词典查元素714a相关的后续选择。在该示例中,经由对词典查元素714a进行鼠标点击而做出选择。然而,可以想到其他选择机制(例如,触摸输入、语音输入等)。在对词典查元素714a的选择后,使得定义窗口712a显示在转录窗格706a中。在对词典查元素714a的选择后,可以使得所选择的单词716a的定义被自动显示在定义窗口712a中。在一些示例中,定义可以从计算设备702a本地的标准词典或经由web访问的标准词典获取。在其他示例中,如果确定所选择的单词在与用于转录的语言处理模型相关联的自定义词典内,则可以从该自定义词典获取定义。例如,一些单词(尤其是与科学有关的)可能
不被包括在标准词典中,因此那些单词可以被包括在针对例如大学的讲座、讲座集合和/或学术学科生成的自定义词典中。在附加示例中,如果确定字幕与特定领域(例如,计算机科学、化学、生物学)相关,则可以从通过web获取的该领域的技术词典中获取定义窗口712a中呈现的定义。在附加示例中,可以从标准词典获取所选择的单词的第一定义,可以从技术和/或自定义词典获取所选择的单词的第二定义,并且两个定义都可以在定义窗口712a中被呈现。
[0052]
在一些示例中,选择可以被做出以将来自定义窗口712a的一个或多个定义与所选择的单词716a相关联。如果这样的选择被做出,则可以在接收到与单词的交互时显示一个或多个定义(例如,如果接收到与字幕708a中的所选择的单词716a的交互,则可以在转录窗格706a中呈现定义,如果将所选择的单词716a插入到应用笔记710a中并且接收到关于应用笔记710a中的单词的交互,则可以在应用笔记710a中呈现定义)。
[0053]
图7b示出了用于使得web搜索与包括在生产力应用的转录窗格中的单词和/或短语相关联地执行的可选择元素。图7b包括显示生产力应用704b的计算设备702b。生产力应用704b包括应用笔记710b和转录窗格706b。转录窗格706b被集成在生产力应用704b中,并且包括字幕708b。字幕708b相对于语音的接收(例如,经由音频信号)以及随后将该音频信号处理成文本而实时或几乎实时地被呈现。然后使得该文本在转录窗格706b中显示为字幕708b。
[0054]
在该示例中,对字幕708b中的单词做出了选择。该单词是所选择的单词716b。然后,如参考图7b所描述的,接收与转录窗格706a中的词典查元素相关的后续选择。因此,使得所选择的单词716b的定义在定义窗口712b中被呈现。然而,在该示例中,对web搜索元素718b做出进一步选择。通过选择web搜索元素718b,可以执行与字幕708b中的所选择的单词716b和/或其周围文本相关的web搜索,并且可以使得来自被标识为与该搜索相关的一个或多个在线源的信息相对于字幕708b中的所选择的单词716b和/或相对于定义窗口712b而被呈现。在一些示例中,从web获取的内容可以与字幕708b中的一个或多个单词相关联。在这样的示例中,当与一个或多个单词交互时(例如,经由鼠标悬停、经由鼠标左键点击等),可以自动呈现web内容。
[0055]
图8示出了与生产力应用的转录窗格中的实时语音到文本字幕的暂停和恢复相关联的可选择元素和相关动作。图8包括三个转录窗格(转录窗格802a、转录窗格802b、转录窗格802c),在暂停/恢复操作的不同阶段,所有这些转录窗格都是相同的转录窗格。转录窗格示出在生产力应用之外。然而,应当理解,本文所示的转录窗格可以被集成在生产力应用中(例如,在与做笔记窗口相邻的窗格中)。
[0056]
字幕(字幕806a、字幕806b、字幕806c)相对于语音的接收(例如,经由音频信号)以及随后将该音频信号处理成文本而实时或几乎实时地被呈现。然后使该文本显示在字幕806a中。然而,转录窗格802a在其上部包括多个可选择的用户界面元素,并且选择了暂停/恢复元素804a。在该示例中,经由对暂停/恢复元素804a进行鼠标点击而做出选择。然而,可以想到其他选择机制(例如,触摸输入、语音输入等)。
[0057]
在对暂停/继续元素804a的选择后,字幕可以停止在字幕806a中实时地呈现。例如,尽管音频仍然被实时语音到文本服务并发接收,并且显示转录窗格802a的计算设备仍然连接到该音频的当前转录实例,但是在选择暂停/恢复元素804a之后,从音频转录的字幕
可以不在字幕806a中显示。相反,这些字幕可以被存储在临时存储装置中(例如,在与转录窗格802a相关联的计算设备上、在托管实时语音到文本服务的服务器计算设备上的缓冲存储装置中),直到对暂停/恢复元素804a做出了后续的“恢复”选择。
[0058]
在该示例中,当选择暂停/继续元素804a时,字幕806a在当前说话者语音位置808a处被暂停。因此,如转录窗格802b所示,即使当来自说话者的附加音频被实时语音到文本服务接收(经由接收音频的计算设备)并且被转录时,如当前说话者语音位置808b所指示的,该内容也不会被呈现在位置810中,如果不是接收到了对暂停/继续元素804a的选择,则该内容将被呈现在位置810中。然而,当在转录窗格802c中做出对暂停/继续元素804b的后续选择时,保持在临时存储状态(例如,缓冲状态)中的字幕可以被自动呈现,如字幕向前移动/呈现到字幕806c中的当前说话者语音位置808c所指示的。
[0059]
此外,尽管没有转录窗格用滚动条被示出,但应当理解,当字幕被呈现的同时或当字幕处于暂停状态的同时,可以滚动字幕。例如,用户可以暂停字幕的呈现,向上滚动到用户在正在进行的讲座期间错过的内容,继续字幕的呈现,以及滚动到字幕中的当前活动状态。可以想到用于在字幕中向前或向后移动的其他机制。例如,用户可以利用语音命令来定位字幕(例如,“返回五分钟”“跳回到讲座中的[概念a]”)。在语音命令的情况下,可以对接收到的命令/音频执行自然语言处理,并且可以执行经由该处理标识的一个或多个任务,其结果可以在转录窗格中被呈现。
[0060]
图9a是用于在生产力应用中集成语音到文本转录的示例性方法900a。方法900a开始于开始操作,并且流程移至操作902a。
[0061]
在操作902a,第一设备发送访问由第二设备当前正在接收的音频信号的实时语音到文本转录的请求。也就是说,第二设备与说话用户相关联。在一些示例中,第二设备可以被利用以请求针对与音频相关联的转录实例生成加入码。例如,可以从第二设备上的语音到文本应用、第二设备上的翻译应用或第二设备上的生产力应用接收生成加入码的请求。
[0062]
生成加入码的请求可以由实时语音到文本服务接收,并且可以生成加入码。加入码可以包括qr码、条形码、一个或多个字符、加密信号等。在一些示例中,访问实时语音到文本转录的请求可以包括从第一设备接收加入码。在其他示例中,当接收到访问实时语音到文本转录的请求时,第一设备然后可以呈现用于输入加入码的域。无论如何,一旦在第一设备上(例如,在生产力应用中、在弹出窗口中)输入加入码,第一设备就可以加入与说话用户相关联的转录实例。
[0063]
流程从操作902a继续到操作904a,在操作904a中使得实时语音到文本转录在第一设备上的生产力应用用户界面的转录窗格中被呈现。生产力应用可以包括例如做笔记应用、文字处理应用、演示应用、电子表格应用和/或任务完成应用。
[0064]
流程从操作904a继续到操作906a,在操作906a中对所呈现的转录中的单词的选择被接收。例如,该选择可以包括突出显示单词、下划线、复制输入和/或电子抓取。可以经由鼠标输入、触摸输入、指示笔输入和/或口头输入来进行选择的输入。
[0065]
流程从操作906a继续到操作908a,在操作908a中从转录窗格拖动单词并将单词放置到生产力应用中的转录窗格外部的窗口中的请求被接收。在一些示例中,当发起拖动时,可以将单词复制到临时存储装置,并且可以将单词从临时存储装置粘贴到生产力应用中放置被发起的位置。在其他示例中,可以直接从转录窗格复制单词,并将其粘贴在生产力应用
中放置被发起的位置(例如,不首先复制到临时存储装置)。在一些示例中,生产力应用中单词被放置的位置可以包括与转录的主题相关的笔记部分。在附加示例中,可以将一个或多个语言处理模型被应用于转录,并且可以确定转录涉及的主题类型。在这样的示例中,生产力应用可以呈现与转录的主题相关的一个或多个所保存的笔记。
[0066]
流程从操作908a继续到操作910a,在操作910a中使得该单词被呈现在生产力应用中的转录窗格外部的窗口中。在一些示例中,该单词可以自动与链接相关联。该链接如果被访问,则可以使包括该单词的转录部分被呈现。在其他示例中,该链接如果被访问,则可以使与该单词相关联的一个或多个笔记被呈现。
[0067]
流程从操作910a移动到结束操作,并且方法900a结束。
[0068]
图9b是用于从自定义词典呈现被包括在生产力应用的转录窗格中的单词和/或短语的定义的示例性方法900b。方法900b开始于开始操作,并且流程移至操作902b。
[0069]
在操作902b,对呈现在生产力应用的转录窗格中的转录中的单词的选择被接收。该转录可以作为如上关于图9a所描述的实时语音到文本转录实例的一部分来呈现。
[0070]
流程从操作902b继续到操作904b,在操作904b中使得第二单词的定义被呈现在生产力应用用户界面中的请求被接收。该请求可以包括选择转录窗格中的词典图标。在其他示例中,可以利用鼠标右键点击和词典查过程来请求定义。可以考虑其他机制。
[0071]
流程从操作904b继续到操作906b,在操作906b中与关联于说话用户的用户账户相关联的自定义词典被标识。自定义词典可以至少部分地基于分析与说话用户(例如,说话用户的账户)相关联的一个或多个文档而被生成。那些一个或多个文档可以包括与当前演讲和转录实例相关联地展现的讲座笔记和/或演示文档。在其他示例中,自定义词典可以与大学的科系和/或组织中的组相关联。
[0072]
流程从操作906b继续到操作908b,在操作908b中使得来自自定义词典的单词的定义在生产力应用用户界面中被呈现。
[0073]
流程从操作908b移动到结束操作,并且方法900b结束。
[0074]
图9c是用于在生产力应用的转录窗格中暂停和恢复实时语音到文本字幕的示例性方法900c。方法900c开始于开始操作,并且流程移至操作902c。
[0075]
在操作902c,暂停实时语音到文本转录的请求可以被接收。也就是说,当用户在说话时,字幕可以被连续地添加到生产力应用的转录窗格中的转录,并且用户可以选择生产力应用中的选项以暂停字幕的呈现。
[0076]
流程从操作902c继续到操作904c,在操作904c中转录窗格中的实时语音到文本转录的呈现被暂停。也就是说,尽管语音可能仍处于由实时语音到文本服务接收和处理的过程中,但在暂停期间可以停止在转录窗格中呈现附加字幕。
[0077]
流程从操作904c继续到操作906c,在操作906c中在实时语音到文本转录被暂停的同时,传入的实时语音到文本转录在接收设备上被保持在缓冲状态中。也就是说,在该示例中,由用于当前转录实例的实时语音到文本服务处理的语音和后续转录/字幕在暂停期间被保持在临时存储装置中。转录可以被保持在服务器设备(例如,与实时语音到文本服务相关联的服务器设备)和/或最初暂停命令被接收的设备上的临时存储装置中。
[0078]
流程从操作906c继续到操作908c,在操作908c中恢复实时语音到文本转录的请求被接收。
[0079]
流程从操作908c继续到操作910c,在操作910c中使得被保持在缓冲状态中的实时语音到文本转录在转录窗格中被呈现。也就是说,可以使得在暂停生效的同时保持在临时存储装置中的所有字幕与先前呈现的字幕一起被自动呈现在转录窗格中。
[0080]
流程从操作910c继续到操作912c,在操作912c中在转录窗格中恢复实时语音到文本转录的呈现。因此,从转录从其暂停状态恢复的时间起由实时语音到文本服务生成的字幕可以再次连续地被呈现在转录窗格中。
[0081]
流程从操作912c移动到结束操作,并且方法900c结束。
[0082]
图10和图11示出了移动计算设备1000,例如移动电话、智能电话、可穿戴计算机(诸如智能眼镜)、平板计算机、电子阅读器、膝上型计算机或其他ar兼容计算设备,可以利用它们来实施本公开的实施例。参考图10,示出了用于实现这些方面的移动计算设备1000的一个方面。在基本配置中,移动计算设备1000是具有输入元件和输出元件两者的手持式计算机。移动计算设备1000通常包括显示器1005和允许用户将信息输入到移动计算设备1000中的一个或多个输入按钮1010。移动计算设备1000的显示器1005还可以被用作输入设备(例如,触摸屏显示器)。如果包括,则可选侧输入元件1015允许进一步的用户输入。侧输入元件1015可以是旋转开关、按钮或任何其他类型的手动输入元件。在备选方面中,移动计算设备1000可以结合更多或更少的输入元件。例如,在一些实施例中,显示器1005可以不是触摸屏。在又一备选实施例中,移动计算设备1000是便携式电话系统,诸如蜂窝电话。移动计算设备1000还可以包括可选小键盘1035。可选小键盘1035可以是物理小键盘或在触摸屏显示器上生成的“软”小键盘。在各种实施例中,输出元件包括用于示出图形用户界面(gui)的显示器1005、视觉指示器1020(例如,发光二极管)和/或音频换能器1025(例如,扬声器)。在一些方面中,移动计算设备1000结合了用于向用户提供触觉反馈的振动换能器。在又一方面中,移动计算设备1000结合了输入和/或输出端口,诸如用于向外部设备发送信号或从外部设备接收信号的音频输入(例如,麦克风插孔)、音频输出(例如,耳机插孔)和视频输出(例如,hdmi端口)。
[0083]
图11是示出了移动计算设备的一个方面的架构的框图。也就是说,移动计算设备1100可以结合系统(例如,架构)1102来实现一些方面。在一个实施例中,系统1102被实现为能够运行一个或多个应用(例如,浏览器、、日历、联系人管理器、消息收发客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些方面中,系统1102被集成为计算设备,诸如集成个人数字助理(pda)和无线电话。
[0084]
一个或多个应用程序1166可以被加载到存储器1162中并在操作系统1164上运行或与之相关联地运行。应用的示例包括电话拨号器程序、程序、个人信息管理(pim)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息收发程序等。系统1102还包括存储器1162内的非易失性存储区域1168。非易失性存储区域1168可以被用以存储在系统1102断电时不应丢失的持久信息。应用程序1166可以使用并存储非易失性存储区域1168中的信息,诸如或应用使用的其他消息等。同步应用(未示出)也驻留在系统1102上,并且被编程为与驻留在主计算机上的对应同步应用交互,以保持存储在非易失性存储区域1168中的信息与存储在主计算机处的对应信息同步。应该理解,其他应用可以被加载到存储器1162中并在移动计算设备1100上运行,包括用于提供和操作实时语音到文本平台的指令。
[0085]
系统1102具有可以实现为一个或多个电池的电源1170。电源1170还可以包括外部电源,诸如ac适配器或对电池进行补充或充电的带电对接底座。
[0086]
系统1102还可以包括执行发送和接收射频通信的功能的无线电接口层1172。无线电接口层1172经由通信运营方或服务提供方促进系统702与“外部世界”之间的无线连接。去往和来自无线电接口层1172的传输在操作系统1164的控制下进行。换句话说,由无线电接口层1172接收的通信可以经由操作系统1164散播到应用程序1166,反之亦然。
[0087]
视觉指示器1020可用于提供视觉通知,和/或音频接口1174可用于经由音频换能器1025产生可听通知。在所示实施例中,视觉指示器1020是发光二极管(led),而音频换能器1025是扬声器。这些设备可以直接耦合到电源1170,使得当被激活时,它们在通知机制规定的持续时间内保持开启,即使处理器1160和其他组件可能为了节省电池电量而被关闭。led可以被编程为无限期地保持开启,直到用户采取动作以指示设备的通电状态。音频接口1174用于向用户提供可听信号以及从用户接收可听信号。例如,除了耦合到音频换能器1025之外,音频接口1174还可以耦合到麦克风以接收可听输入,诸如以促进电话交谈。根据本公开的实施例,麦克风还可以用作音频传感器以促进通知控制,如下所述。系统1102还可以包括视频接口1176,该视频接口1176使得车载相机1030的操作能够记录静止图像、视频流等。
[0088]
实现系统1102的移动计算设备1100可以具有附加特征或功能。例如,移动计算设备1100还可以包括附加数据存储设备(可移除和/或不可移除),诸如磁盘、光盘或磁带。这样的附加存储在图11中由非易失性存储区域1168示出。
[0089]
由移动计算设备1100生成或捕获并经由系统1102存储的数据/信息可以被本地存储在移动计算设备1100上,如上所述,或者数据可以被存储在可以由设备经由无线电接口层1172或经由移动计算设备1100和与移动计算设备1100相关联的分离的计算设备之间的有线连接访问的任意数目的存储介质上,例如分布式计算网络中的服务器计算机,诸如互联网。应当理解,这样的数据/信息可以经由移动计算设备1100经由无线电接口层1172或经由分布式计算网络来访问。类似地,根据公知的数据/信息传输和存储手段,包括和协作数据/信息共享系统,这样的数据/信息可以容易地在计算设备之间传输以用于存储和使用。
[0090]
图12是示出了可以实施本公开的各方面的计算设备1200的物理组件(例如,硬件)的框图。下面描述的计算设备组件可以具有用于生成、呈现和提供与实时语音到文本转录和翻译相关联的操作的计算机可执行指令。在基本配置中,计算设备1200可以包括至少一个处理单元1202和系统存储器1204。根据计算设备的配置和类型,系统存储器1204可以包括但不限于易失性存储器(例如,随机存取存储器)、非易失性存储器(例如,只读存储器)、闪存或这样的存储器的任何组合。系统存储器1204可以包括适合于运行一个或多个生产力应用的操作系统1205。例如,操作系统1205可以适于控制计算设备1200的操作。此外,本公开的实施例可以结合图形库、其他操作系统或任何其他应用程序来实施,并且不限于任何特定应用或系统。该基本配置在图12中由虚线1208内的那些组件示出。计算设备1200可以具有附加特征或功能。例如,计算设备1200还可以包括附加数据存储设备(可移除和/或不可移除),例如磁盘、光盘或磁带。这样的附加存储在图12中由可移除存储设备1209和不可移除存储设备1210示出。
[0091]
如上所述,多个程序模块和数据文件可以存储在系统存储器1204中。当在处理单元1202上执行时,程序模块1206(例如,语音转录引擎1220)可以执行包括但不限于本文描述的方面的处理。根据示例,语音转录引擎1211可以执行与接收音频信号并将那些信号转换成可以在生产力应用中显现的转录相关联的一个或多个操作。翻译引擎1213可以执行与将第一语言的转录翻译成一种或多种附加语言相关联的一个或多个操作。单词定义引擎1215可以执行与将来自笔记本应用的定义或笔记与包括在转录窗格中的转录中的单词相关联的一个或多个操作。笔记呈现引擎1217可以执行与分析转录(例如,利用自然语言处理和/或机器学习)、标识与转录相关的笔记本应用的相关部分、以及自动呈现笔记本应用的该部分的一个或多个操作。
[0092]
此外,本公开的实施例可以在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路中实施,或者在包含电子元件或微处理器的单个芯片上实施。例如,本公开的实施例可以经由片上系统(soc)来实施,其中图12中所示的每个或许多组件可以集成到单个集成电路上。这样的soc设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能,所有这些都作为单个集成电路集成(或“烧录”)到芯片衬底上。当经由soc操作时,本文相对于客户端切换协议的能力所描述的功能可以经由与计算设备1200的其他组件集成在单个集成电路(芯片)上的专用逻辑来操作。本公开的实施例还可以使用能够执行逻辑运算的其他技术来实施,例如,与、或和非,包括但不限于机械、光学、流体和量子技术。此外,本公开的实施例可以在通用计算机内或在任何其他电路或系统中实施。
[0093]
计算设备1200还可以具有一个或多个输入设备1212,诸如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。还可以包括(多个)输出设备1214,诸如显示器、扬声器、打印机等。上述设备是示例,也可以使用其他设备。计算设备1200可以包括允许与其他计算设备1250通信的一个或多个通信连接1216。适当的通信连接1216的示例包括但不限于射频(rf)发送器、接收器和/或收发器电路;通用串行总线(usb)、并行和/或串行端口。
[0094]
本文使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质,诸如计算机可读指令、数据结构或程序模块。系统存储器1204、可移除存储设备1209和不可移除存储设备1210都是计算机存储介质示例(例如,存储器存储装置)。计算机存储介质可以包括ram、rom、电可擦除只读存储器(eeprom)、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光存储、盒式磁带、磁带、磁盘存储或其他磁存储设备、或可用于存储信息并可由计算设备1200访问的任何其他制造产品。任何这样的计算机存储介质可以是计算设备1200的一部分。计算机存储介质不包括载波或其他传播或调制的数据信号。
[0095]
通信介质可以由计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据来实现,诸如载波或其他传输机制,并且包括任何信息传递介质。术语“调制数据信号”可以描述具有以将信号编码在信号中的方式设置或改变的一个或多个特性的信号。作为示例而非限制,通信介质可以包括诸如有线网络或直接有线连接的有线介质,以及诸如声学、射频(rf)、红外和其他无线介质的无线介质。
[0096]
图13示出了用于处理在计算系统处从诸如个人/通用计算机1304、平板计算设备1306或移动计算设备1308的远程源接收的数据的系统的架构的一个方面,如上所述。在服
务器设备1302处显示的内容可以被存储在不同的通信信道或其他存储类型中。例如,可以使用目录服务1322、web门户1324、邮箱服务1326、即时消息收发存储库1328或社交网络站点1330来存储各种文档。程序模块1206可以由与服务器设备1302通信的客户端使用,和/或程序模块1206可以由服务器设备1302使用。服务器设备1302可以通过网络1315向和从诸如个人/通用计算机1304、平板计算设备1306和/或移动计算设备1308(例如,智能电话)的客户端计算设备提供数据。作为示例,本文描述的计算机系统可以实施在个人/通用计算机1304、平板计算设备1306和/或移动计算设备1308(例如,智能电话)中。除了接收可用于在图形发起系统处进行预处理或在接收计算系统处进行后处理的图形数据之外,计算设备的这些实施例中的任何一个还可以从存储库1316获取内容。
[0097]
例如,上面参考根据本公开的各方面的方法、系统和计算机程序产品的框图和/或操作图示来描述本公开的各方面。框中注明的功能/动作可以不按任何流程图所示的顺序发生。例如,根据所涉及的功能/动作,实际上可以基本上并发执行连续显示的两个框,或者有时可以以相反的顺序执行这些框。
[0098]
本技术中提供的对一个或多个方面的描述和说明不旨在以任何方式限制或局限如权利要求所要求保护的本公开的范围。本技术中提供的方面、示例和细节被认为足以传达所有并使其他人能够做出和使用所要求保护的公开的最佳模式。所要求保护的公开不应被解释为限于本技术中提供的任何方面、示例或细节。无论是结合还是分开示出和描述,各种特征(结构和方法两者)旨在选择性地包括或省略,以产生具有特定特征集的实施例。在提供了对本公开的描述和说明之后,本领域的技术人员可以设想在本技术中实施的一般发明概念的更广泛的方面的精神内不偏离所要求保护的公开的更广泛的范围的变化、修改和备选方面。
[0099]
上述各种实施例仅作为说明提供,并不应被解释为限制本文所附的权利要求。本领域技术人员将容易地认识到,可以在不遵循本文说明和描述的示例实施例和应用的情况下,并且在不背离所附权利要求的真实精神和范围的情况下,进行各种修改和改变。

技术特征:


1.一种用于在生产力应用中集成语音到文本转录的计算机实现的方法,所述计算机实现的方法包括:由第一设备发送对于访问由第二设备当前正在接收的音频信号的实时语音到文本转录的请求;使得所述实时语音到文本转录被呈现在所述第一设备上的生产力应用用户界面的转录窗格中;接收对所呈现的所述转录中的单词的选择;接收对于从所述转录窗格拖动所述单词并且将所述单词放置到所述生产力应用中的所述转录窗格外部的窗口中的请求;以及使得所述单词被呈现在所述生产力应用中的所述转录窗格外部的所述窗口中。2.根据权利要求1所述的计算机实现的方法,其中对于访问所述实时语音到文本转录的所述请求包括加入码。3.根据权利要求2所述的计算机实现的方法,其中所述加入码针对向接收所述音频信号的实时语音到文本转录服务提供所述实时语音到文本转录的任何计算设备提供对所述实时语音到文本转录的访问。4.根据权利要求1所述的计算机实现的方法,还包括:接收对所呈现的所述转录中的第二单词的选择;接收对于使得针对所述第二单词的定义被呈现在所述生产力应用用户界面中的请求;标识与所述第二设备的用户账户相关联的自定义词典;以及使得针对来自所述自定义词典的所述第二单词的定义被呈现在所述生产力应用用户界面中。5.根据权利要求4所述的计算机实现的方法,其中至少部分地基于在所述音频信号由所述第二设备正在接收的同时分析由所述第二计算设备展现的文档,所述自定义词典被生成。6.根据权利要求5所述的计算机实现的方法,其中分析所述文档包括:对所述文档应用已经被训练以标识话题性主题的神经网络。7.根据权利要求1所述的计算机实现的方法,还包括:接收对所呈现的所述转录中的第二单词的选择;接收对于使针对所述第二单词的定义被呈现在所述生产力应用用户界面中的请求;标识与所述第二设备的用户账户相关联的自定义词典;确定所述第二单词不能在所述自定义词典中被定位;以及产生可选择选项以针对要被呈现的所述第二单词执行web搜索。8.根据权利要求1所述的计算机实现的方法,还包括:接收对所呈现的所述转录中的第二单词的选择;接收对于将注释与所述生产力应用用户界面中的所述第二单词相关联的请求;以及将所述注释与所述生产力应用用户界面中的所述第二单词相关联。9.根据权利要求1所述的计算机实现的方法,还包括:接收对于将所述转录从所述音频信号最初被转录成的第一语言翻译成第二语言的请求;以及
使得所述实时语音到文本转录以所述第二语言被呈现在所述转录窗格中。10.根据权利要求1所述的计算机实现的方法,还包括:接收对于暂停所述实时语音到文本转录的请求;暂停在所述转录窗格中对所述实时语音到文本转录的所述呈现;在所述实时语音到文本转录被暂停的同时,在所述第一设备上将传入的实时语音到文本转录保持在缓冲状态中;接收对于恢复所述实时语音到文本转录的请求;使得被保持在所述缓冲状态中的所述实时语音到文本转录被呈现在所述转录窗格中;以及恢复在所述转录窗格中对所述实时语音到文本转录的所述呈现。11.一种用于在生产力应用中集成语音到文本转录的系统,包括:存储器,用于存储可执行程序代码;以及一个或多个处理器,在功能上被耦合到所述存储器,所述一个或多个处理器响应于被包含在所述程序代码中的计算机可执行指令并且操作以:由第一设备发送对于访问由第二设备当前正在接收的音频信号的实时语音到文本转录的请求;使得所述实时语音到文本转录被呈现在所述第一设备上的生产力应用用户界面的转录窗格中;接收对所呈现的所述转录中的单词的选择;接收对于从所述转录窗格拖动所述单词并且将所述单词放置到所述生产力应用中的所述转录窗格外部的窗口中的请求;以及使得所述单词被呈现在所述生产力应用中的所述转录窗格外部的所述窗口中。12.根据权利要求11所述的系统,其中对于访问所述实时语音到文本转录的所述请求包括加入码。13.根据权利要求11所述的系统,其中所述一个或多个处理器还响应于被包含在所述程序代码中的所述计算机可执行指令并且操作以:接收对所呈现的所述转录中的第二单词的选择;接收对于使得针对所述第二单词的定义被呈现在所述生产力应用用户界面中的请求;标识与所述第二设备的用户账户相关联的自定义词典;以及使得针对来自所述自定义词典的所述第二单词的定义被呈现在所述生产力应用用户界面中。14.根据权利要求13所述的系统,其中所述一个或多个处理器还响应于被包含在所述程序代码中的所述计算机可执行指令并且操作以:基于在所述音频信号由所述第二设备正在接收的同时分析由所述第二计算设备展现的文档,生成所述自定义词典。15.一种计算机可读存储设备,所述计算机可读存储设备包括可执行指令,所述可执行指令在由一个或多个处理器执行时,协助在生产力应用中集成语音到文本转录,所述计算机可读存储设备包括由所述一个或多个处理器可执行的指令,以用于:由第一设备发送对于访问由第二设备当前正在接收的音频信号的实时语音到文本转
录的请求;使得所述实时语音到文本转录被呈现在所述第一设备上的生产力应用用户界面的转录窗格中;接收对所呈现的所述转录中的单词的选择;接收对于将所述单词从所述转录窗格转移到所述生产力应用中的所述转录窗格外部的窗口的请求;以及使得所述单词被自动呈现在所述生产力应用中的所述转录窗格外部的所述窗口中。

技术总结


在本公开的非限制性示例中,呈现了用于在生产力应用中集成语音到文本转录的系统、方法和设备。由第一设备发送对于访问由第二设备正在接收的音频信号的实时语音到文本转录的请求。实时语音到文本转录可以被呈现在第一设备上的生产力应用的转录窗格中。将转录翻译成不同语言的请求可以被接收。转录可以被实时翻译并且被呈现在转录窗格中。对所呈现的转录中的单词的选择可以被接收。对于从转录窗格拖动单词并且将单词放置到生产力应用中的转录窗格外部的窗口中的请求可以被接收。单词可以被呈现在生产力应用中的转录窗格外部的窗口中。现在生产力应用中的转录窗格外部的窗口中。现在生产力应用中的转录窗格外部的窗口中。


技术研发人员:

D

受保护的技术使用者:

微软技术许可有限责任公司

技术研发日:

2020.11.05

技术公布日:

2022/7/22

本文发布于:2024-09-20 13:26:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/16549.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:转录   所述   生产力   设备
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议