一种显示设备、语音搜索方法及存储介质与流程



1.本公开涉及蓝牙技术领域,尤其涉及一种显示设备、语音搜索方法及存储介质。


背景技术:



2.目前,用户使用语音搜索热播电视剧、歌曲等内容的情况越来越多,随着电子产品智能化的提高,用户对人工智能的理解能力要求也越来越高。实际生活中,用户可能难以准确描述期望搜索的媒资,例如,用户会将电视剧名称a与电视剧主题曲的名称b相混淆,语音指示:想看电视剧主题曲b,而实际的真正意图是想看电视剧,电视根据该语音指示中包括的电视剧主题曲的名称b向用户反馈电视剧主题曲的音乐视频(music video,mv),这种语音搜索方法存在难以准确识别用户真正意图的问题,偏离了用户的实际需求,影响用户的使用体验感。


技术实现要素:



3.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种显示设备、语音搜索方法及存储介质,可以准确识别用户意图,提升用户使用体验感。
4.为了实现上述目的,本公开实施例提供的技术方案如下:
5.第一方面,本公开提供一种显示设备,包括:
6.用户输入接口,被配置为:获取用户语音;
7.控制器,被配置为:识别用户语音,获取用户语音中的关键词,关键词包括媒资名称、以及媒资类型和/或动词;
8.根据媒资名称从目标知识图谱库中确定候选媒资,候选媒资包括媒资名称所指示的第一媒资,以及与第一媒资存在关联关系的待反馈媒资;
9.从候选媒资中,确定与媒资类型和/或动词匹配的目标媒资,并控制显示器显示目标媒资对应的搜索结果。
10.第二方面,本公开提供一种语音搜索方法,包括:
11.获取用户语音;
12.识别用户语音,获取用户语音中的关键词,关键词包括媒资名称、以及媒资类型和/或动词;
13.根据媒资名称从目标知识图谱库中确定候选媒资,候选媒资包括媒资名称所指示的第一媒资,以及与第一媒资存在关联关系的待反馈媒资;
14.从候选媒资中,确定与媒资类型和/或动词匹配的目标媒资,并控制显示器显示目标媒资对应的搜索结果。
15.第三方面,本公开提供了一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第二方面所示的语音搜索方法。
16.第四方面,本公开提供了一种计算机程序产品,该计算机程序产品包括计算机程序,当该计算机程序在计算机上运行时,使得计算机实现如第二方面所示的语音搜索方法。
17.本公开实施例提供的技术方案与现有技术相比具有如下优点:
18.本公开实施例提供一种显示设备、语音搜索方法及存储介质,其中该显示设备的控制器对用户输入接口获取到的用户语音进行识别,得到其中的关键词,包括媒资名称、以及媒资类型和/或动词,进而先根据媒资名称从目标知识图谱库中确定候选媒资,候选媒资中该媒资名称所指示的第一媒资,以及与第一媒资存在关联关系的待反馈媒资,然后从候选媒资中确定与媒资类型和/或动词匹配的目标媒资,并控制显示器显示目标媒资对应的搜索结果。使得在用户语音所指示搜索的媒资名称与媒资类型和/或动词不匹配的情况下,仍能准确向用户反馈匹配的媒资搜索结果,实现对用户语音进行准确地分析理解,识别出用户的真实意图,提升用户的使用体验感。
附图说明
19.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
20.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
21.图1为本公开实施例提供的一些实施例中的场景示意图;
22.图2示例性示出了根据示例性实施例中控制装置100的配置框图;
23.图3示出了根据示例性实施例中显示设备200的硬件配置框图;
24.图4为根据本公开一个或多个实施例的显示设备200中软件配置示意图;
25.图5为本公开实施例提供的一种显示设备的系统架构示意图;
26.图6为本公开实施例提供的一种语音交互网络架构示意图;
27.图7为本公开实施例中提供一种语音搜索方法的流程示意图;
28.图8为本公开实施例提供的语音搜索的用户界面示意图一;
29.图9为本公开实施例提供的影音知识图谱库的示意图;
30.图10为本公开实施例提供的语音搜索的用户界面示意图二;
31.图11为本公开实施例提供的一种显示设备的结构示意图。
具体实施方式
32.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
33.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
34.本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选
地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。此外,在本公开的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
35.目前,用户在电视上通过语音搜索影视剧、歌曲等媒资内容的情况越来越多,随着智能电视的广泛应用,用户对人工智能的理解能力要求也越来越高,实际生活中,用户常常会将电视剧和电视剧主题曲的名称相混淆,想搜索电视剧却使用电视剧主题曲的名称进行语音搜索,或者想搜索电视剧主题曲却使用电视剧的名称进行语音搜索。
36.举例来说,用户向电视语音输入指令“我想看电视剧《向天再借五百年》”,但《向天再借五百年》并非电视剧的名称,而是电视剧《康熙王朝》的主题曲,表示用户的真正意图是“我想要看电视剧《康熙王朝》”;然而电视难以准确理解用户的意图,识别指令“我想看电视剧《向天再借五百年》”后会向用户反馈歌曲《向天再借五百年》的mv,这偏离了用户想要看电视剧《康熙王朝》的实际需求,影响用户的使用体验感。
37.实际的媒资种类繁多,媒资名称相同或相似但对应的媒资内容、媒资类型却不尽相同,这也加大了用户语音搜索媒资的困难度,导致用户通过语音难以准确搜索得到期望的媒资。
38.为解决上述部分或全部的技术问题,本公开实施例提供一种显示设备、语音搜索方法及存储介质,其中该显示设备包括用户输入接口和控制器,用户输入接口用于获取用户语音,控制器用于:首先对获取到的用户语音进行识别,得到该用户语音中包括的媒资名称、以及媒资类型和/或动词等关键词,再根据媒资名称从目标知识图谱库中确定候选媒资,其中候选媒资包括媒资名称所指示的第一媒资,以及与该第一媒资存在关联关系的待反馈媒资,进而从候选媒资中确定与媒资类型和/或动词匹配的目标媒资,并控制显示器显示目标媒资对应的搜索结果。从而在用户语音搜索媒资名称与媒资类型和/或动词不匹配的情况下,准确向用户反馈匹配的媒资搜索结果,实现对用户语音进行准确地分析理解,能够识别出用户的真正意图,提升了用户的使用体验感。
39.图1为本公开实施例提供的一些实施例中的场景示意图。如图1所示,图1中包括控制装置100、显示设备200、智能设备300以及服务器400。用户可通过智能设备300或控制装置100操作显示设备200,在显示设备200上播放音视频资源。
40.以用户通过控制装置100操作显示设备200为例,用户通过控制装置100操作显示设备200打开用户输入接口,例如麦克风,以使得显示设备200获取用户语音。用户期望语音控制显示设备200播放媒资,显示设备200的用户输入接口接收到用户语音,然后显示设备200的控制器对该用户语音进行识别,获取用于语音中包括的关键词:媒资名称、以及媒资类型和/或动词,进而根据媒资名称从目标知识图谱库中确定候选媒资,其中候选媒资包括媒资名称所指示的第一媒资,以及与该第一媒资存在关联关系的待反馈媒资,再从候选媒资中确定与媒资类型和/或动词匹配的目标媒资,进一步的控制显示器显示目标媒资对应的搜索结果。
41.相较于现有技术仅根据媒资名称进行搜索,本公开根据用户语音中包括的媒资名称以及媒资类型和/或动词,首先基于媒资名称从目标知识图谱库中确定候选媒资,以纠正
用户语音所指示的偏差,缩小媒资范围,进而根据媒资类型和/或动词计算得到目标业务参数,从而确定用户真正期望的目标媒资的业务类型,实现准确识别用户的真正意图,得到用户期望的媒资名称与媒资类型和/或动词匹配的目标媒资的搜索结果,语音搜索更为准确,更加贴合用户的实际需求,提升了用户的使用体验感。
42.在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信、蓝牙协议通信,无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。
43.在一些实施例中,智能设备300可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。也可以将智能设备300上显示音视频内容传输到显示设备200上,实现同步显示功能显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。显示设备200,可以液晶显示器、oled显示器、投影显示设备。显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能。
44.图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。通信接口130用于和外部通信,包含wifi芯片,蓝牙模块,nfc或可替代模块中的至少一种。用户输入/输出接口140包含麦克风,触摸板,传感器,按键或可替代模块中的至少一种。
45.图3示出了根据示例性实施例中显示设备200的硬件配置框图。如图3所示显示设备200包括:调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、用户输入接口280存储器、供电电源等。其中,控制器250包括中央处理器,视频处理器,音频处理器,图形处理器,ram,rom,用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、oled显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及epg数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
46.在一些实施例中,上述显示设备是具有显示功能的终端设备,例如电视机、手机、电脑、学习机等。
47.在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。用户可在显示器260上显示的图形用户界面(gui)输入用户命令,则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
48.输出接口(显示器260,和/或,音频输出接口270),被配置为输出用户交互信息;
49.通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220服务器400建立控制信号和数据信号的发送和接收。
50.用户输入接口280,可用于接收外部的控制信号。
51.检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
52.声音采集器可以是麦克风,也称“话筒”,“传声器”,可以用于接收用户的声音,将声音信号转换为电信号。显示设备200可以设置至少一个麦克风。在另一些实施例中,显示设备200可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,显示设备200还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
53.此外,麦克风可以是内置在显示设备200上,或者麦克风通过有线或者无线的方式与显示设备200相连接。当然,本技术实施例对麦克风在显示设备200上的位置不作限定。或者,显示设备200可以不包括麦克风,即上述麦克风并未设置于显示设备200中。显示设备200可以通过接口(如usb接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在显示设备200上。
54.本公开实施例提供一种显示设备200,该显示设备200包括:
55.用户输入接口280,被配置为:获取用户语音;
56.控制器250,被配置为:识别用户语音,获取用户语音中的关键词,关键词包括媒资名称、以及媒资类型和/或动词;
57.根据媒资名称从目标知识图谱库中确定候选媒资,候选媒资包括媒资名称所指示的第一媒资,以及与第一媒资存在关联关系的待反馈媒资;
58.从候选媒资中,确定与媒资类型和/或动词匹配的目标媒资,并控制显示器260显示目标媒资对应的搜索结果。
59.上述显示设备200通过识别用户语音中的媒资名称以及媒资类型和/或动词,对用户语音指示可能存在的偏差进行纠正,以准确识别用户意图,避免用户混淆媒资名称所造成的难以得到准确的媒资搜索结果的情况,提升了用户友好度,提升了用户使用体验感。
60.在一些实施例中,目标知识图谱库为预设知识图谱库中的至少一个知识图谱库;预设知识图谱库包括:第一纠错知识图谱库、第二纠错知识图谱库、影音知识图谱库;其中,第一纠错知识图谱库中包括媒资名称的发音相似度大于第一相似度阈值但媒资类型不同的媒资;第二纠错知识图谱中包括媒资名称的发音相似度大于第二相似度阈值相同但媒资内容不同的媒资,第二相似度阈值大于第一相似度阈值;影音知识图谱中包括影视媒资和音乐媒资,影视媒资和音乐媒资存在对应关系。
61.在一些实施例中,目标媒资的数量为多个;
62.控制器250,控制显示器260显示目标媒资对应的搜索结果,被配置为:获取历史搜
索记录,并根据历史搜索记录确定多个目标媒资的第一排序权重;获取多个目标媒资的资源热度参数,并根据多个目标媒资的资源热度参数确定多个目标媒资的第二排序权重;根据第一排序权重和第二排序权重,计算目标排序权重;控制显示器260按照目标排序权重显示目标媒资对应的搜索结果。
63.在一些实施例中,控制器250,从候选媒资中,确定与媒资类型和/或动词匹配的目标媒资,被配置为:确定与媒资类型和/或动词对应的业务参数,以及第一媒资的实际媒资类型对应的业务参数,以计算目标业务参数,目标业务参数是用户语音对应的业务参数;根据目标业务参数从候选媒资中确定目标媒资。
64.在一些实施例中,控制器250,根据目标业务参数从候选媒资中确定目标媒资,被配置为:根据目标业务参数从待反馈媒资中确定第二媒资;若第二媒资的媒资类型与第一媒资的媒资类型相同,则控制显示器260显示第一媒资对应的搜索结果和第二媒资对应的搜索结果;若第二媒资的媒资类型与第一媒资的媒资类型不同,则控制显示器260显示第二媒资对应的搜索结果。
65.在一些实施例中,目标知识图谱库为第二纠错知识图谱库;第二纠错知识图谱中包括媒资名称的发音相似度大于第二相似度阈值但媒资内容不同的媒资;
66.控制器250,确定与媒资类型和/或动词对应的业务参数,以及第一媒资的实际媒资类型对应的业务参数,以计算目标业务参数之前,还被配置为:判断第一媒资与待反馈媒资的媒资类型是否相同;
67.控制器250,确定与媒资类型和/或动词对应的业务参数,以及第一媒资的实际媒资类型对应的业务参数,以计算目标业务参数,被配置为:在第一媒资与待反馈媒资的媒资类型不同的情况下,确定与媒资类型和/或动词对应的业务参数,以及第一媒资的实际媒资类型对应的业务参数,以计算目标业务参数。
68.在一些实施例中,控制器250,识别用户语音,获取用户语音中的关键词之后,根据媒资名称从目标知识图谱库中确定候选媒资之前,还被配置为:判断媒资名称和媒资类型是否对应,和/或,媒资名称和动词是否对应;若媒资名称和媒资类型不对应,和/或,媒资名称和动词不对应,则根据媒资名称确定目标知识图谱库。
69.如图4所示,图4为根据本公开一个或多个实施例的显示设备200中软件配置示意图,如图4所示,将系统分为四层,从上至下分别为应用程序(applications)层(简称“应用层”),应用程序框架(application framework)层(简称“框架层”),安卓运行时(android runtime)和系统库层(简称“系统运行库层”),以及内核层。内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
70.在一些示例中,智能设备的操作系统为android系统为例,如图5所示,图5为本公开实施例提供的一种显示设备的系统架构示意图,显示设备200从逻辑上可以分为应用程序(applications)层(简称“应用层”)21,内核层22和硬件层23。
71.其中,如图5所示,硬件层可包括图3所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用,也可以为第三方应用。如,应用层21包括语音识别应用,语音识别应用可以提供语音交互界面和服务,用于显示设备200与服务器400的连接。
72.内核层22作为硬件层和应用层21之间的软件中间件,用于管理和控制硬件与软件资源。
73.在一些示例中,内核层22包括检测器驱动,检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的,显示设备200中的语音识别应用启动,显示设备200与服务器400建立了通信连接的情况下,检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后,语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将显示设备200发送的语音数据输入至意图识别模型。
74.为清楚说明本公开的实施例,下面结合图6对本公开实施例提供的一种语音识别网络架构进行描述。
75.参见图6,图6为本公开实施例提供的一种语音交互网络架构示意图。图6中,显示设备用于接收输入的信息以及输出对该信息的处理结果。语音识别(automatic speech recognition,asr)模块部署有语音识别服务,用于将音频识别为文本;语义理解(natural language understanding,nlu)模块部署有语义理解服务,用于对文本进行语义解析;对话管理(dialog manager,dm)模块部署有业务指令管理服务,用于提供业务指令;语言生成模块部署有语言生成服务(neural language generation,nlg),用于将指示显示设备执行的指令转化为文本语言;语音合成模块部署有语音合成(text to speech,tts)服务,用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中,图6所示架构中可存在部署有不同业务服务的多个实体服务设备,也可以一个或多个实体服务设备中集合一项或多项功能服务。
76.一些实施例中,下面对基于图6所示架构处理输入显示设备的信息的过程进行举例描述,以输入显示设备的信息为通过语音输入的语音指令为例:
77.[语音识别]显示设备可在接收到通过语音输入的语音指令后,对语音指令的音频进行降噪处理和特征提取,这里的降噪处理可包括去除回声和环境噪声等步骤。
[0078]
[语义理解]利用声学模型和语言模型,对识别出的候选文本和相关联的上下文信息进行自然语言理解,将文本解析为结构化的、机器可读的信息,业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分,语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图,
[0079]
[对话管理]语义理解模块根据对语音指令的文本的语义解析结果,向相应的业务管理模块下发执行指令以执行语音指令对应的操作,以及完成用户请求此操作,并对语音指令对应的操作的执行结果进行反馈。
[0080]
为了更加详细的说明本方案,以下将以示例性的方式结合图6进行说明,可以理解的是,图7中所涉及的步骤在实际实现时可以包括更多的步骤,或者更少的步骤,并且这些步骤之间的顺序也可以不同,以能够实现本公开实施例中提供的语音搜索方法为准。
[0081]
如图7所示,图7为本公开实施例中提供一种语音搜索方法的流程示意图,该方法包括下述步骤s701~s704:
[0082]
s701、获取用户语音。
[0083]
一些实施例中,显示设备通过用户输入接口获取用户语音,也可以通过与用户输入接口外接的语音设备获取用户输入的用户语音。
[0084]
一些实施例中,在显示设备的用户输入接口获取到用户语音之后,对用户语音进行预处理,预处理包括但不限于以下至少一项:去噪、人声提取,本公开对此不做限制。
[0085]
一些实施例中,用户通过控制装置或智能设备打开显示设备的用户输入接口,显示设备显示语音搜索的用户界面,以提醒用户可以开始说话,如图8所示,图8为本公开实施例提供的语音搜索的用户界面示意图一,图中示出麦克风图标,以提醒用户可以开始跟显示设备说话。图8仅为示例性图示,本公开对语音搜索的用户界面并不具体限定。
[0086]
s702、识别用户语音,获取用户语音中的关键词。
[0087]
其中,关键词包括媒资名称、媒资类型和/或动词;可以理解的是,关键词可以包括媒资名称和媒资类型,或者包括媒资名称和动词,又或者包括媒资名称、媒资类型和动词。
[0088]
示例性的,媒资名称可以是“向天再借五百年”、“香蜜沉沉烬如霜”等,媒资类型可以是“电视剧”、“歌曲”、“电影”、“综艺”等,动词可以是“播放”、“看”、“听”、“介绍”。
[0089]
一些实施例中,在识别用户语音的过程中,首先将用户语音转化为文本字符,并对分本字符进行分词处理,以得到关键词。
[0090]
以表1为例,表1中示出用户语音以及其中包括的关键词。
[0091]
表1
[0092][0093]
一些实施例中,显示设备可以通过通信模块与服务器相连接,将获取到的用户语音发送给服务器,以由服务器对该用户语音进行识别,显示设备接收服务器对该用户语音的识别结果。当然,对用户语音的识别可由显示设备执行,如上述步骤s702以及其中包括的任一实施方式,也可以只向服务器发送部分需要服务器处理的语音信息,本公开对此不作限定。
[0094]
上述实施例,通过对用户语音进行语音识别,获取得到用户语音中包括的媒资名称以及媒资类型和/或动词,以根据上述关键词实现准确理解用户语音所包含的真正意图。
[0095]
s703、根据媒资名称从目标知识图谱库中确定候选媒资。
[0096]
其中,目标知识图谱库为预设知识图谱库中的至少一个知识图谱库。预设知识图谱库包括:第一纠错知识图谱库、第二纠错知识图谱库和影音知识图谱库。
[0097]
第一纠错知识图谱库中包括媒资名称的发音相似度大于第一相似度阈值但媒资
类型不同的媒资。其中,第一相似度阈值是预先设置的用于区分媒资名称的发音是否相似的相似度阈值,通常情况下可设置为60%,发音相似是指前后鼻音相近、声调相近等情况,例如,电视剧《情深缘起》和歌曲《情深缘浅》属于同一个第一纠错知识图谱库。
[0098]
第二纠错知识图谱库中包括媒资名称的发音相似度大于第二预设相似度阈值但媒资内容不同的媒资。其中,第二相似度阈值是预先设置的用于区分媒资名称的发音是否相同的相似度阈值,第二相似度阈值大于第一相似度阈值,通常情况下设置为100%,例如《声生不息》和《生生不息》,前者为综艺,后者为音乐。
[0099]
影音知识图谱库中包括影视媒资和音乐媒资,并且影视媒资和音乐媒资存在对应关系,例如影视媒资《康熙王朝》和其对应的音乐媒资《向天再借五百年》,影视媒资《香蜜沉沉烬如霜》和其对应的音乐媒资《左手指月》、《不染》等。需要强调的是,影视媒资包括但不限于电视剧、电影、综艺、纪录片、歌剧,本公开对此不作具体限定。
[0100]
上述预设知识图谱库中各知识图谱库以各个媒资为节点,媒资之间的关联关系为边。
[0101]
示例性的,如图9示,图9为本公开实施例提供的影音知识图谱库的示意图,图中的节点包括影视媒资:《康熙王朝》、《香蜜沉沉烬如霜》,以及音乐媒资:《向天再借五百年》、《左手指月》、《不染》,其中《康熙王朝》和《向天再借五百年》存在对应关系,以《康熙王朝》和《向天再借五百年》为节点,二者的对应关系为边,此处节点之间的边的长度与对应关系的强弱有关,具体参考现有技术,本公开在此不做赘述;《香蜜沉沉烬如霜》和《左手指月》、《不染》存在对应关系,分别以《香蜜沉沉烬如霜》、《左手指月》、《不染》为节点,三者之间的对应关系为边。
[0102]
候选媒资中包括媒资名称所指示的第一媒资,以及与第一媒资存在关联关系的待反馈媒资。
[0103]
一些实施例中,在识别用户语音获取其中包括的媒资名称之后,首先确定媒资名称对应的量化flag值,在flag值为0的情况下,表示媒资名称所指示的第一媒资在媒资类型、媒资内容方面较为单一,不存在能够与该第一媒资混淆的其他媒资,则本公开实施例提供一种实施方式不调用预设知识图谱库,直接使用主词典内词库标注及文本逻辑推理得到媒资名称所指示的第一媒资,显示设备控制显示器显示该第一媒资的搜索结果。其中,第一媒资的搜索结果包括但不限于:第一媒资的标签、第一媒资的详情信息、第一媒资的媒资内容。
[0104]
示例性的,确定用户语音中媒资名称对应的flag值为0,直接向用户反馈该媒资名称所指示的第一媒资的搜索结果,显示器显示第一媒资的海报和集数,海报是第一媒资详情页面的图片链接。可以理解的是,用户通过点击第一媒资的海报跳转至第一媒资详情页面,以观看第一媒资的详细内容。
[0105]
在flag值为1的情况下,表示该媒资名称存在与之发音相似的其他媒资,或者,该媒资名称存在与之对应的其他媒资,本公开实施例提供一种实施方式,在媒资名称对应的flag值为1的情况下,确定目标知识图谱库为第一纠错知识图谱库,或者目标知识图谱库为影音知识图谱库,又或者目标知识图谱库为第一纠错知识图谱库和影音知识图谱库。
[0106]
进一步的,将目标知识图谱库中该媒资名称所指示的第一媒资,以及与第一媒资存在关联关系的待反馈媒资作为候选媒资,可选的,将第一纠错知识图谱库中该媒资名称
所指示的第一媒资,以及与第一媒资的发音相似度大于第一相似度阈值,但媒资类型不同的待反馈媒资作为候选媒资。或者,候选媒资中包括:影音知识图谱库中该媒资名称指示的第一媒资,以及待反馈媒资,其中,若该第一媒资为影视媒资,则待反馈媒资为与第一媒资对应的音乐媒资;若第一媒资为音乐媒资,则待反馈媒资为与第一媒资对应的影视媒资。又或者,候选媒资中包括:第一纠错知识图谱库中该媒资名称所指示的第一媒资,以及与第一媒资的发音相似度大于第一相似度阈值,但媒资类型不同的待反馈媒资,以及影音知识图谱库中该媒资名称指示的第一媒资和与该第一媒资具有对应关系的待反馈媒资,其中,若该第一媒资为影视媒资,则待反馈媒资为与第一媒资对应的音乐媒资;若第一媒资为音乐媒资,则待反馈媒资为与第一媒资对应的影视媒资。
[0107]
在flag值为2的情况下,表示该媒资名称存在与之发音相同的其他媒资,本公开实施例提供一种实施方式,在flag值为2的情况下,确定目标知识图谱库为第二纠错知识图谱库,将第二纠错知识图谱中该媒资名称所指示的第一媒资,以及与该媒资名称的发音相似度大于第二相似度阈值但媒资内容不同的待反馈媒资作为候选媒资。
[0108]
一些实施例中,在识别用户语音获取其中包括的关键词之后,在关键词中包括媒资名称和媒资类型的情况下,判断媒资名称和媒资类型是否对应;或者在关键词中包括媒资名称和动词的情况下,判断媒资名称和动词是否对应;又或者,在关键词中包括媒资名称、媒资类型和动词的情况下,判断媒资名称与媒资类型以及动词是否对应。
[0109]
若媒资名称和媒资类型不对应,则表示用户语音所描述的内容与其实际期望搜索的媒资存在偏差,本公开实施例提供一种实施方式,在媒资名称和媒资类型不对应的情况下,根据媒资名称从预设知识图谱库中确定目标知识图谱库,以从目标知识图谱库中得到候选媒资。
[0110]
若媒资名称和动词不对应,或者,媒资名称与媒资类型以及动词不对应,与媒资名称和媒资类型不对应的实施方式相同,本公开在此不作赘述。
[0111]
示例性的,用户语音为“我要看电视剧《向天再借五百年》”,获取到媒资名称为“向天再借五百年”,媒资类型为“电视剧”,动词为“看”,但是《向天再借五百年》是一首歌的名字,媒资类型为“歌曲”,则表示用户语音中媒资名称与媒资类型不对应,用户语音描述的内容与其期望得到的媒资不相符,进而根据媒资名称从预设知识图谱库中查询影音知识图谱库,以从影音知识图谱库中获取候选媒资。
[0112]
s704、从候选媒资中,确定与媒资类型和/或动词匹配的目标媒资,并控制显示器显示目标媒资对应的搜索结果。
[0113]
一些实施例中,预先设置媒资类型和动词的业务参数。其中,业务参数包括但不限于:视频业务参数、音乐业务参数、百科业务参数,本公开对此不做具体限定。
[0114]
如表2所示,表2中示出部分预先设置的媒资类型对应的业务参数和动词对应的业务参数。
[0115]
表2
[0116][0117]
需要说明的是,表2中并未示出媒资名称对应的各个业务参数的值,根据媒资名称进行搜索能够得出媒资名称所指示的第一媒资的实际媒资类型,例如媒资名称“向天再借五百年”的实际媒资类型是歌曲。根据媒资名称确定第一媒资的实际媒资类型具体可参考现有技术,本公开在此不作赘述。
[0118]
一些实施例中,根据预先设置的媒资类型和动词的业务参数,确定用户语音中包括的媒资类型(下述将描述为“第一媒资类型”,与第一媒资的实际媒资类型相区别)对应的业务参数和/或动词对应的业务参数,以及第一媒资的实际媒资类型对应的业务参数,进而根据第一媒资类型对应的业务参数和/或动词对应的业务参数,以及实际媒资类型对应的业务参数,计算得到目标业务参数,目标业务参数中包括至少一个类型业务参数。
[0119]
示例性的,用户语音为“我要看电视剧《向天再借五百年》”,其中第一媒资类型“电视剧”对应的视频业务参数为0.5,动词“看”对应的视频业务参数为0.5,《向天再借五百年》的实际媒资类型歌曲对应的视频业务参数为0,而其对应的音乐业务参数为0.5,进而得到目标业务参数包括视频业务参数为1,音乐业务参数为0.5,表示用户期望观看视频,而语音中包括的媒资名称指示用户期望听歌,比较目标业务参数中包括的视频业务参数和音乐业务参数之后,确定用户的真正意图是观看视频,表示用户语音中包括的媒资名称与用户实际期望的媒资不匹配。
[0120]
进一步的,在计算得到目标业务参数之后,根据目标业务参数从候选媒资中确定目标媒资,可选的,在目标业务参数中包括至少一个业务参数的情况下,可根据其中较大的业务参数从候选媒资中确定目标媒资。目标媒资包括从待反馈媒资中确定得到的第二媒资,或者还包括第一媒资。
[0121]
本公开实施例提供一种实施方式,根据目标业务参数,从待反馈媒资中确定第二媒资。可以理解的是,目标业务参数包括至少一个业务参数,例如目标业务参数包括视频业务参数和音乐业务参数。根据这至少一个目标业务参数对待反馈媒资进行筛选,将目标业务类型匹配的待反馈媒资作为第二媒资,其中目标业务类型是目标业务参数对应的类型,例如视频业务、音乐业务。进一步的,比较第二媒资的媒资类型和第一媒资的媒资类型是否
相同,若相同,则表示第一媒资和第二媒资均为目标媒资,控制显示第一媒资对应的搜索结果以及第二媒资对应的搜索结果。若不同,则显示第二媒资对应的搜索结果,表示第二媒资为目标媒资,是用户真正期望搜索的。
[0122]
沿用上例,计算得到目标业务参数之后,确定用户语音中包括的媒资名称与用户实际期望搜索的媒资不匹配,存在偏差,从步骤s603得到的候选媒资中确定与《向天再借五百年》存在关联关系的待反馈媒资:《康熙王朝》作为第二媒资,由于《康熙王朝》的媒资类型为电视剧,《向天再借五百年》的媒资类型为歌曲,二者的媒资类型不同,则将《康熙王朝》作为目标媒资反馈给用户,显示《康熙王朝》对应的搜索结果。
[0123]
一些实施例中,在步骤703中根据媒资名称确定目标知识图谱库为第二纠错知识图谱库,第二纠错知识图谱库中包括媒资名称的发音相似度大于第二相似度阈值但媒资内容不同的媒资,可选的,第二纠错知识图谱库中包括发音相同但媒资内容不同的媒资,例如电视剧《骨语》和百科词条“谷雨”,发音相同均为“guyu”,但二者的媒资内容不同。本公开实施例提供一种实施方式,在确定与媒资类型和/或动词对应的业务参数之前,判断第一媒资与待反馈媒资的媒资类型是否相同,若相同,则将待反馈媒资和第一媒资作为目标媒资反馈给用户;若不同,则表示用户语音中包括的媒资类型可能存在偏差,需要进一步确定用户语音中包括的媒资类型和/或动词对应的业务参数,以及第一媒资的实际媒资类型对应的业务参数,继而根据上述业务参数计算目标业务参数,以从发音相同但媒资内容不同的待反馈媒资中确定媒资类型相同的作为第二媒资,以满足用户的实际需求。
[0124]
一些实施例中,在从候选媒资中,确定与媒资类型和/或动词匹配的目标媒资之后,获取历史搜索记录,并根据历史搜索记录确定多个目标媒资的第一排序权重;所述历史搜索记录可以与用户信息相关联,在步骤s702识别用户语音之后,确定用户语音对应的用户信息,可以理解的是,用户语音中包含的声纹信息使得用户信息具有唯一性,能够根据用户语音确定唯一的用户信息,将用户信息与历史搜索记录绑定,有利于分析用户偏好。
[0125]
在显示目标媒资对应的搜索结果的过程中,获取用户信息对应的历史搜索记录,并根据历史搜索记录确定目标媒资的第一排序权重。获取多个目标媒资的资源热度参数,并根据多个目标媒资的资源热度参数确定多个目标媒资的第二排序权重;资源热度参数用于表示目标媒资的热门程度,由服务器根据舆情数据计算处理得到,其中舆情数据包括但不限于播放次数、点赞次数、评论次数、转发次数、分享次数等,本公开对此不作限定。可以理解的是,目标媒资的播放次数越大,其资源热度参数越大,相应的,第二排序权重越大。
[0126]
进一步的,根据第一排序权重和第二排序权重,计算目标排序权重。可选的,目标排序权重为第一排序权重和第二排序权重的平均值。控制显示器按照目标排序权重显示目标媒资对应的搜索结果,以综合用户偏好和媒资热度对目标媒资的搜索结果进行排序。
[0127]
示例性的,如图10所示,图10为本公开实施例提供的语音搜索的用户界面示意图二,在确定目标媒资包括《不染》和《左手指月》之后,获取历史搜索记录,历史搜索记录中《不染》的播放次数超过《左手指月》,《不染》对应的第一排序权重大于《左手指月》对应的第一排序权重,并且根据资源热度参数确定《不染》对应的第二排序权重大于《左手指月》对应的第二排序权重,计算得到《不染》对应的目标排序权重大于《左手指月》对应的目标排序权重,按照目标排序权重的大小顺序,参考图10所示,《不染》对应的搜索结果11显示在《左手指月》对应的搜索结果12的上方。
[0128]
综上,本公开实施例提供一种语音搜索方法,该方法对获取到的用户语音进行识别,得到其中的关键词,包括媒资名称、以及媒资类型和/或动词,进而先根据媒资名称从目标知识图谱库中确定候选媒资,候选媒资中该媒资名称所指示的第一媒资,以及与第一媒资存在关联关系的待反馈媒资,然后从候选媒资中确定与媒资类型和/或动词匹配的目标媒资,并控制显示器显示目标媒资对应的搜索结果。实现将用户语音中上下文信息相联系,准确理解用户的真实意图,使得在用户语音所指示搜索的媒资名称与媒资类型和/或动词不匹配的情况下,仍能准确向用户反馈匹配的媒资搜索结果,提升用户的使用体验感。
[0129]
如图11所示,图11为本公开实施例提供的一种显示设备的结构示意图,该显示设备包括处理器1101、存储器1102及存储在所述存储器1102上并可在所述处理器1101上运行的计算机程序,所述计算机程序被所述处理器1101执行时实现上述方法实施例中的语音搜索方法的各个过程。且能达到相同的技术效果,为避免重复,这里不再赘述。
[0130]
本公开实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现上述语音搜索方法执行的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0131]
其中,该计算机可读存储介质可以为只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
[0132]
本公开提供一种计算机程序产品,该计算机程序产品中包括计算机程序,当该计算机程序在计算机上运行时,使得所述计算机实现上述的语音搜索方法。
[0133]
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

技术特征:


1.一种显示设备,其特征在于,包括:用户输入接口,被配置为:获取用户语音;控制器,被配置为:识别所述用户语音,获取所述用户语音中的关键词,所述关键词包括媒资名称、以及媒资类型和/或动词;根据所述媒资名称从目标知识图谱库中确定候选媒资,所述候选媒资包括所述媒资名称所指示的第一媒资,以及与所述第一媒资存在关联关系的待反馈媒资;从所述候选媒资中,确定与所述媒资类型和/或所述动词匹配的目标媒资,并控制显示器显示所述目标媒资对应的搜索结果。2.根据权利要求1所述的显示设备,其特征在于,所述目标知识图谱库为预设知识图谱库中的至少一个知识图谱库;所述预设知识图谱库包括:第一纠错知识图谱库、第二纠错知识图谱库、影音知识图谱库;其中,所述第一纠错知识图谱库中包括媒资名称的发音相似度大于第一相似度阈值但媒资类型不同的媒资;所述第二纠错知识图谱中包括媒资名称的发音相似度大于第二相似度阈值相同但媒资内容不同的媒资,所述第二相似度阈值大于所述第一相似度阈值;所述影音知识图谱中包括影视媒资和音乐媒资,所述影视媒资和所述音乐媒资存在对应关系。3.根据权利要求1所述的显示设备,其特征在于,所述目标媒资的数量为多个;所述控制器,控制显示器显示所述目标媒资对应的搜索结果,被配置为:获取历史搜索记录,并根据所述历史搜索记录确定多个所述目标媒资的第一排序权重;获取多个所述目标媒资的资源热度参数,并根据多个所述目标媒资的资源热度参数确定多个所述目标媒资的第二排序权重;根据所述第一排序权重和所述第二排序权重,计算目标排序权重;控制所述显示器按照所述目标排序权重显示所述目标媒资对应的搜索结果。4.根据权利要求1所述的显示设备,其特征在于,所述控制器,从所述候选媒资中,确定与所述媒资类型和/或所述动词匹配的目标媒资,被配置为:确定与所述媒资类型和/或所述动词对应的业务参数,以及所述第一媒资的实际媒资类型对应的业务参数,以计算目标业务参数,所述目标业务参数是所述用户语音对应的业务参数;根据所述目标业务参数从所述候选媒资中确定所述目标媒资。5.根据权利要求4所述的显示设备,其特征在于,所述控制器,根据所述目标业务参数从所述候选媒资中确定所述目标媒资,被配置为:根据所述目标业务参数从待反馈媒资中确定第二媒资;若所述第二媒资的媒资类型与所述第一媒资的媒资类型相同,则控制所述显示器显示所述第一媒资对应的搜索结果和所述第二媒资对应的搜索结果;若所述第二媒资的媒资类型与所述第一媒资的媒资类型不同,则控制所述显示器显示第二媒资对应的搜索结果。6.根据权利要求4所述的显示设备,其特征在于,所述目标知识图谱库为第二纠错知识
图谱库;所述第二纠错知识图谱中包括媒资名称的发音相似度大于第二相似度阈值但媒资内容不同的媒资;所述控制器,确定与所述媒资类型和/或所述动词对应的业务参数,以及所述第一媒资的实际媒资类型对应的业务参数,以计算目标业务参数之前,还被配置为:判断所述第一媒资与所述待反馈媒资的媒资类型是否相同;所述控制器,确定与所述媒资类型和/或所述动词对应的业务参数,以及所述第一媒资的实际媒资类型对应的业务参数,以计算目标业务参数,被配置为:在所述第一媒资与所述待反馈媒资的媒资类型不同的情况下,确定与所述媒资类型和/或所述动词对应的业务参数,以及所述第一媒资的实际媒资类型对应的业务参数,以计算目标业务参数。7.根据权利要求1所述的显示设备,其特征在于,所述控制器,识别所述用户语音,获取所述用户语音中的关键词之后,根据所述媒资名称从目标知识图谱库中确定候选媒资之前,还被配置为:判断所述媒资名称和所述媒资类型是否对应,和/或,所述媒资名称和所述动词是否对应;若所述媒资名称和所述媒资类型不对应,和/或,所述媒资名称和所述动词不对应,则根据所述媒资名称确定所述目标知识图谱库。8.一种语音搜索方法,其特征在于,包括:获取用户语音;识别所述用户语音,获取所述用户语音中的关键词,所述关键词包括媒资名称、以及媒资类型和/或动词;根据所述媒资名称从目标知识图谱库中确定候选媒资,所述候选媒资包括所述媒资名称所指示的第一媒资,以及与所述第一媒资存在关联关系的待反馈媒资;从所述候选媒资中,确定与所述媒资类型和/或所述动词匹配的目标媒资,并控制显示器显示所述目标媒资对应的搜索结果。9.根据权利要求8所述的方法,其特征在于,所述目标知识图谱库为预设知识图谱库中的至少一个知识图谱库;所述预设知识图谱库包括:第一纠错知识图谱库、第二纠错知识图谱库、影音知识图谱库;其中,所述第一纠错知识图谱库中包括媒资名称的发音相似度大于第一相似度阈值但媒资类型不同的媒资;所述第二纠错知识图谱中包括媒资名称的发音相似度大于第二相似度阈值相同但媒资内容不同的媒资,所述第二相似度阈值大于所述第一相似度阈值;所述影音知识图谱中包括影视媒资和音乐媒资,所述影视媒资和所述音乐媒资存在对应关系。10.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求8至9中任一项所述的语音搜索方法。

技术总结


本公开涉及一种显示设备、语音搜索方法及存储介质,涉及语音交互技术领域。显示设备包括:用户输入接口,被配置为:获取用户语音;控制器,被配置为:识别用户语音,获取用户语音中的关键词,关键词包括媒资名称、以及媒资类型和/或动词;根据媒资名称从目标知识图谱库中确定候选媒资,候选媒资包括媒资名称所指示的第一媒资,以及与第一媒资存在关联关系的待反馈媒资;从候选媒资中,确定与媒资类型和/或动词匹配的目标媒资,并控制显示器显示目标媒资对应的搜索结果。本公开实施例用于解决现有语音搜索方法难以准确识别用户意图的问题。音搜索方法难以准确识别用户意图的问题。音搜索方法难以准确识别用户意图的问题。


技术研发人员:

刘蔚 王娜 马宏

受保护的技术使用者:

海信视像科技股份有限公司

技术研发日:

2022.11.15

技术公布日:

2023/3/27

本文发布于:2024-09-24 22:32:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/82466.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   用户   语音   图谱
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议