查询改写方法及其装置、设备、介质与流程



1.本技术涉及电商技术领域,尤其涉及一种查询改写方法及其相应的装置、计算机设备、计算机可读存储介质。


背景技术:



2.电商搜索场景下,买家用户可以输入任意查询文本,由搜索引擎根据该查询文本查询出相匹配的商品文本,提供该商品文本对应的商品作为搜索结果。然而,买家用户输入的查询文本通常比较随意,不能够直接体现出买家用户的实际意图,往往出现查询文本与商品文本之间存在大量表达不一致的情况,导致召回的商品文本对应的商品过少,甚至为0,这样的搜索结果无法符合买家用户的需求,便会浪费这类买家用户的搜索。
3.传统技术中,针对召回的商品过少,甚至为0的场景,通常采用重定向商品查询操作,即替换当前查询的查询文本为替换文本执行商品查询,然而无法把握替换文本与查询文本之间的关联性,导致以替换文本执行商品查询,召回的商品无法符合买家用户的需求。
4.有鉴于此,本技术人长期从事相关领域的研究,为解决电商领域业内难题,做出相应的探索。


技术实现要素:



5.本技术的首要目的在于解决上述问题至少之一而提供一种查询改写方法及其相应的装置、计算机设备、计算机可读存储介质。
6.为满足本技术的各个目的,本技术采用如下技术方案:
7.适应本技术的目的之一而提供的一种查询改写方法,包括如下步骤:
8.获取用户输入的查询文本;
9.采用文本分类模型从预设的导购数据库中确定与所述查询文本相匹配的问题文本,获得所述问题文本及其对应的答复文本;
10.确定所述问题文本及其对应的答复文本中的关键词,所述关键词为商品特征的描述信息;
11.构造所述关键词作为所述查询文本的替换文本,以该替换文本执行商品查询,召回与所述替换文本相匹配的商品列表推送给用户。
12.进一步的实施例中,获取用户输入的查询文本之前,还包括如下步骤:
13.采用预设的导购数据库中的问题文本,替换所述问题文本中部分词元为遮盖标识构造出训练样本,训练编解码网络至收敛状态,使其适于预测出遮盖标识相对应的被替换的词元;
14.以相同的两个所述编解码网络中的编码器构造双塔模型作为所述文本分类模型,采用导购数据库中两个不同的问题文本构成句对,相应设定其监督标签,训练所述文本分类模型至收敛状态,使其适于确定句对中的两个文本描述的相似度,所述双塔模型中的两个编码器权重共享,所述监督标签表征所述两个问题文本描述是否相似。
15.进一步的实施例中,采用文本分类模型从预设的导购数据库中确定与所述查询文本相匹配的问题文本的步骤中,包括如下步骤:
16.以预设的导购数据库中的问题文本与所述查询文本构成句对;
17.采用文本分类模型提取所述句对中两个文本相对应的深层语义信息,获得相应的编码表示;
18.对句对中两个文本相对应的编码表示进行平均池化,计算出两个池化结果之间的相似度;
19.筛选出相似度满足预设阈值的句对,获取其中的问题文本。
20.进一步的实施例中,确定所述问题文本及其对应的答复文本中的关键词的步骤中,包括如下步骤:
21.匹配预设的商品词表,确定所述问题文本及其对应的答复文本中提及的商品词;
22.统计商品词的词频,筛选出满足预设阈值的词频对应的商品词作为关键词。
23.进一步的实施例中,以相同的两个所述编解码网络中的编码器构造双塔模型作为所述文本分类模型,采用导购数据库中两个不同的问题文本构成句对,相应设定其监督标签,训练所述文本分类模型至收敛状态的步骤中,包括如下步骤:
24.从预备的训练集中获取单个训练样本及其监督标签,所述训练样本包括以导购数据库中的两个描述相似的问题文本构成的句对,所述监督标签表征所述训练样本的句对中的两个问题文本描述相似;
25.将所述训练样本输入至文本分类模型提取句对中两个问题文本相对应的深层语义信息,获得相对应的编码表示;
26.对训练样本中两个文本相对应的编码表示进行平均池化,计算出两个池化结果之间的相似度;
27.采用所述训练样本的监督标签,确定所述相似度的损失值,在所述损失值未达到预设阈值时,对文本分类模型实施权重更新,并继续调用其他训练样本实施迭代训练直至模型收敛。
28.进一步的实施例中,获取用户输入的查询文本之前,还包括如下步骤:
29.获取商品数据库中多个商品的文本信息,所述文本信息为商品的描述信息;
30.将各个所述文本信息进行分词,获得相对应的分词词元;
31.统计各个分词词元对应的词频,筛选出满足预设阈值的词频对应的分词词元作为商品词,构造商品词表。
32.进一步的实施例中,获取用户输入的查询文本之前,还包括:获取电商导购场景下买家用户与卖家用户的聊天数据,确定其中的问题文本及其对应的答复文本,构造导购数据库。
33.另一方面,适应本技术的目的之一而提供的一种查询改写装置,包括文本获取模块、文本匹配模块、关键词确定模块以及列表推送模块,其中,文本获取模块,用于获取用户输入的查询文本;文本匹配模块,用于采用文本分类模型从预设的导购数据库中确定与所述查询文本相匹配的问题文本,获得所述问题文本及其对应的答复文本;关键词确定模块,用于确定所述问题文本及其对应的答复文本中的关键词,所述关键词为商品特征的描述信息;列表推送模块,用于构造所述关键词作为所述查询文本的替换文本,以该替换文本执行
商品查询,召回与所述替换文本相匹配的商品列表推送给用户。
34.进一步的实施例中,所述文本获取模块之前,还包括:编解码网络训练模块,用于采用预设的导购数据库中的问题文本,替换所述问题文本中部分词元为遮盖标识构造出训练样本,训练编解码网络至收敛状态,使其适于预测出遮盖标识相对应的被替换的词元;文本分类模型训练模块,用于以相同的两个所述编解码网络中的编码器构造双塔模型作为所述文本分类模型,采用导购数据库中两个不同的问题文本构成句对,相应设定其监督标签,训练所述文本分类模型至收敛状态,使其适于确定句对中的两个文本描述的相似度,所述双塔模型中的两个编码器权重共享,所述监督标签表征所述两个问题文本描述是否相似。
35.进一步的实施例中,所述文本匹配模块,包括:句对构成子模块,用于以预设的导购数据库中的问题文本与所述查询文本构成句对;第一编码表示子模块,用于采用文本分类模型提取所述句对中两个文本相对应的深层语义信息,获得相应的编码表示;第一相似度计算子模块,用于对句对中两个文本相对应的编码表示进行平均池化,计算出两个池化结果之间的相似度;句对筛选子模块,用于筛选出相似度满足预设阈值的句对,获取其中的问题文本。
36.进一步的实施例中,所述关键词确定模块,包括:词表匹配子模块,用于匹配预设的商品词表,确定所述问题文本及其对应的答复文本中提及的商品词;关键词筛选子模块,用于统计商品词的词频,筛选出满足预设阈值的词频对应的商品词作为关键词。
37.进一步的实施例中,所述文本分类模型训练模块,包括:样本获取子模块,用于从预备的训练集中获取单个训练样本及其监督标签,所述训练样本包括以导购数据库中的两个描述相似的问题文本构成的句对,所述监督标签表征所述训练样本的句对中的两个问题文本描述相似;第二编码表示子模块,用于将所述训练样本输入至文本分类模型提取句对中两个问题文本相对应的深层语义信息,获得相对应的编码表示;第二相似度计算子模块,用于对训练样本中两个文本相对应的编码表示进行平均池化,计算出两个池化结果之间的相似度;迭代训练子模块,用于采用所述训练样本的监督标签,确定所述相似度的损失值,在所述损失值未达到预设阈值时,对文本分类模型实施权重更新,并继续调用其他训练样本实施迭代训练直至模型收敛。
38.进一步的实施例中,所述文本获取模块之前,还包括:信息获取模块,用于获取商品数据库中多个商品的文本信息,所述文本信息为商品的描述信息;文本分词模块,用于将各个所述文本信息进行分词,获得相对应的分词词元;词表构造模块,用于统计各个分词词元对应的词频,筛选出满足预设阈值的词频对应的分词词元作为商品词,构造商品词表。
39.进一步的实施例中,所述文本获取模块之前,还包括:数据库构造模块,用于获取电商导购场景下买家用户与卖家用户的聊天数据,确定其中的问题文本及其对应的答复文本,构造导购数据库。
40.又一方面,适应本技术的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的查询改写方法的步骤。
41.又一方面,适应本技术的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的查询改写方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
42.本技术的技术方案存在多方面优势,包括但不限于如下各方面:
43.本技术采用文本分类模型,从预设的导购数据库中确定与用户输入的查询文本相匹配的问题文本,获得所述问题文本及其对应的答复文本,确定其中描述商品特征的关键词,以所述关键词构造出替换文本,替换所述查询文本执行商品查询,召回与该替换文本相匹配的商品列表推送给用户。可以理解,电商搜索场景下根据用户输入的查询文本查询出相应的商品,与电商导购场景下具有导购性质的问题文本及其对应的答复文本,所述两个场景都是根据用户的描述,确定出相应的商品,因此,所述与查询文本相匹配的问题文本,该问题文本相当于对查询文本的换一种描述,基于此,该问题文本及其相对应的答复文本中描述商品特征的关键词,便可一定程度上准确地表示所述查询文本表达的购买意图,故而所述以该关键词构造出的替换文本,便能替换所述查询文本执行商品查询,有效解决召回的商品过少,甚至为0的场景。
附图说明
44.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
45.图1为本技术的查询改写方法的典型实施例的流程示意图;
46.图2为本技术的实施例中文本分类模型的模型结构的示意图;
47.图3为本技术的实施例中文本分类模型的构成及训练的流程示意图;
48.图4为本技术的实施例中采用文本分类模型确定与查询文本相匹配的问题文本的流程示意图;
49.图5为本技术的实施例中确定问题文本及其对应的答复文本中的关键词的流程示意图;
50.图6为本技术的实施例中文本分类模型的训练过程的示意图;
51.图7为本技术的实施例中构建商品词表的流程示意图;
52.图8为本技术的查询改写装置的原理框图;
53.图9为本技术所采用的一种计算机设备的结构示意图。
具体实施方式
54.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
55.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
56.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术
语和科学术语),具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
57.本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personal communications service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personal digital assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobile internet device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
58.本技术所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
59.需要指出的是,本技术所称的“服务器”这一概念,同理也可扩展到适用于服务器机的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机的。本领域技术人员应当理解这一变通,而不应以此约束本技术的网络部署方式的实施方式。
60.本技术的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
61.本技术中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
62.本技术所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本技术的技术方案所调用即可。
63.本领域技术人员对此应当知晓:本技术的各种方法,虽然基于相同的概念而进行
描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本技术所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
64.本技术即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
65.本技术的一种查询改写方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如,本技术的示例性应用场景中,可以在电商平台的服务器中部署实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
66.请参阅图1,本技术的查询改写方法,在其典型实施例中,包括如下步骤:
67.步骤s1100、获取用户输入的查询文本;
68.示例性的电商场景下,跨境电商平台提供独立站服务,商品租借该跨境电商平台的独立站点,部署线上店铺,在线上店铺上架商品信息,供平台上的买家用户选购其所需的商品。为便于买家用户查询线上店铺的商品,跨境电商平台也为线上店铺配置商品搜索服务,买家用户可以通过线上店铺提供的商品搜索服务,输入查询文本,将其提交给商品搜索服务,以便在线上店铺查询获取与该查询文本相匹配的商品。
69.当买家用户输入查询文本后,页面程序将该查询文本封装成商品搜索请求,提交给所述商品搜索服务。提供商品搜索服务的独立站点服务器接收该商品搜索请求后,对其进行解析,由此获得其中的查询文本。
70.一个据此变通的实施例中,可以在买家用户的终端设备的页面程序将所述查询文本封装之前,或者服务器对所述商品搜索请求解析出查询文本之后,对所述查询文本做文本预处理,使其得以被清洗,过滤当中的无效字符,便于后续商品搜索,所述的文本预处理,可以包括去除停用词、去除空格等不改变原本意思表达的常规操作。
71.进一步,本技术针对解决的电商搜索场景为以用户输入的查询文本,所得的搜索结果过少,甚至为0。因此,服务器获得所述查询文本后,驱动在该服务器内预先搭建的搜索引擎,以该查询文本进行字符匹配搜索,获得相匹配的商品文本对应的商品作为搜索结果,确定该搜索结果少于预设阈值,甚至为0时,执行后续步骤的技术实现。所述预设阈值表示搜索结果过少,无法符合用户的实际需求,例如一、两个,本领域技术人员可按此处揭示灵活变通设置该预设阈值。所述字符匹配可为精准匹配和/或模糊匹配,所述搜索引擎可选用elasticsearch,其是位于elastic stack核心的分布式搜索和分析引擎。
72.步骤s1200、采用文本分类模型从预设的导购数据库中确定与所述查询文本相匹配的问题文本,获得所述问题文本及其对应的答复文本;
73.一般而言,跨境电商平台为各个独立站点均设立聊天窗口,各个独立站点均被分配各自的程序入口,以便于各个独立站点部署的线上店铺与买家用户进行聊天。买家用户可通过所述程序入口,到达相应的线上店铺的聊天窗口,与该线上店铺的卖家用户进行聊天,譬如,在常见的电商导购场景下,买家用户可输入阐述自身需求的文本,发送至聊天窗口。卖家用户查阅后,若是据此能够直接确定该用户的需求,便可推送店铺内相应的商品在
聊天窗口作为答复;若是不能够直接确定该用户的需求,便可进一步根据店铺的商品的商品特征例如商品属性、商品品类、商品品牌、商品名称等等,发送包含所述商品特征的描述信息的文本至聊天窗口作为答复,买家用户查阅后,便可根据确定该答复的文本所描述的商品特征是否为自身所需,输入相应的文本发送至聊天窗口,如此通过两者之间的聊天,卖家用户可以不断向买家用户提供包含商品特征的描述信息的文本,过程中根据买家用户的输入的文本,确认所提供的商品特征的描述信息是否为买家用户所需,循环往复,最终卖家用户便可确定用户的需求,推送店铺内相应的商品在聊天窗口作为答复。
74.据此,可获取电商导购场景下买家用户与卖家用户的聊天数据,一种实施例中,可将由买家用户输入发送至聊天窗口的文本均作为问题文本,若包含短时间输入的多条文本则拼接成一条长文本,将继其之后的由卖家用户输入发送至聊天窗口的文本,均作为相应问题文本对应的答复文本,同样若包含多条文本则拼接成一条长文本。将确定出的聊天数据中的问题文本及其对应的答复文本,关联产生该聊天数据的线上店铺,从而构造导购数据库。
75.所述文本分类模型为双塔模型,具体模型结构如图2所示,其中包含两路输入分别接收句对中的两个句子,对应每一路的输入均需经过相对应的编码器及池化层,继而以两路池化层输出的池化结果计算出相似度作为模型的输出,所述两路对应的编码器权重共享,所述两路对应的池化层均执行平均池化。所述编码器适于对输入文本进行向量化的编码表示和多层语义空间的转化学习,可以从多种已知模型中选择,包括但不限于bert、rnn、bilstm、bigru、roberta、albert、ernie、bert-wwm等。
76.以导购数据库中的各个问题文本分别与所述查询文本相应构成多个句对,每个句对作为所述文本分类模型的输入,获得所述查询文本与各个问题文本之间的相似度,从而确定相似度超过预设阈值的问题文本,视为所述与查询文本相匹配,进一步,获取该相匹配的问题文本及其对应的答复文本。
77.步骤s1300、确定所述问题文本及其对应的答复文本中的关键词,所述关键词为商品特征的描述信息;
78.根据所述问题文本及其对应的答复文本所关联的线上店铺,从预设的商品词表获得该线上店铺对应的商品词,将该问题文本及其对应的答复文本与所述商品词进行字符匹配,确定被提及的商品词。
79.进一步,可采用词袋模型统计被提及的各个所述商品词对应的词频,筛选出词频满足预设阈值的商品词作为关键词,所述预设阈值可由本领域技术人员按需设置。
80.所述商品词表存储各个线上店铺对应的商品词,所述商品词为相应商品的文本信息中的部分文本,能够描述相应商品的商品特征。所述商品词表的构建可参考后续部分实施例进一步揭示,本步骤暂且按下不表。
81.步骤s1400、构造所述关键词作为所述查询文本的替换文本,以该替换文本执行商品查询,召回与所述替换文本相匹配的商品列表推送给用户。
82.根据所述关键词构造替换文本,示范性举例:“关键词1”or“关键词2”or“关键词3”,以该替换文本替换当前商品查询所调用的所述查询文本,执行商品查询,召回与所述替换文本相匹配的商品构建商品列表,将所述商品列表推送给用户。
83.根据本技术的典型实施例可以知晓,本技术的技术方案存在多方面优势,包括但
不限于如下各方面:
84.本技术采用文本分类模型,从预设的导购数据库中确定与用户输入的查询文本相匹配的问题文本,获得所述问题文本及其对应的答复文本,确定其中描述商品特征的关键词,以所述关键词构造出替换文本,替换所述查询文本执行商品查询,召回与该替换文本相匹配的商品列表推送给用户。可以理解,电商搜索场景下根据用户输入的查询文本查询出相应的商品,与电商导购场景下具有导购性质的问题文本及其对应的答复文本,所述两个场景都是根据用户的描述,确定出相应的商品,因此,所述与查询文本相匹配的问题文本,该问题文本相当于对查询文本的换一种描述,基于此,该问题文本及其相对应的答复文本中描述商品特征的关键词,便可一定程度上准确地表示所述查询文本表达的购买意图,故而所述以该关键词构造出的替换文本,便能替换所述查询文本执行商品查询,有效解决召回的商品过少,甚至为0的场景。
85.请参阅图3,进一步的实施例中,步骤s1100、获取用户输入的查询文本之前,还包括如下步骤:
86.步骤s1010、采用预设的导购数据库中的问题文本,替换所述问题文本中部分词元为遮盖标识构造出训练样本,训练编解码网络至收敛状态,使其适于预测出遮盖标识相对应的被替换的词元;
87.所述编解码网络为bert采用encoder-decoder(编码器-解码器)结构。
88.获取导购数据库中的问题文本,基于mask机制替换所述问题文本中部分词元为遮盖标识,所述mask机制为对于问题文本中的各个词元:
89.85%的概率,保留原词元不变。
90.15%的概率,使用以下方式替换:
91.80%的概率,使用字符[mask]即所述遮盖标识,替换当前词元。
[0092]
20%的概率,保留原词元不变。
[0093]
将所得的替换后的问题文本作为训练样本,将其中的各个遮盖标识相对应的被替换的词元相应作为监督标签,训练编解码网络至收敛状态,具体而言;
[0094]
获取单个所述训练样本,输入至编解码网络。通过编解码网络的编码器对该训练样本进行双向编码,提取训练样本的深层语义信息,获得相应编码特征向量,所述深层语义信息包含训练样本中的各个词元,基于在其上下文中进行注意力交互,对应所得的语义信息,所述编码特征向量中的各个元素表征训练样本中相应词元的语义表示。通过编解码网络的解码器对所述编码特征向量进行解码,预测出训练样本中各个遮盖标识相对应的词元。采用所述训练样本的监督标签,确定所述各个遮盖标识相对应的词元的损失值,在所述损失值未达到预设阈值时,对编解码网络实施权重更新,并继续调用其他训练样本实施迭代训练直至编解码网络收敛。
[0095]
不难理解,在训练至收敛后,所得的编解码网络便可准确预测出遮盖标识相对应的被替换的词元,据此,确保该编解码网络中的编码器对向其输入的文本进行双向编码,所得的编码特征向量,能够准确表示该文本的语义。
[0096]
步骤s1020、以相同的两个所述编解码网络中的编码器构造双塔模型作为所述文本分类模型,采用导购数据库中两个不同的问题文本构成句对,相应设定其监督标签,训练所述文本分类模型至收敛状态,使其适于确定句对中的两个文本描述的相似度,所述双塔
模型中的两个编码器权重共享,所述监督标签表征所述两个问题文本描述是否相似。
[0097]
以上一步骤训练至收敛的编解码网络中的编码器,构造多一个与其相同的编码器,为该两个编码器分别后接一个池化层,两个池化层一起后接一个相似度计算模块,由此,构造出双塔模型作为所述文本分类模型,参考示意图如图2所示,所述两个编码器权重共享,所述两个池化层均执行平均池化。
[0098]
从导购数据库中人工选取出描述相似的两个问题文本构成句对作为正样本,以及人工选取出描述不相似的两个问题文本构成句对作为负样本,为所述正样本和负样本标注相应的监督标签,所述监督标签表征其中的两个问题文本是否相似,示范性举例,正样本的监督标签为1,负样本的监督标签为0。由此,以正样本和负样本及相对应的监督标签训练所述文本分类模型至收敛状态,具体而言:
[0099]
获取单个正样本或负样本作为训练样本,输入至文本分类模型。通过文本分类模型的两个编码器分别对句对中的两个问题文本进行双向编码,提取出各个问题文本的深层语义信息,获得相应编码特征向量,所述深层语义信息包含问题文本中的各个词元,基于在其上下文中进行注意力交互,对应所得的语义信息,所述编码特征向量中的各个元素表征问题文本中相应词元的语义表示。将所述两个问题文本相对应的编码特征向量,分别输入至两个池化层进行平均池化,获得相应的池化结果。将两路池化结果输入至相似度计算模块,计算出相似度,可以理解,所述相似度表征输入的句对中的两个问题文本之间的语义相似程度。进一步,采用所述训练样本的监督标签,确定所述相似度的损失值,在所述损失值未达到预设阈值时,对文本分类模型实施权重更新,并继续调用其他训练样本实施迭代训练直至文本分类模型收敛。
[0100]
本实施例中,一方面,文本分类模型的编码器,来源于训练至收敛的编解码网络的编码器,该编解码网络采用替换问题文本中部分词元为遮盖标识构造出的训练样本,训练至收敛状态,由于合理化设置训练样本的噪声,加据编解码网络理解输入文本的难度,使得训练至收敛后的编解码网络中的编码器对输入文本编码所得的编码表示,能够准确表示输入文本的语义。另一方面,文本分类模型的结构简单,易被训练至收敛,执行高效。
[0101]
请参阅图4,进一步的实施例中,步骤s1200、采用文本分类模型从预设的导购数据库中确定与所述查询文本相匹配的问题文本的步骤中,包括如下步骤:
[0102]
步骤s1210、以预设的导购数据库中的问题文本与所述查询文本构成句对;
[0103]
以导购数据库中的各个问题文本分别与所述查询文本相应构成多个句对,每个句对作为所述文本分类模型的输入。
[0104]
步骤s1220、采用文本分类模型提取所述句对中两个文本相对应的深层语义信息,获得相应的编码表示;
[0105]
针对每个句对,采用文本分类模型的两个编码器分别提取句对中的问题文本及查询文本相对应的深层语义信息,获得相应编码特征向量即所述编码表示,所述深层语义信息包含相应文本中的各个词元,基于在其上下文中进行注意力交互,对应所得的语义信息,所述编码特征向量中的各个元素表征文本中相应词元的语义表示。
[0106]
步骤s1230、对句对中两个文本相对应的编码表示进行平均池化,计算出两个池化结果之间的相似度;
[0107]
进一步,采用文本分类模型的两个池化层分别对问题文本及查询文本相对应的编
码特征向量,实施平均池化,获得相应的两个池化结果,继而采用相似度计算模块计算两个池化结果之间的相似度,所述相似度计算模块可以fai ss、elasticsearch、milvus等大规模向量检索引擎中的任意一种来实施,也可以采用诸如余弦相似度、点积、曼哈顿距离、欧氏距离等任意一种现成的算法来计算。
[0108]
步骤s1240、筛选出相似度满足预设阈值的句对,获取其中的问题文本。
[0109]
参考上述,对应每个句对都可采用文本分类模型计算出相对应的相似度,相似度表征句对中的问题文本与查询文本之间的语义相似程度,因而,可筛选出相似度满足预设阈值的句对,获取其中的问题文本,该问题文本即是与所述查询文本语义相似程度较高的文本。所述预设阈值可由本领域技术人员参考此处揭示按需设置。
[0110]
本实施例中,通过采用本技术实现的文本分类模型,计算出导购数据库中的各个问题文本分别与所述查询文本之间的相似度,据此,筛选出相似度满足预设阈值的相似度的句对,该句对中的问题文本便是与所述查询文本语义相似程度较高的文本。全程智能化实现,执行高效,无需引入人力资源。
[0111]
请参阅图5,进一步的实施例中,步骤s1300、确定所述问题文本及其对应的答复文本中的关键词的步骤中,包括如下步骤:
[0112]
步骤s1310、匹配预设的商品词表,确定所述问题文本及其对应的答复文本中提及的商品词;
[0113]
根据所述问题文本及其对应的答复文本所关联的线上店铺,从预设的商品词表获得该线上店铺对应的商品词,将该问题文本及其对应的答复文本与所述商品词进行字符匹配,确定被提及的商品词。
[0114]
步骤s1320、统计商品词的词频,筛选出满足预设阈值的词频对应的商品词作为关键词。
[0115]
可采用词袋模型统计被提及的各个所述商品词对应的词频,筛选出词频满足预设阈值的商品词作为关键词,所述预设阈值可由本领域技术人员按需设置。
[0116]
本实施例中,通过将问题文本及其对应的答复文本,与商品词表中相应线上店铺的商品词进行字符匹配,确定出被提及的商品词,进而根据商品词对应的词频,筛选出满足预设阈值的词频对应的商品词作为关键词,执行高效便捷。
[0117]
请参阅图6,进一步的实施例中,步骤s1020、以相同的两个所述编解码网络中的编码器构造双塔模型作为所述文本分类模型,采用导购数据库中两个不同的问题文本构成句对,相应设定其监督标签,训练所述文本分类模型至收敛状态的步骤中,包括如下步骤:
[0118]
步骤s1021、从预备的训练集中获取单个训练样本及其监督标签,所述训练样本包括以导购数据库中的两个描述相似的问题文本构成的句对,所述监督标签表征所述训练样本的句对中的两个问题文本描述相似;
[0119]
所述训练集可预先制备,具体实现示范性举例,可从导购数据库中人工选取出描述相似的两个问题文本构成句对作为训练样本,为所述训练样本标注相应的监督标签,所述监督标签表征其中的两个问题文本相似,示范性举例,所述训练样本的监督标签为1。据此,构造出足量的训练样本,标注各个训练样本相对应的监督标签,从而以各个训练样本及其监督标签构造训练集。
[0120]
据此,便可从训练集中逐个获取训练样本及其监督标签,用于训练文本分类模型。
[0121]
步骤s1022、将所述训练样本输入至文本分类模型提取句对中两个问题文本相对应的深层语义信息,获得相对应的编码表示;
[0122]
采用文本分类模型的两个编码器分别提取句对中两个问题文本相对应的深层语义信息,获得相应编码特征向量即所述编码表示,所述深层语义信息包含问题文本中的各个词元,基于在其上下文中进行注意力交互,对应所得的语义信息,所述编码特征向量中的各个元素表征问题文本中相应词元的语义表示。
[0123]
步骤s1023、对训练样本中两个文本相对应的编码表示进行平均池化,计算出两个池化结果之间的相似度;
[0124]
采用文本分类模型的两个池化层,分别对训练样本中两个问题文本相对应的编码特征向量进行平均池化,获得相应的两个池化结果,继而采用相似度计算模块计算两个池化结果之间的相似度,所述相似度计算模块可以faiss、elasticsearch、milvus等大规模向量检索引擎中的任意一种来实施,也可以采用诸如余弦相似度、点积、曼哈顿距离、欧氏距离等任意一种现成的算法来计算。
[0125]
步骤s1024、采用所述训练样本的监督标签,确定所述相似度的损失值,在所述损失值未达到预设阈值时,对文本分类模型实施权重更新,并继续调用其他训练样本实施迭代训练直至模型收敛。
[0126]
调用预设的交叉熵损失函数,此处可由本领域技术人员根据先验知识或实验经验灵活变通设置,根据所述训练样本的监督标签,计算所述相似度的交叉熵损失值,当该损失值达到预设阈值时,表明文本分类模型已被训练至收敛状态,从而可以终止模型训练;损失值未达到预设阈值时,表明模型未收敛,于是根据该损失值对模型实施梯度更新,通常通过反向传播修正模型各个环节的权重参数以使模型进一步逼近收敛,然后,继续调用所述训练集中的下一训练样本对文本分类模型实施迭代训练,直至文本分类模型被训练至收敛状态为止。
[0127]
本实施例中,揭示了文本分类模型的训练过程,在训练至收敛后,文本分类模型习得计算出向其输入的句对中的两个文本之间的相似度的能力。
[0128]
请参阅图7,进一步的实施例中,步骤s1100、获取用户输入的查询文本之前,还包括如下步骤:
[0129]
步骤s1000、获取商品数据库中多个商品的文本信息,所述文本信息为商品的描述信息;
[0130]
跨境电商平台中的各个独立站点,独立维护自身线上店铺的商品的商品数据库,所述商品数据库用于存放线上店铺的各个商品及其对应的商品信息。
[0131]
所述商品信息通常包括两大类,其一是商品图片,其二是文本信息。所述商品图片,通常用于展示相应的商品。所述文本信息,泛指一切关联于所述商品存储的且适于以文本形式提供的商品描述信息,包括但不限于商品的商品标题文本、商品属性数据、商品详情文本、商品画像标签等任意一项或多项。在用途上,所述商品描述信息一般用于描述商品的品牌、名称、型号、类别、用途、功能、性质、卖点、用法等等任意具体信息。
[0132]
据此,从各个线上店铺的商品数据库中,获取各个商品的文本信息。
[0133]
步骤s1001、将各个所述文本信息进行分词,获得相对应的分词词元;
[0134]
采用jieba分词算法的搜索引擎模式对各个所述文本信息进行分词粒度的分词,
获得相应的分词词元。本领域技术人员可以理解,jieba分词的精准模式为对文本信息实施最精准的切分,切分出相应的分词,能够实现该分词中不存在冗余数据,然而所述搜索引擎模式在所述精确模式的基础上,对分词中的长词再次进行切分,使得分词的颗粒度更细。
[0135]
据此,便可获得各个所述文本信息相对应的分词词元。
[0136]
步骤s1002、统计各个分词词元对应的词频,筛选出满足预设阈值的词频对应的分词词元作为商品词,构造商品词表。
[0137]
针对各个线上店铺,采用tf-idf算法统计线上店铺相对应的各个分词词元对应的词频。具体而言,以一个分词词元为例,统计分词词元在所有文本信息中出现的频率即tf(词频),另外统计出现分词词元的文本信息的个数,计算出该文本信息的个数除以文本信息的总数,计算出idf(逆向文件频率),进而分词词元对应的词频为该分词词元对应的tf乘以idf。
[0138]
筛选出词频满足预设阈值的分词词元作为商品词,将该商品词关联相应的线上店铺,构造商品词表,所述预设阈值可由本领域技术人员按需设置。
[0139]
本实施例中,一方面,采用细粒度的分词算法对商品的文本信息进行分词,能够合理有效地得到更多的分词词元,保障后续筛选分词词元所得的商品词更丰富。另一方面,采用tf-idf算法统计各个分词词元对应的词频,所得的词频能够准确反映该分词词元对于其出现的文本信息的重要程度,保障后续以分词词元的词频筛选出商品词,所得商品词的准确性,从而以该商品词能够精准地描述相应商品的商品特征。
[0140]
请参阅图8,适应本技术的目的之一而提供的一种查询改写装置,是对本技术的查询改写方法的功能化体现,该装置包括文本获取模块1100、文本匹配模块1200、关键词确定模块1300以及列表推送模块1400,其中,文本获取模块1100,用于获取用户输入的查询文本;文本匹配模块1200,用于采用文本分类模型从预设的导购数据库中确定与所述查询文本相匹配的问题文本,获得所述问题文本及其对应的答复文本;关键词确定模块1300,用于确定所述问题文本及其对应的答复文本中的关键词,所述关键词为商品特征的描述信息;列表推送模块1400,用于构造所述关键词作为所述查询文本的替换文本,以该替换文本执行商品查询,召回与所述替换文本相匹配的商品列表推送给用户。
[0141]
进一步的实施例中,所述文本获取模块1100之前,还包括:编解码网络训练模块,用于采用预设的导购数据库中的问题文本,替换所述问题文本中部分词元为遮盖标识构造出训练样本,训练编解码网络至收敛状态,使其适于预测出遮盖标识相对应的被替换的词元;文本分类模型训练模块,用于以相同的两个所述编解码网络中的编码器构造双塔模型作为所述文本分类模型,采用导购数据库中两个不同的问题文本构成句对,相应设定其监督标签,训练所述文本分类模型至收敛状态,使其适于确定句对中的两个文本描述的相似度,所述双塔模型中的两个编码器权重共享,所述监督标签表征所述两个问题文本描述是否相似。
[0142]
进一步的实施例中,所述文本匹配模块1200,包括:句对构成子模块,用于以预设的导购数据库中的问题文本与所述查询文本构成句对;第一编码表示子模块,用于采用文本分类模型提取所述句对中两个文本相对应的深层语义信息,获得相应的编码表示;第一相似度计算子模块,用于对句对中两个文本相对应的编码表示进行平均池化,计算出两个池化结果之间的相似度;句对筛选子模块,用于筛选出相似度满足预设阈值的句对,获取其
中的问题文本。
[0143]
进一步的实施例中,所述关键词确定模块1300,包括:词表匹配子模块,用于匹配预设的商品词表,确定所述问题文本及其对应的答复文本中提及的商品词;关键词筛选子模块,用于统计商品词的词频,筛选出满足预设阈值的词频对应的商品词作为关键词。
[0144]
进一步的实施例中,所述文本分类模型训练模块,包括:样本获取子模块,用于从预备的训练集中获取单个训练样本及其监督标签,所述训练样本包括以导购数据库中的两个描述相似的问题文本构成的句对,所述监督标签表征所述训练样本的句对中的两个问题文本描述相似;第二编码表示子模块,用于将所述训练样本输入至文本分类模型提取句对中两个问题文本相对应的深层语义信息,获得相对应的编码表示;第二相似度计算子模块,用于对训练样本中两个文本相对应的编码表示进行平均池化,计算出两个池化结果之间的相似度;迭代训练子模块,用于采用所述训练样本的监督标签,确定所述相似度的损失值,在所述损失值未达到预设阈值时,对文本分类模型实施权重更新,并继续调用其他训练样本实施迭代训练直至模型收敛。
[0145]
进一步的实施例中,所述文本获取模块1100之前,还包括:信息获取模块,用于获取商品数据库中多个商品的文本信息,所述文本信息为商品的描述信息;文本分词模块,用于将各个所述文本信息进行分词,获得相对应的分词词元;词表构造模块,用于统计各个分词词元对应的词频,筛选出满足预设阈值的词频对应的分词词元作为商品词,构造商品词表。
[0146]
进一步的实施例中,所述文本获取模块1100之前,还包括:数据库构造模块,用于获取电商导购场景下买家用户与卖家用户的聊天数据,确定其中的问题文本及其对应的答复文本,构造导购数据库。
[0147]
为解决上述技术问题,本技术实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种查询改写方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本技术的查询改写方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0148]
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本技术的查询改写装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
[0149]
本技术还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本技术任一实施例的查询改写方法的步
骤。
[0150]
本领域普通技术人员可以理解实现本技术上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等计算机可读存储介质,或随机存储记忆体(random access memory,ram)等。
[0151]
综上所述,本技术引入具有导购性质的问答数据对查询文本进行重定向,能够优化用户查询结果。
[0152]
本技术领域技术人员可以理解,本技术中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本技术中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本技术中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0153]
以上所述仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。

技术特征:


1.一种查询改写方法,其特征在于,包括如下步骤:获取用户输入的查询文本;采用文本分类模型从预设的导购数据库中确定与所述查询文本相匹配的问题文本,获得所述问题文本及其对应的答复文本;确定所述问题文本及其对应的答复文本中的关键词,所述关键词为商品特征的描述信息;构造所述关键词作为所述查询文本的替换文本,以该替换文本执行商品查询,召回与所述替换文本相匹配的商品列表推送给用户。2.根据权利要求1所述的查询改写方法,其特征在于,获取用户输入的查询文本之前,还包括如下步骤:采用预设的导购数据库中的问题文本,替换所述问题文本中部分词元为遮盖标识构造出训练样本,训练编解码网络至收敛状态,使其适于预测出遮盖标识相对应的被替换的词元;以相同的两个所述编解码网络中的编码器构造双塔模型作为所述文本分类模型,采用导购数据库中两个不同的问题文本构成句对,相应设定其监督标签,训练所述文本分类模型至收敛状态,使其适于确定句对中的两个文本描述的相似度,所述双塔模型中的两个编码器权重共享,所述监督标签表征所述两个问题文本描述是否相似。3.根据权利要求1所述的查询改写方法,其特征在于,采用文本分类模型从预设的导购数据库中确定与所述查询文本相匹配的问题文本的步骤中,包括如下步骤:以预设的导购数据库中的问题文本与所述查询文本构成句对;采用文本分类模型提取所述句对中两个文本相对应的深层语义信息,获得相应的编码表示;对句对中两个文本相对应的编码表示进行平均池化,计算出两个池化结果之间的相似度;筛选出相似度满足预设阈值的句对,获取其中的问题文本。4.根据权利要求1所述的查询改写方法,其特征在于,确定所述问题文本及其对应的答复文本中的关键词的步骤中,包括如下步骤:匹配预设的商品词表,确定所述问题文本及其对应的答复文本中提及的商品词;统计商品词的词频,筛选出满足预设阈值的词频对应的商品词作为关键词。5.根据权利要求2所述的查询改写方法,其特征在于,以相同的两个所述编解码网络中的编码器构造双塔模型作为所述文本分类模型,采用导购数据库中两个不同的问题文本构成句对,相应设定其监督标签,训练所述文本分类模型至收敛状态的步骤中,包括如下步骤:从预备的训练集中获取单个训练样本及其监督标签,所述训练样本包括以导购数据库中的两个描述相似的问题文本构成的句对,所述监督标签表征所述训练样本的句对中的两个问题文本描述相似;将所述训练样本输入至文本分类模型提取句对中两个问题文本相对应的深层语义信息,获得相对应的编码表示;对训练样本中两个文本相对应的编码表示进行平均池化,计算出两个池化结果之间的
相似度;采用所述训练样本的监督标签,确定所述相似度的损失值,在所述损失值未达到预设阈值时,对文本分类模型实施权重更新,并继续调用其他训练样本实施迭代训练直至模型收敛。6.根据权利要求1所述的查询改写方法,其特征在于,获取用户输入的查询文本之前,还包括如下步骤:获取商品数据库中多个商品的文本信息,所述文本信息为商品的描述信息;将各个所述文本信息进行分词,获得相对应的分词词元;统计各个分词词元对应的词频,筛选出满足预设阈值的词频对应的分词词元作为商品词,构造商品词表。7.根据权利要求1所述的查询改写方法,其特征在于,获取用户输入的查询文本之前,还包括:获取电商导购场景下买家用户与卖家用户的聊天数据,确定其中的问题文本及其对应的答复文本,构造导购数据库。8.一种查询改写装置,其特征在于,包括:文本获取模块,用于获取用户输入的查询文本;文本匹配模块,用于采用文本分类模型从预设的导购数据库中确定与所述查询文本相匹配的问题文本,获得所述问题文本及其对应的答复文本;关键词确定模块,用于确定所述问题文本及其对应的答复文本中的关键词,所述关键词为商品特征的描述信息;列表推送模块,用于构造所述关键词作为所述查询文本的替换文本,以该替换文本执行商品查询,召回与所述替换文本相匹配的商品列表推送给用户。9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。

技术总结


本申请涉及计算机技术领域中一种查询改写方法及其装置、设备、介质,所述方法包括:获取用户输入的查询文本;采用文本分类模型从预设的导购数据库中确定与所述查询文本相匹配的问题文本,获得所述问题文本及其对应的答复文本;确定所述问题文本及其对应的答复文本中的关键词,所述关键词为商品特征的描述信息;构造所述关键词作为所述查询文本的替换文本,以该替换文本执行商品查询,召回与所述替换文本相匹配的商品列表推送给用户。本申请引入具有导购性质的问答数据对查询文本进行重定向,能够优化用户查询结果。能够优化用户查询结果。能够优化用户查询结果。


技术研发人员:

徐进添

受保护的技术使用者:

广州华多网络科技有限公司

技术研发日:

2022.09.23

技术公布日:

2022/12/26

本文发布于:2024-09-22 04:25:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/49502.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   所述   商品   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议