生活中的人工智能之搜索和推荐算法

⽣活中的⼈⼯智能搜索推荐算法
姓名:陈⼼语  学号:21009102266 书院:海棠1号书院
转⾃:⼈⼯智能在搜索中的应⽤_u014033218的专栏-CSDN博客
⼈⼯智能在搜索的应⽤和实践_qq_40954115的博客-CSDN博客
钢套箱【嵌⽜导读】⽇常⽣活中的搜索和推荐算法也与⼈⼯智能有所关联,让我们⼀起来看看吧!
【嵌⽜⿐⼦】⼈⼯智能运⽤于搜索和推荐算法。
【嵌⽜提问】⼈⼯智能在搜索和推荐算法中有什么运⽤呢?
【嵌⽜正⽂】
智能交互
智能交互有三个⽅⾯的这部分组成,第⼀个就是Query推荐,这是⽐较古⽼的课题;第⼆个做智能导购,这是现在正在做的⼀个原形,后⾯我会讲为什么做智能导购;第三个内容的展⽰和个性化的创意。就是说你把商品怎么展⽰给⽤户,也是我们认为是交互的⼀部分。
第⼀个是Query推荐,这个问题怎么来抽象呢?Query推荐是⼀个⽤户当前Query下⾯我们怎么推荐其它Query,这是我们相关搜索⼀样的。我们推荐这样的⼀个Query以后,如果⽤户⼀旦点了其中的⼀个Query,⽤户的状态就会发⽣变化,从当前的Query跳到另外⼀个Query,这是⽤户状态的变化。第⼆个就是说我们怎么评价我们推荐的Query的好坏,它由⼏部分组成,⼀个Query有没有被点,第⼆个就
是说推荐Query⾥⾯,它的SRP页会不会点,因为Query推荐本质上不是Query推荐做的最好就是最好的,它是说最终要在搜索SRP⽤户有没有买,有没有点击,这才是做的好的,这是第⼆个收益。还有⼀个更加间接的,通过Query推,这个状态转到下⼀个状态以后,这个⾥⾯还会推其它Query,还会有其它点击,这个时候也是个间接推荐。如果我不推Query就不能到这个状态,不到状态不会有这个Query,不会有这个收益。我们了解,这就是典型的⼀个马尔科夫决策过程,我们是⽤强化学习来做的,Actions就是我们的Query list,根据⽤户和当前Query推荐其他Query,状态就是User + Query,收益就是包括推荐Query击,还有⼀个间接收益,间接收益通过bellman 公式可以算出来,这就是⼀个DQN的强化学习项⽬。
智能导购
现在的搜索呈现的问题就是说,如果去看搜索的Query都是⼀些品类词、品牌词、型号词或者属性词。假定⽤户他知道买什么再来搜索搜,但是有各很⼤的东西⽤户不知道买什么吗?智能导购就是做做⼀个类似智能导购机器⼈的产品,引导⽤户怎么搜,⽤户也可以主动问,获取知识或购物经验。这是后台的算法的⼀个原形,不久后会上线。
智能内容
因为淘宝的商品,卖家为了适应我们的引擎,做了⼤量的SEO,⾥⾯都是罗列热门的关健词,导致问题淘宝的标题没什么差异,都写的差不多,看标题也不知道什么东西,或者知道但⾥⾯没有很多特⾊的内容。我们做智能内容很重要的出发点是怎么从商品的评价、详情页、属性⾥⾯挖出⼀些⽐较有卖点,或者商品⽐较有特⾊的东西展⽰给⽤户,让⽤户更好的了解商品,这是第⼀个。第⼆个淘宝上⾯还有类似商品聚合的,⽐如清单,⽣成⼀个清单,怎么给清单⽣成⼀个⽐较好的导⼊的描述,让⽤户
描述这个清单⼲什么。这⾥⾯主要做了这两个事情。具体怎么做的?⼀个会⽣成⼀些Topic,⽐如⾏业运营加上我们挖的⼀些点,⽐如像⼿机⼀般⼤家关注点会是⼿机的性价⽐,拍照是不是清晰,还有速度是不是快,是不是发热什么的,这是⽤户关注的兴趣点。然后它会根据这个商品会选择⼀个兴趣点,通过Seq2seq⽣成短⽂本。
语义搜索
我们的商品属性基本上是⽐较标准化的,因为这⾥淘宝有⼀个这样的商品库,⾮标准化的内容是没法上传的。导致的问题是我们的商品内容相对来说是⽐较规范化的,但是⽤户的输⼊的Query不是这样的,⽐如我这⾥举⼀些例⼦,⽐如⼀个新品有各种表达,2017新品,2017冬季新品,是吧?新品,有很多的表达。所以就是从从⽤户的需求跟商品的内容,就存在了⼀个语义的Gap。还有我们经常举例,⽐如三⼝之家⽤的电饭锅,很多这种语义的问题,这个语义从语义⾓度解决语义Match的事情。
⼤概会有这么⼏个⽅⾯。⽐如⼀个就是意图的理解,还有意图的Mapping,⽐如⼤容量冰箱,⾸先知道⼤的是跟冰箱的容量相关的,冰箱是个类⽬,最后要Mapping到⼈的冰箱,把‘⼤’改写成⼀个容量⼤于多少升,类⽬是冰箱这样才能够⽐较好的解决我们这个搜索的这个召回的问题。第⼆个语义理解,这⾥⾯包括Query和商品都要做语义理解,⽐如通过image tagging计算从图⽚⾥⾯抽取很多⽂本的语义标签补充到商品⽂本索引中。 第三个就是现在有这个端到端的深度学习技术来直接学Query和商品的Similarity,通过端到端的深度学习技术来做语义的召回和语义的相关性。
智能匹配
主要就是讲个性化,做个性化的⾸要就是个性化数据。个性化本质上就是说以⽤户为中⼼构建⽤户的标签,⽤户的⾏为,还有⽤户的偏好,再通过这些数据到,去Match到商品,⽐如说你看过相似商
品,典型的协同过滤,还有你偏好的品牌的其它商品。那就是基于这些经历了⼀个以⽤户为中⼼的电商图谱,这⾥⾯还加了⼀些辅助的数据,⽐如商品的相似度,店铺之间的相似度,这样构建了我们这样的叫电商图谱。
个性化召回与向量化召回
召回是这样的,⾸先从咱们的电商图谱⾥取出⽤户的信息,包括⽐如说年龄性别,还有当地温度是多少,还有⾏为⾜迹等等之类的,社交现在没⽤了,因为这是⼏年前社交特别⽕,什么都要掺和⼀下,其实社交,信息的社交到电商其实风马⽜不相及的领域,没有任何价值。所以现在好友这东西⼏乎没有⽤。因为不同Query中,⽤户信息重要性是不⼀样的,我们根据上下⽂会做⽤户信息的筛选或者排序,会出⽐较重要的信息做个性化召回。以上是淘宝商品索引结构,传统的搜索关键字是通过搜索关键字召回,⽽个性化商品索引,除了Query还会有商品簇,簇与簇之间的关系,品牌店铺等等之类的,会加很多个性化的特征做召回,通过这种带的好处是召回的结果跟⽤户是直接相关的,就召回这⼀步带来个性化。
但是这种基于⾏为召回还是存在⼀个问题的。最重要的问题它的泛化能⼒会⽐较差。最典型的⽐如说你通过协同过滤来做,如果两个商品,没有⽤户同时看过的话,这两个商品你认为他们相似度是零,这个结论是错的,但是如果通过协同过滤就有这个问题。我们今年实现了向量化召回,包括两步:⼀个是Similarity learning,通过这个深度学习做端到端的Similarity learning,就会把这个我们的User 和Item会变成⼀个向量;第⼆步就是做向量化召回,⽐如层次聚类,随机游⾛,learning to hash等,这样的话就是说会极⼤的提升召回的深度。
个性化⼯作
在个性化领域其实最重要的⼀个核⼼的问题就是怎么去理解⽤户,怎么感知⽤户和预测⽤户⾏为及偏好。
⾸先是数据,⽤户在淘宝有两个中类型重要的基本信息:⼀个是⽤户标签,⽐如年龄、性别、职业等;第⼆是⽤户⾜迹,⽐如 点过,买过的商品,店铺等;
其次是⽤户感知要和搜索上下⽂相关,即这个⽤户的表征和要⽤户搜索意图相关;
第三是搜索有很多差异化的任务,⽐如⽤户消费能⼒的预估, User到Item的CTR预估和⽤户购物状态预估等,是为每个任务做个端到端的深度学习模型还是⽤统⼀的⽤户表征来完成不同的Task?如果每⼀个任务都做端到端深度学习会有很多问题,⽐如离线和在线的性能开销会⼤很多,或部分任务样本太少。
衣架钩如图是⽤户感知深度模型,输⼊X是⽤户的点击⾏为序列,下⼀步是embedding,embedding完以后,通过LSTM把⽤户⾏为序列做embedding,因为在搜索⽤户感知和Query相关,所以加⼊query 的 attention层,选择和当前query有关系的⾏为,表征完是Multi-task learning ⽹络。整个这个⽹络的参数⼤概有⼀百亿个参数,我在双11我们还实现了在线学习。
算法包括智能交互、语义搜索、智能匹配和搜索策略四个⽅向。
智能交互
商品搜索就是带交互的商品推荐,⽤户通过关键字输⼊搜索意图,引擎返回和搜索意图匹配的个性化推荐结果,好的交互技术能够帮助到⽤户更好的使⽤搜索引擎,⽬前搜索的交互主要是主动关键字输⼊和关键字推荐,⽐如搜索框中的默认查询词和搜索结果中的⽂字链等,推荐引擎根据⽤户搜索历史、上下⽂、⾏为和状态推荐关键字。和商品推荐的区别是,关键字推荐是搜索链路的中间环节,关键字推荐的收益除了关键字的点击⾏为外,还需要考虑对整个购物链路的影响,包括在推荐关键字的后续⾏为中是否有商品点击、加购和成交或跳转到另外⼀个关键字的后继⾏为,这是⼀个典型的强化
peepm学习问题,action 是推荐的关键字候选集合,状态是⽤户当前搜索关键词、上下⽂等,收益是搜索引导的成交。除了被动的关键字推荐,我们也在思考搜索中更加主动的交互⽅式,能够做到像导购员⼀样的双向互动,主动询问⽤户需求,挑选个性化的商品和给出个性化的推荐理由,⽬前我们已经在做智能导购和智能内容⽅向的技术原型及论证,智能导购在技术上主要是借鉴对话系统,通过引导⽤户和引擎对话与关键字推荐⽅式互为补充,包括⾃然语⾔理解,对话策略,对话⽣成,知识推理、知识问答和商品搜索等模块,功能主要包括:a. 根据⽤户搜索上下⽂⽣成引导⽤户主动交互的⽂本,⽐如搜索“奶粉”时,会⽣成“您宝宝多⼤?0~6个⽉,6个⽉到1岁….”引导⽂案,提⽰⽤户细化搜索意图,如果⽤户输⼊“3个⽉”后,会召回相应段位的奶粉,并在后续的搜索中会记住对话状态“3个⽉”宝宝和提⽰⽤户“以下是适合3个⽉宝宝的奶粉”,b. 知识导购,包含提⾼售前知识问答或知识提⽰,⽐如“3个⽉宝宝吃什么奶粉” 回答“1段”,⽬前对话技术还不太成熟,尤其是在多轮对话状态跟踪、知识问答和⾃动评价⼏个⽅⾯,但随着深度学习、强化学习和⽣成对抗学习等技术在NLP、对话策略、阅读理解等领域的应⽤,越来越多的训练数据和应⽤场景,domain specific 的对话技术未来⼏年应该会突飞猛进;智能内容⽣成,包括⽣成或辅助⼈⼯⽣成商品和清单HDPE多孔加筋缠绕波纹管
的“卖点”,短标题和⽂本摘要等,让淘宝商品表达更加个性化和多元化。
语义搜索防盗监控系统
语义搜索主要是解决关键字和商品内容之间的语义鸿沟,⽐如搜索“2~3周岁宝宝外套”,如果按照关键字匹配召回结果会远⼩于实际语义匹配的商品。语义搜索的范围主要包括:a. query tagging和改写,⽐如新品,年龄,尺码,店铺名,属性,类⽬等搜索意图识别和归⼀化,query tagging模型是⽤的经典的序列标注模型 bi-lstm + CRF,⽽标签分类(归⼀化) 作为模型另外⼀个任务,将序列标注和分类融合在⼀起学习;
手动折弯机b. query 改写,主要是计算query之间相似度,把⼀个query改写成多个语义相似的query,通常做法是先⽤不同改写策略⽣成改写候选query集合,⽐如词替换、向量化后top k、点击商品相似度等,然后在⽤ltr对后续集合排序出合适的改写集合,模型设计和训练相对简单,⽐较难的是如何构建⾼质量的训练样本集合,线上我们⽤bandit 的⽅法探测部分query 改写结果的优劣,离线则⽤规则和⽣成对抗⽹络⽣成⼀批质量较⾼的样本;
c. 商品内容理解和语义标签,通过商品图⽚,详情页,评价和同义词,上下位词等给商品打标签或扩充商品索引内容,⽐如⽤ image tagging技术⽣成图⽚的⽂本标签丰富商品内容,或者更进⼀步⽤直接⽤图⽚向量和⽂本向量融合,实现富媒体的检索和查询;
d. 语义匹配,经典的DSSM 模型技术把query 和商品变成向量,⽤向量内积表达语义相似度,在问答或阅读理解中⼤量⽤到多层LSTM + attention 做语义匹配,同样⾼质量样本,特别是⾼质量负样本很
⼤程度上决定了模型的质量,我们没有采样效率很低的随机负采样,⽽是基于电商知识图谱,通过⽣成字⾯相似但不相关的query及相关⽂档的⽅法⽣成负样本。从上⾯可以看到query tagging、query相似度、语义匹配和语义相关性是多个⽬标不同但关联程度⾮常⾼的任务,下⼀步我们计划⽤统⼀的语义计算框架⽀持不同的语义计算任务,具体包括1. 开发基于商品内容的商品表征学习框架,为商品内容理解,内容⽣成,商品召回和相关性提供统⼀的商品表征学习框架,重点包括商品标题,属性,详情页和评价等⽂本信息抽取,图像特征抽取和多模信号融合;2. query 表征学习框架,为query 类⽬预测,query改写,query 推荐等提供统⼀的表征学习框架,重点通过多个query 相似任务训练统⼀的query表征学习模型;3. 语义召回,语义相关性等业务应⽤模型框架。语义搜索除了增加搜索结果相关性,提升⽤户体验外,也可以⼀定程度上遏制淘宝商品标题堆砌热门关键词的问题。
智能匹配
这⾥主要是指个性化和排序。内容包括:a. ibrain (深度⽤户感知⽹络),搜索或推荐中个性化的重点是⽤户的理解与表达,基于淘宝的⽤户画像静态特征和⽤户⾏为动态特征,我们基于multi-modals learning、multi-task representation learning以及LSTM的相关技术,从海量⽤户⾏为⽇志中直接学习⽤户的通⽤表达,该学习⽅法善于“总结经验”、“触类旁通”,使得到的⽤户表达更基础且更全⾯,能够直接⽤于⽤户⾏为识

本文发布于:2024-09-22 10:30:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/113089.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:商品   搜索   语义   推荐   智能
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议