美团商品知识图谱的构建及应用

美团商品知识图谱的构建及应⽤
商品知识图谱作为新零售⾏业数字化的基⽯,提供了围绕商品的精准结构化理解,对业务应⽤起到了⾄关重要的作⽤。相⽐于美团⼤脑中原有的围绕商户的图谱⽽⾔,商品图谱需应对更加分散、复杂、海量的数据和业务场景,且⾯临着信息来源质量低、数据维度多、依赖常识以及专业知识等挑战。本⽂将围绕零售商品知识图谱,介绍美团在商品层级建设、属性体系建设、图谱建设⼈效提升等⽅向的探索,希望对⼤家有所帮助或启发。
背景
美团⼤脑
在新零售领域的探索
商品图谱建设的⽬标
商品图谱建设的挑战
商品图谱建设
层级体系建设
属性维度建设
效率提升
⼈机结合-专业图谱建设
商品图谱的落地应⽤
结构化召回
排序模型泛化性
多模态图谱嵌⼊
⽤户/商家端优化
作者简介
招聘信息
背景
美团⼤脑
近年来,⼈⼯智能正在快速地改变⼈们的⽣活,背后其实有两⼤技术驱动⼒:深度学习和知识图谱。我们将深度学习归纳为隐性的模型,它通常是⾯向某⼀个具体任务,⽐如说下围棋、识别猫、⼈脸识别、语⾳识别等等。通常⽽⾔,在很多任务上它能够取得很优秀的结果,同时它也有⼀些局限性,⽐如说它需要海量的训练数据,以及强⼤的计算能⼒,难以进⾏跨任务的迁移,并且不具有较好的可解释性。在另⼀⽅⾯,知识图谱作为显式模型,同样也是⼈⼯智能的⼀⼤技术驱动⼒,它能够⼴泛地适⽤于不同的任务。相⽐深度学习,知识图谱中的知识可以沉淀,具有较强的可解释性,与⼈类的思考更加贴近,为隐式的深度模型补充了⼈类的知识积累,和深度学习互为补充。因此,全球很多⼤型的互联⽹公司都在知识图谱领域积极进⾏布局。
图1 ⼈⼯智能两⼤驱动⼒
美团连接了数亿⽤户和数千万商户,背后也蕴含着丰富的⽇常⽣活相关知识。2018年,美团知识图谱团队开始构建美团⼤脑,着⼒于利⽤知识图谱技术赋能业务,进⼀步改善⽤户体验。具体来说,美团⼤脑会对美团业务中涉及到的千万级别商家、亿级别的菜品/商品、数⼗亿的⽤户评论,以及背后百万级别的场景进⾏深⼊的理解和结构化的知识建模,构建⼈、店、商品、场景之间的知识关联,从⽽形成⽣活服务领域⼤规模的知识图谱。现阶段,美团⼤脑已覆盖了数⼗亿实体,数百亿三元组,在餐饮、外卖、酒店、⾦融等场景中验证了知识图谱的有效性。
图2 美团⼤脑
在新零售领域的探索
美团逐步突破原有边界,在⽣活服务领域探索新的业务,不仅局限于通过外卖、餐饮帮⼤家“吃得更好”,近年来也逐步拓展到零售、出⾏等其他领域,帮⼤家“⽣活更好”。在零售领域中,美团先后落地了美团闪购、美团买菜、美团优选、团好货等⼀系列相应的业务,逐步实现“万物到家”的愿景。为了更好地⽀持美团的新零售业务,我们需要对背后的零售商品建⽴知识图谱,积累结构化数据,深⼊对零售领域内商品、⽤户、属性、场景等的理解,以便能更好地为⽤户提供零售商品领域内的服务。相⽐于围绕商户的餐饮、外卖、酒店的等领域,零售商品领域对于知识图谱的建设和应⽤提出了更⼤的挑战。⼀⽅
⾯,商品数量更加庞⼤,覆盖的领域范围也更加宽⼴。另⼀⽅⾯,商品本⾝所具有的显⽰信息往往⽐较稀疏,很⼤程度上需要结合⽣活中的常识知识来进⾏推理,⽅可将隐藏在背后的数⼗维的属性进⾏补齐,完成对商品完整的理解。在下图的例⼦中,“乐事黄⽠味”这样简单的商品描述其实就对应着丰富的隐含信息,只有对这些知识进⾏了结构化提取和相应的知识推理后,才能够更好的⽀持下游搜索、推荐等模块的优化。
图3 商品结构化信息的应⽤
商品图谱建设的⽬标
我们针对美团零售业务的特点,制定了多层级、多维度、跨业务的零售商品知识图谱体系。
图4 商品知识图谱体系
多层级在不同业务的不同应⽤场景下,对于“商品”的定义会有所差别,需要对各个不同颗粒度的商品进⾏理解。因此,在我们的零售商品知识图谱中,建⽴了五层的层级体系,具体包括:
L1-商品SKU/SPU:对应业务中所售卖的商品颗粒度,是⽤户交易的对象,往往为商户下挂的商品,例如“望京家乐福所售卖的蒙⽜低脂⾼钙⽜奶250ml盒装”。这⼀层级也是作为商品图谱的最底层的基⽯,将业务商品库和图谱知识进⾏打通关联。
L2-标准商品:描述商品本⾝客观事实的颗粒度,例如“蒙⽜低脂⾼钙⽜奶250ml盒装”,⽆论通过什么渠道在什么商户购买,商品本⾝并没有任何区别。商品条形码则是在标准商品这层的客观依据。在这⼀层级上,我们可以建模围绕标准商品的客观知识,例如同⼀个标准商品都会具有同样的品牌、⼝味、包装等属性。
L3-抽象商品:进⼀步我们将标准商品向上抽象的商品系列,例如“蒙⽜低脂⾼钙⽜奶”。在这⼀层级中,我们不再关注商品具体的包装、规格等,将同系列的商品聚合为抽象商品,承载了⽤户对于商品的主观认知,包括⽤户对商品系列的别名俗称、品牌认知、主观评价等。
L4-主体品类:描述商品主体的本质品类,列如“鸡蛋”、“奶油草莓”、“台式烤肠”等。这⼀层作为商品图谱的后台类⽬体系,以客观的⽅式对商品领域的品类进⾏建模,承载了⽤户对于商品的需求,例如各品牌各产地的鸡蛋都能够满⾜⽤户对于鸡蛋这个品类的需求。
L5-业务类⽬:相⽐于主体品类的后台类⽬体系,业务类⽬作为前台类⽬体系会依据业务当前的发展阶段进⾏⼈⼯定义和调整,各个业务会根据当前业务阶段的特点和需求建⽴对应的前台类⽬体系。
多维度
商品属性视⾓:围绕商品本⾝,我们需要有海量的属性维度来对商品进⾏描述。商品属性维度主要分为两类:⼀类是通⽤的属性维度,包括品牌、规格、包装、产地等;另⼀类是品类特有的属性维度,例如对于⽜奶品类我们会关注脂肪含量(全脂/低脂/脱脂⽜奶)、存储⽅式(常温奶、冷藏奶)等。商品属性主要是刻画了商品的客观知识,往往会建⽴在标准商品这⼀层级上。
⽤户认知视⾓:除了客观的商品属性维度以外,⽤户往往对于商品会有⼀系列的主观认知,例如商品的
别名俗称(“⼩⿊瓶”、“快乐⽔”)、对于商品的评价(“⾹甜可⼝”、“⼊⼝即化”、“性价⽐⾼”)、商品的清单/榜单(“进⼝⾷品榜单”、“夏季消暑常备”)等维度。这些主观认知往往会建⽴在抽象商品这⼀层级上。
品类/类⽬视⾓:从品类/类⽬的视⾓来看,不同品类/类⽬也会有各⾃不同的关注点。在这⼀层级上,我们会建模各个品类/类⽬下有哪些典型的品牌、⽤户关注哪些典型属性、不同品类的复购周期是多长时间等。
跨业务美团⼤脑商品知识图谱的⽬标是希望能够对客观世界中的商品知识进⾏建模,⽽⾮局限于单个业务之中。在商品图谱的五层体系中,标准商品、抽象商品、品类体系都是与业务解耦的,围绕着客观商品所建⽴的,包括围绕这些层级建⽴的各维度数据也均是刻画了商品领域的客观知识。在应⽤于各个业务当中时,我们将客观的图谱知识向上关联⾄业务前台类⽬,向下关联⾄业务商品SPU/SKU,则可以完成各个业务数据的接⼊,实现各个业务数据和客观知识之间的联通,提供更加全⾯的跨业务的全景数据视⾓。利⽤这样的数据,在⽤户⽅⾯我们可以更加全⾯的建模、分析⽤户对于业务、品类的偏好,对于价格、品质等的敏感程度,在商品⽅⾯我们可以更准确的建模各品类的复购周期、地域/季节/节⽇偏好等。
商品图谱建设的挑战
商品知识图谱的构建的挑战主要来源于以下三个⽅⾯:
1. 信息来源质量低:商品本⾝所具有的信息⽐较匮乏,往往以标题和图⽚为主。尤其在美团闪购这样LBS的电商场景下,商户需要上传⼤量的商品数据,对于商品信息的录⼊
存在很多信息不完整的情况。在标题和图⽚之外,商品详情虽然也蕴含着⼤量的知识信息,但是其质量往往参差不齐,并且结构各异,从中进⾏知识挖掘难度极⾼。
2. 数据维度多:在商品领域有众多的数据维度需要进⾏建设。以商品属性部分为例,我们不仅需要建设通⽤属性,诸如品牌、规格、包装、⼝味等维度,同时还要覆盖各个品
类/类⽬下特定关注的属性维度,诸如脂肪含量、是否含糖、电池容量等,整体会涉及到上百维的属性维度。因此,数据建设的效率问题也是⼀⼤挑战。
3. 依赖常识/专业知识:⼈们在⽇常⽣活中因为有很丰富的常识知识积累,可以通过很简短的描述获取其背后隐藏的商品信息,例如在看到“乐事黄⽠”这样⼀个商品的时候知道
其实是乐事黄⽠味的薯⽚、看到“唐僧⾁”的时候知道其实这不是⼀种⾁类⽽是⼀种零⾷。因此,我们也需要探索结合常识知识的语义理解⽅法。同时,在医药、个护等领域中,图谱的建设需要依赖较强的专业知识,例如疾病和药品之间的关系,并且此类关系对于准确度的要求极⾼,需要做到所有知识都准确
⽆误,因此也需要较好的专家和算法相结合的⽅式来进⾏⾼效的图谱构建。
商品图谱建设
在了解了图谱建设的⽬标和挑战后,接下来我们将介绍商品图谱数据建设的具体⽅案。
层级体系建设
品类体系建设本质品类描述了商品本质所属的最细类别,它聚合了⼀类商品,承载了⽤户最终的消费需求,如“⾼钙⽜奶”、“⽜⾁⼲”等。本质品类与类⽬也是有⼀定的区别,类⽬是若⼲品类的集合,它是抽象后的品类概念,不能够明确到具体的某类商品品类上,如“乳制品”、“⽔果”等。品类打标:对商品图谱的构建来说,关键的⼀步便是建⽴起商品和品类之间的关联,即对商品打上品类标签。通过商品和品类之间的关联,我们可以建⽴起商品库中的商品与⽤户需求之间的关联,进⽽将具体的商品展⽰到⽤户⾯前。下⾯简单介绍下品类打标⽅法:
1. 品类词表构建:品类打标⾸先需要构建⼀个初步的商品品类词表。⾸先,我们通过对美团的各个电商业务的商品库、搜索⽇志、商户标签等数据源进⾏分词、NER(参见
⽂章《》)、新词发现等操作,获得初步的商品候选词。然后,通过标注少量的样本进⾏⼆分类模型的训练(判断⼀个词是否是品类)。此外,我们通过结合主动学习的⽅法,从预测的结果中挑选出难以区
分的样本,进⾏再次标注,继续迭代模型,直到模型收敛。
2. 品类打标:⾸先,我们通过对商品标题进⾏命名实体识别,并结合上⼀步中的品类词表来获取商品中的候选品类,如识别“蒙⽜脱脂⽜奶 500ml”中的“脱脂⽜奶”、“⽜奶”等。
然后,在获得了商品以及对应的品类之后,我们利⽤监督数据训练品类打标的⼆分类模型,输⼊商品的SPU_ID和候选品类TAG构成的Pair,即<SPU_ID,TAG>,对它进
⾏是否匹配的预测。具体的,我们⼀⽅⾯利⽤结合业务中丰富的半结构化语料构建围绕标签词的统计特征,另⼀⽅⾯利⽤命名实体识别、基于BERT的语义匹配等模型产出⾼阶相关性特征,在此基础上,我们将上述特征输⼊到终判模型中进⾏模型训练。
3. 品类标签后处理:在这⼀步中,我们对模型打上的品类进⾏后处理的⼀些策略,如基于图⽚相关性、结合商品标题命名实体识别结果等的品类清洗策略。
通过上述的三个步骤,我们便可以建⽴起商品与品类之间的联系。品类体系:品类体系由品类和品类间关系构成。常见的品类关系包括同义词和上下位等。在构建品类体系的过程中,常⽤的以下⼏种⽅法来进⾏关系的补全。我们主要使⽤下⾯的⼀些⽅法:
1. 基于规则的品类关系挖掘。在百科等通⽤语料数据中,有些品类具有固定模式的描述,如“⽟⽶⼜名苞
⾕、苞⽶棒⼦、⽟蜀⿉、珍珠⽶等”、“榴莲是著名热带⽔果之⼀”,因
此,可以使⽤规则从中提取同义词和上下位。
2. 基于分类的品类关系挖掘。类似于上⽂中提到的品类打标⽅法,我们将同义词和上下位构建为<TAG, TAG>的样本,通过在商品库、搜索⽇志、百科数据、UGC中挖掘的统
计特征以及基于Sentence-BERT得到的语义特征,使⽤⼆分类模型进⾏品类关系是否成⽴的判断。对于训练得到的分类模型,我们同样通过主动学习的⽅式,选出结果中的难分样本,进⾏⼆次标注,进⽽不断迭代数据,提⾼模型性能。
3. 基于图的品类关系推理。在获得了初步的同义词、上下位关系之后,我们使⽤已有的这些关系构建⽹络,使⽤GAE、VGAE等⽅法对⽹络进⾏链路预测,从⽽进⾏图谱边关
系的补全。
图5 商品图谱品类体系的构建标准/抽象商品标准商品是描述商品本⾝客观事实的颗粒度,和销售渠道和商户⽆关,⽽商品条形码是标准商品这层的客观依据。标品关联即将同属于某个商品条形码的业务SKU/SPU,都正确关联到该商品条形码上,从⽽在标准商品层级上建模相应的客观知识,例如标准商品对应的品牌、⼝味和包装等属性。下⾯通过⼀个案例来说明标品关联的具体任务和⽅案。案例:下图是⼀个公⽜三⽶插线板的标准商品。商家录⼊信息的时候,会把商品直接关联到商品条码上。通过商户录
⼊数据完成了⼀部分的标品关联,但这部分⽐例⽐较少,且存在⼤量的链接缺失,链接错误的问题。另外,不同的商家对于同样的标品,商品的标题的描述是千奇百怪的。我们的⽬标是补充缺失的链接,将商品关联到正确的标品上。
图6 商品图谱标品关联任务
针对标品关联任务,我们构建了商品领域的同义词判别模型:通过远监督的⽅式利⽤商户已经提供的少量有关联的数据,作为已有的知识图谱构造远监督的训练样本。在模型中,正例是置信度⽐较⾼的标品码;负例是原始数据中商品名或者图像类似但不属于同⼀标品的SPU。构造准确率⽐较⾼的训练样本之后,通过BERT模型进⾏同义词模型训练。最后,通过模型⾃主去噪的⽅式,使得最终的准确率能够达到99%以上。总体能做到品牌,规格,包装等维度敏感。
图7 商品图谱标品关联⽅法
抽象商品是⽤户认知的层⾯,作为⽤户所评论的对象,这⼀层对⽤户偏好建模更加有效。同时,在决策信息的展⽰上,抽象商品粒度也更符合⽤户认知。例如下图所⽰冰淇淋的排⾏榜中,罗列了⽤户认知中抽象商品对应的SKU,然后对应展⽰不同抽象商品的特点、推荐理由等。抽象商品层整体的构建⽅式,和标准商品层⽐较类似,采⽤标品关联的模型流程,并在数据构造部分进⾏规则上的调整。
图8 商品图谱抽象商品聚合
属性维度建设
对⼀个商品的全⾯理解,需要涵盖各个属性维度。例如“乐事黄⽠味薯⽚”,需要挖掘它对应的品牌、品类、⼝味、包装规格、标签、产地以及⽤户评论特⾊等属性,才能在商品搜索、推荐等场景中精准触达⽤户。商品属性挖掘的源数据主要包含商品标题、商品图⽚和半结构化数据三个维度。

本文发布于:2024-09-22 03:49:55,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/451446.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:商品   品类   图谱
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议