一种多数据源影视数据实体对齐的方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201711089351.4
(22)申请日 2017.11.08
(71)申请人 四川长虹电器股份有限公司
地址 621000 四川省绵阳市高新区绵兴东
路35号
(72)发明人 唐娟 唐军 李晓燕 
(74)专利代理机构 成都虹桥专利事务所(普通
合伙) 51124
代理人 吴中伟
(51)Int.Cl.
G06F  17/30(2006.01)
(54)发明名称
一种多数据影视数据实体对齐的方法
(57)摘要
本发明涉及影视知识图谱领域,公开了一种
多数据源影视数据实体对齐的方法,来对齐多个
数据源的实体,处理不同数据源之间的互补及冗
余信息。本发明通过采集来自多个数据源的影视
数据并进行数据预处理、属性对齐;然后基于预
定义的影视实体匹配规则迅速对齐一部分实体;
再基于实体相似度匹配剩下的影视实体;最后根
据匹配结果进行影视实体对齐。本发明适用于影
视知识图谱中多数据源影视数据实体对齐。权利要求书1页  说明书5页  附图1页CN 107748799 A 2018.03.02
C N  107748799
A
1.一种多数据源影视数据实体对齐的方法,其特征在于,包括以下步骤:
步骤1:收集来自不同数据源的影视数据并分类;
步骤2:从影视数据中提取实体、实体主要特征、实体间关系;
步骤3:对提取的数据进行预处理;
步骤4:基于预定义规则匹配与实体相似度匹配相结合的方式进行实体匹配;
步骤5:根据实体匹配结果对齐实体。
2.如权利要求1所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤2中,从影视数据中提取的实体包括影视实体、人物实体;影视实体的主要特征至少包括片名、别名、出品年、上映日期、制片国家/地方、类型;人物实体的特征至少包括人名、别名、出生日期、职业;实体间的关系至少包括人物与影片之间的“参演/导演/编剧”关系。
3.如权利要求1所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤3中,对提取的数据进行预处理包括:
①简繁体转换、特殊字符处理以及html转义字符处理;
②根据属性特征分别进行处理,并将各属性对齐。
4.如权利要求1或2所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤4具体包括:利用预定义规则匹配对待匹配实体中能够完成规则匹配的部分进行匹配,利用实体相似度匹配对待匹配实体中不能够完成规则匹配的部分进行匹配。
5.如权利要求4所述的一种多数据源影视数据实体对齐的方法,其特征在于,所述预定义规则匹配包括唯一规则匹配和非唯一规则匹配;匹配时,满足任意一条唯一匹配规则则认为对应的实体相匹配,满足任意非唯一匹配规则的实体则加入候选集,利用多条非唯一规则对候选集中元素进行筛选,以到与待匹配实体相匹配的实体。
6.如权利要求4所述的一种多数据源影视数据实体对齐的方法,其特征在于,所述实体相似度匹配包括:
步骤41:基于概率模型计算得到影视实体各个属性的权重;
步骤42:确定影视实体的属性的类型,并利用各类型所对应的计算公式计算实体各属性的相似度;影视实体的属性的类型包括数值型、字符串型、日期型和集合型;
步骤43:将属性权重和相似度加权平均得到实体的相似度,与待匹配实体相似度最大且相似度大于给定阈值的实体即与待匹配实体相匹配。
7.如权利要求6所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤42在计算两个影视实体的影视名、演员名、导演名、编剧名属性的相似度时,需要同时考虑各个实体的本名和别名,将其本名与零个或多个别名组合成名字集合,然后计算两个名字集合是否存在交集及交集的大小来判断相应属性是否相等:如果影视名、导演名、编剧名属性的名字集合的交集不为空,则认为待匹配影视实体的相
应属性的属性值相同,如果演员名属性的名字集合p 1、p 2的交集中元素的个数Num满足:Num(p 1∩p 2)≥3或≥min(Num(p 1),Num (p 2)),则认为待匹配实体的演员属性相等。
8.如权利要求1所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤5中,根据匹配结果进行实体对齐时遵循如下规则:如果目标数据源中已存在待对齐实体,则对其属性进行更新,若属性值有歧义,则保留较热门数据源的值;如果目标数据源中不存在待对齐实体,则将该实体添加到目标数据源中。
权 利 要 求 书1/1页CN 107748799 A
一种多数据源影视数据实体对齐的方法
技术领域
[0001]本发明涉及影视知识图谱领域,特别涉及一种多数据源影视数据实体对齐的方法。
背景技术
[0002]传统的搜索引擎主要是基于关键字搜索相关网页,再由用户人工从一堆候选网页中寻有用的信息,随着互联网技术的飞速发展,这种传统的搜索引擎已经日渐无法满足人们的需求,人们对搜索有了
更高的期望。在此背景下,知识图谱也就应运而生了,它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,描述了真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善了搜索结果。
[0003]知识图谱覆盖了各个领域的知识,其中也包括影视这一人们娱乐生活中不可或缺的领域。影视知识图谱的构建需要将来自多个影视数据源的数据进行实体对齐,如豆瓣网、时光网、电影百度百科、中国电影票房网等数据源,从而实现一个统一接口、统一语义的影视知识图谱。由于来自不同数据源的数据的格式、内容、信息量都可能不同,必须要使用一种有效的方法来对齐多个数据源的实体,处理不同数据源之间的互补及冗余信息,充分综合有用的信息,从而生成对影视对象的一致性解释和描述。现有的影视知识图谱领域的实体对齐主要是采用通用的一些实体对齐方法,并未考虑影视领域数据特有的特点,而导致实体对齐结果的查准率和查全率不高。
发明内容
[0004]本发明要解决的技术问题是:提供一种多数据源影视数据实体对齐的方法,来对齐多个数据源的实体,处理不同数据源之间的互补及冗余信息。
[0005]为解决上述问题,本发明采用的技术方案是:一种多数据源影视数据实体对齐的方法,包括以下步骤:
[0006]步骤1:收集来自不同数据源的影视数据并分类;
[0007]步骤2:从影视数据中提取实体、实体主要特征、实体间关系;
[0008]步骤3:对提取的数据进行预处理;
[0009]步骤4:基于预定义规则匹配与实体相似度匹配相结合的方式进行实体匹配;[0010]步骤5:根据实体匹配结果对齐实体。
[0011]进一步的,步骤2中,从影视数据中提取的实体包括影视实体、人物实体;影视实体的主要特征至少包括片名、别名、出品年、上映日期、制片国家/地方、类型;人物实体的特征至少包括人名、别名、出生日期、职业;实体间的关系至少包括人物与影片之间的“参演/导演/编剧”关系。
[0012]进一步的,步骤3中,对提取的数据进行预处理包括:
[0013]①简繁体转换、特殊字符处理以及html转义字符处理;
[0014]②根据属性特征分别进行处理,并将各属性对齐。
[0015]进一步的,步骤4具体包括:利用预定义规则匹配对待匹配实体中能够完成规则匹配的部分进行匹配,利用实体相似度匹配对待匹配实体中不能够完成规则匹配的部分进行匹配。
[0016]进一步的,所述预定义规则匹配包括唯一规则匹配和非唯一规则匹配;匹配时,满足任意一条唯一匹配规则则认为对应的实体相匹配,满足任意非唯一匹配规则的实体则加入候选集,利用多条非唯一规则对候选集中元素进行筛选,以到与待匹配实体相匹配的实体。
[0017]进一步的,所述实体相似度匹配包括:
[0018]步骤41:基于概率模型计算得到影视实体各个属性的权重;
[0019]步骤42:确定影视实体的属性的类型,并利用各类型所对应的计算公式计算实体各属性的相似度;影视实体的属性的类型包括数值型、字符串型、日期型和集合型;[0020]步骤43:将属性权重和相似度加权平均得到实体的相似度,与待匹配实体相似度最大且相似度大于给定阈值的实体即与待匹配实体相匹配。
[0021]进一步的,步骤42在计算两个影视实体的影视名、演员名、导演名、编剧名属性的相似度时,需要同时考虑各个实体的本名和别名,将其本名与零个或多个别名组合成名字集合,然后计算两个名字集合是否存在交集及交集的大小来判断相应属性是否相等:如果影视名、导演名、编剧名属性的名字集合的交集不为空,则认为待匹配影视实体的相应属性的属性值相同,如果演员名属性的名字集合p1、p2的交集中元素的个数Num满足:Num(p1∩p2)≥3或≥min(Num(p1),Num(p2)),则认为待匹配实体的演员属性相等。
[0022]进一步的,步骤5中,根据匹配结果进行实体对齐时遵循如下规则:如果目标数据源中已存在待对齐实体,则对其属性进行更新,若属性值有歧义,则保留较热门数据源的值;如果目标数据源中不存在待对齐实体,则将该实体添加到目标数据源中。
[0023]本发明的有益效果是:本发明充分考虑了影视领域数据特有的特点,首先基于预定义的影视实体匹配规则迅速对齐一部分实体,再基于实体相似度匹配剩下的影视实体,能够在保证实体对齐速率的前提下,以更高的查准率和查全率对齐来自不同数据源的数据,为影视知识图片的构建提供了一个具有统一语义的数据支撑。
附图说明
[0024]图1为实施例的流程图。
具体实施方式
[0025]下面将结合附图更详细地描述本发明的示例性实施例。如图1所示,一种多源影视数据实体对齐的具体工作流程如下:
[0026]步骤1:数据收集与实体、实体间关系提取。
[0027]从多个不同的影视数据源站点中抓取影视相关的数据(本实施例中以两个数据源为例),从抓取的数据中提取构建影视知识图谱将会用到的实体、属性与实体间关系,实体包括影视、人物、角,影视实体的属性包括:片名、别名、出品年、上映日期、制片国家/地区、演员、导演、编剧、影片类型等影片基本信息;人物实体的属性包括:人名、别名、出生日期、国籍、身高、体重、家人等基本个人信息;角实体的属性包括:角名、别名。实体间关
系包括人物与影片间的关系(参演、配音、导演、编剧、制片等)、人物与人物间的关系(父亲、、妻子、朋友、同学等)、人物与角间的关系(扮演)、影片与角间的关系(角)。[0028]步骤2:数据预处理与属性对齐
[0029]先对数据进行统一处理:繁体转换为简体、特殊字符处理、html字符转义;再对不同的属性根据其特征分别进行处理将各属性对齐,如影视数据中的人物实体的生日属性包括以下形式:{“生日”:”1991-1-12出生”}、{“出生日期”:”于1991年1月12号出生”}、{”birthday”:”1991/1/12”}等,利用正则表达式”\d{4}[年\-—/\.]\d{1,2}[月\-—/\.]\d {1,2}[日号]?”提取出生日信息,再转换为统一形式,即统一处理为{“birthday”:”1991-01-12”}格式的生日。
[0030]步骤3:影视实体匹配,分为以下两部分:
[0031]步骤31:基于预定义规则进行匹配
[0032]对于影片数据,定义以下十条匹配规则:①片名(影片名或别名)相同且上映日期相同;②导演相同且上映日期相同;③编剧相同且上映日期相同;④片名相同、导演相同且出品年相同;⑤片名相同、编剧相同且出品年相同;⑥片名、出品年及制片地区/国家相同;
⑦片名及导演相同;⑧片名及编剧相同;⑨演、出品年及演员相同;⑩编剧、出品年及演员相同。其中片名、导演名、编剧名、演员名均为集合且包括本名及别名,只要两个名字集合的交集中元素个数大于给定的阈值则认为两个名字相同。如果两个影片实体满足上述规则中①~⑤中的任意一条,则认为两个实体是匹配的;如果满足规则⑥~⑩中某一条,则继续根据⑥~⑩中其他条规则来逐次筛选待匹配实体直到到唯一的匹配实体或搜索结束。[0033]对于人物数据,定义以下两条规则:①姓名相同且出生日期相同;②相同且参演影片相同。其中,姓名和参演影片名皆为集合且包括本名和别名,只要两个名称集合的交集的大小大于给定的阈值则认为两个名字相同。
[0034]步骤4:规则匹配结束后,对未匹配的实体部分再进行实体相似度进行匹配。实体相似度进行匹配的流程如下:
[0035]步骤41:实体属性权重计算
[0036]根据下列式子计算数据源中各个实体各个属性权重。
[0037]
[0038]w′p=w″p/max(w″l)
[0039]
[0040]式中,L表示C中的实体共有L个属性;M表示C中包含属性p的实体的总数;n k表示对
于属性p的属性值来说,在中有k个与的b值相等。
[0041]以影视数据中的影片实体为例,通过上述公式计算得到影片实体各个属性的权重值如下:
[0042]w(影片名)=0.194 w(别名)=0.152 w(上映日期)=0.087
[0043]w(出品年)=0.066 w(导演)=0.141 w(演员)=0.155
[0044]w(编剧)=0.138  w(类型)=0.028 w(制片国家/地区)=0.038

本文发布于:2024-09-25 04:27:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/423752.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实体   影视   匹配   数据   属性   数据源   规则   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议