一种分析计算人员亲密度的方法及系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201810574663.2
(22)申请日 2018.06.06
(71)申请人 山东合天智汇信息技术有限公司
地址 250000 山东省济南市历下区齐鲁软
件园创业广场E座
(72)发明人 田立娜 高军 王可鑫 段文良 
(74)专利代理机构 济南圣达知识产权代理有限
公司 37221
代理人 李琳
(51)Int.Cl.
G06F  17/30(2006.01)
G06Q  50/00(2012.01)
G06Q  50/26(2012.01)
(54)发明名称
一种分析计算人员密度的方法及系统
(57)摘要
本发明公开了一种分析计算人员亲密度的
方法及系统,本发明旨在针对公安数据人员关系
进行挖掘,主要从人员的行为数据、属性数据进
行分析,针对分析结果进行预测人员之间的亲密
度得分。通过亲密度值的筛选,从而得到亲密度
最亲近的人及经常活动在一起的人员,为公安办
案及案情研判提供一定的辅助。权利要求书2页  说明书5页  附图2页CN 108897780 A 2018.11.27
C N  108897780
A
1.一种分析计算人员亲密度的方法,其特征是:包括以下步骤:
(1)获取公安数据,利用关系人的自身属性直接计算单一关系亲密度,通过单一关系表示人员关系的亲疏度;
(2)获取关系人的行为数据,对数据的质量进行统计及数据的时效性进行分析;
(3)对同住宿、同房间、同上网、同飞机、同火车、同交通违法、同车事故、同租房和同事关系的行为特征选定进行统计;
(4)对人员关系、行为数据和行为特征进行样本的统计,利用逻辑回归算法创建线性预测模型;
(5)利用Logistic Regression算法将线性预测模型的结果映射到sigmoid函数中,得到样本数据的概率密度函数;
(6)通过大数据挖掘人与之间的属性特征及出行行为特征进行数据的分析并将分析结果存储,获取预测数据,并将预测数据作为线性预测模型的输入,计算得出人员亲密度值。
2.如权利要求1所述的一种分析计算人员亲密度的方法,其特征是:所述步骤(1)中,获取公安数据,主要涉及人员的常住人口、民政厅数据、流口数据,使用关系人的自身属性直接计算单一关系亲密度,通过单一关系表示人员关系的亲疏度,单一关系包括但不限于,同户、夫妻、父女、母女或兄弟妹直接表示关系人关系。
3.如权利要求1所述的一种分析计算人员亲密度的方法,其特征是:所述步骤(2)中,关系人行为数据,包括但不限于铁路、民航、住宿、网吧、交通违法、交通事故、租房或/和同事关系数据。
4.如权利要求1所述的一种分析计算人员亲密度的方法,其特征是:所述步骤(2)中,如果一段时间内没
有发生行为关系,则亲密度会根据时间的推移消失。
5.如权利要求1所述的一种分析计算人员亲密度的方法,其特征是:所述步骤(3)中,关系行为特征具体为:
同住:关系人同时在住同一宾馆并开N个房间(N>1);或,同时开房、同时退房,时间差在T时间段;
同房间:关系人在同时入住同一个宾馆的同一个房间;
同上网:关系人在在同一个网吧T时间上机、同上网邻座;并在同T时间下机;
同飞机:关系人在同一个机场T时间同时登机、同下机;
同飞机订票:关系人T时间同订共同一个航班机票;
同飞机邻座:关系人T时间在同航班并且为邻座关系;
同火车:关系人在T时间同坐同一趟火车,并且起始地点相同;
同火车订票:关系人在T时间同订票,并且是同一趟火车相同起始地;
同火车邻座:关系人在T时间乘坐同一趟火车,且为邻座;
同交通违法:关系人在T时间使用同一辆车发生交通违法;
同车事故:关系人在T时间使用同一辆车发生交通事故;
同租房:关系人在T时间同租一套房;
同事:关系人在T时间为同事关系。
6.如权利要求1所述的一种分析计算人员亲密度的方法,其特征是:所述步骤(4)中,对步骤(1)-步骤(3)中的所有关系特征值进行数据校验,凡是涉及同户、夫妻特征的样本数据
的值大于0分为a类;针对所有特征值进行数据校验,涉及到同户、夫妻特征的样本数据值为0,而其他行为数据存在有效数据的分为b类。
7.如权利要求1所述的一种分析计算人员亲密度的方法,其特征是:所述步骤(5)中,sigmoid的函数输出介于(0,1)之间,若模型的输出值小于设定值,则说明当前数据属于a 类;否则说明当前数据属于b类。
8.如权利要求1所述的一种分析计算人员亲密度的方法,其特征是:所述步骤(5)中,将有监督样本数据作为模型训练的数据源,通过设置模型参数,其中包括最大的迭代次数n,n >0,正则化系数r,r大于等于0,二分类预测的阈值t,迭代算法的收敛性l,进而创建亲密度预测模型。
9.如权利要求1所述的一种分析计算人员亲密度的方法,其特征是:所述步骤(6)中,通过大数据挖掘人与之间的属性特征及出行行为特征进行数据的分析并将分析结果存储到Hbase,这部分数据称之为预测特征,通过从Hbase获取预测数据,并将预测数据作为构建的模型需要的预测数据,从而从此模型中得出人员亲密度的值,并将预测结果值有二维矩阵转为一维数组进行存储到Hbase。
10.一种分析计算人员亲密度的系统,其特征是:运行于处理器或存储器上,被配置为执行以下指令:
(1)获取公安数据,利用关系人的自身属性直接计算单一关系亲密度,通过单一关系表示人员关系的亲疏度;
(2)获取关系人的行为数据,对数据的质量进行统计及数据的时效性进行分析;
(3)对同住宿、同房间、同上网、同飞机、同火车、同交通违法、同车事故、同租房和同事关系的行为特征选定进行统计;
(4)对人员关系、行为数据和行为特征进行样本的统计,利用逻辑回归算法创建线性预测模型;
(5)利用Logistic Regression算法将线性预测模型的结果映射到sigmoid函数中,得到样本数据的概率密度函数;
(6)通过大数据挖掘人与之间的属性特征及出行行为特征进行数据的分析并将分析结果存储,获取预测数据,并将预测数据作为线性预测模型的输入,计算得出人员亲密度值。
一种分析计算人员亲密度的方法及系统
技术领域
[0001]本发明涉及一种分析计算人员亲密度的方法及系统。
背景技术
[0002]在人员关系挖掘方面比较流行的技术是基本关系图谱的挖掘,无论是使用传统的关系型数据库还是使用现今比较流行的大数据图计算方式都避免不了计算人员亲密度,从而可以同亲密度结果上进一步精确分析密切关注的人的出行情况。
[0003]针对公安数据的种类越来越多,需要挖掘数据的维度越来越广泛。使用传统的出行次数统计法界定约定权重进行计算亲密度已经不能适用现在的多元化数据分析。现今的公安数据多维度、多种人员关系行为数据之间关系错综复杂,需要提取的人员行为特征也在逐步增加;如何实现自动化计算每个特征的权重值成为了需要。
[0004]发明专利《一种基于公安数据获取多维人员关系亲密度的方法及系统》中,公开了根据公安系统的数据,利用以线性、指数和半衰期的衰退的关系度进行关系亲密度的计算,但这种方法计算量大,且结果并不精确。
发明内容
[0005]本发明为了解决上述问题,提出了一种分析计算人员亲密度的方法及系统,本发明针对公安数据人员关系进行挖掘,主要从人员的行为数据、属性数据进行分析,针对分析结果进行预测人员之间的亲密度得分。通过亲密度值的筛选,从而得到亲密度最亲近的人及经常活动在一起的人员,为公安办案及案情研判提供一定的辅助。
[0006]为了实现上述目的,本发明采用如下技术方案:
[0007]一种分析计算人员亲密度的方法,包括以下步骤:
[0008](1)获取公安数据,利用关系人的自身属性直接计算单一关系亲密度,通过单一关系表示人员关系的亲疏度;
[0009](2)获取关系人的行为数据,对数据的质量进行统计及数据的时效性进行分析;[0010](3)对同住宿、同房间、同上网、同飞机、同火车、同交通违法、同车事故、同租房和同事关系的行为特征选定进
行统计;
[0011](4)对人员关系、行为数据和行为特征进行样本的统计,利用逻辑回归算法创建线性预测模型;
[0012](5)利用Logistic Regression算法将线性预测模型的结果映射到sigmoid函数中,得到样本数据的概率密度函数;
[0013](6)通过大数据挖掘人与之间的属性特征及出行行为特征进行数据的分析并将分析结果存储,获取预测数据,并将预测数据作为线性预测模型的输入,计算得出人员亲密度值。
[0014]进一步的,所述步骤(1)中,获取公安数据,主要涉及人员的常住人口、民政厅数据、流口数据,使用关系人的自身属性直接计算单一关系亲密度,通过单一关系表示人员关
系的亲疏度,单一关系包括但不限于,同户、夫妻、父女、母女或兄弟妹直接表示关系人关系。
[0015]进一步的,所述步骤(2)中,关系人行为数据,包括但不限于铁路、民航、住宿、网吧、交通违法、交通事故、租房或/和同事关系数据。
[0016]进一步的,所述步骤(2)中,如果一段时间内没有发生行为关系,则亲密度会根据时间的推移消失。
[0017]进一步的,所述步骤(3)中,关系行为特征具体为:
[0018]同住:关系人同时在住同一宾馆并开N个房间(N>1);或,同时开房、同时退房,时间差在T时间段;
[0019]同房间:关系人在同时入住同一个宾馆的同一个房间;
[0020]同上网:关系人在在同一个网吧T时间上机、同上网邻座;并在同T时间下机;[0021]同飞机:关系人在同一个机场T时间同时登机、同下机;
[0022]同飞机订票:关系人T时间同订共同一个航班机票;
[0023]同飞机邻座:关系人T时间在同航班并且为邻座关系;
[0024]同火车:关系人在T时间同坐同一趟火车,并且起始地点相同;
[0025]同火车订票:关系人在T时间同订票,并且是同一趟火车相同起始地;
[0026]同火车邻座:关系人在T时间乘坐同一趟火车,且为邻座;
[0027]同交通违法:关系人在T时间使用同一辆车发生交通违法;
[0028]同车事故:关系人在T时间使用同一辆车发生交通事故;
[0029]同租房:关系人在T时间同租一套房;
[0030]同事:关系人在T时间为同事关系。
[0031]上述T时间可以一致,也可以不一致,根据具体情况相调节设置,如同飞机邻座的时间T小于同事关系的时间T。
[0032]进一步的,所述步骤(4)中,对步骤(1)-步骤(3)中的所有关系特征值进行数据校验,凡是涉及同户、夫妻特征的样本数据的值大于0分为a类;针对所有特征值进行数据校验,涉及到同户、夫妻特征的样本数据值为0,而其他行为数据存在有效数据的分为b类。[0033]进一步的,所述步骤(5)中,sigmoid的函数输出介于(0,1)之间,若模型的输出值小于设定值,则说明当前数据属于a类;否则说明当前数据属于b类。
[0034]进一步的,所述步骤(5)中,将有监督样本数据作为模型训练的数据源,通过设置模型参数,其中包括最大的迭代次数n,n>0,正则化系数r,r大于等于0,二分类预测的阈值t,迭代算法的收敛性l,进而创建亲密度预测模型。
[0035]进一步的,所述步骤(6)中,通过大数据挖掘人与之间的属性特征及出行行为特征进行数据的分析
并将分析结果存储到Hbase,这部分数据称之为预测特征,通过从Hbase获取预测数据,并将预测数据作为构建的模型需要的预测数据,从而从此模型中得出人员亲密度的值,并将预测结果值有二维矩阵转为一维数组进行存储到Hbase。
[0036]一种分析计算人员亲密度的系统,运行于处理器或存储器上,被配置为执行以下指令:
[0037](1)获取公安数据,利用关系人的自身属性直接计算单一关系亲密度,通过单一关系表示人员关系的亲疏度;

本文发布于:2024-09-22 12:40:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/416954.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   关系   人员   特征   密度   关系人
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议