一种涉法人员体画像分析系统及方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201911366166.4
(22)申请日 2019.12.26
(71)申请人 银江股份有限公司
地址 310012 浙江省杭州市益乐路223号1
幢1层
(72)发明人 王开红 陈涛 金佳佳 丁锴 
李建元 
(74)专利代理机构 杭州之江专利事务所(普通
合伙) 33216
代理人 张慧英
(51)Int.Cl.
G06F  21/62(2013.01)
G06K  9/62(2006.01)
G06Q  50/18(2012.01)
(54)发明名称
一种涉法人员画像分析系统及方法
(57)摘要
本发明涉及一种涉法人员体画像分析系
统及方法,本发明主要包括涉法数据融合及预处
理,涉法数据深度脱敏,融合数据特征处理,涉法
人员体挖掘,体画像构建和画像展示六部
分;本发明针对司法数据进行深度脱敏,防止信
息泄露保护信息安全,并且针对融合多种业务系
统涉法人员的体性画像,方便挖掘特殊体并
进行有针对性的策略制定;此外,本发明还具有
一定的灵活性,可根据用户经验对画像特征进行
调整,
并且可以针对特殊体进行可视化展示。权利要求书3页  说明书10页  附图1页CN 111159763 A 2020.05.15
C N  111159763
A
1.一种涉法人员体画像分析方法,其特征在于,包括如下步骤:
(1)采集涉法数据,并对涉法数据进行融合及预处理;
(2)对融合及预处理后的涉法数据进行深度脱敏;
(3)基于涉法数据分别进行文本特征处理与数值特征处理,并进行特征融合,得到涉法人员的特征;
(4)对涉法人员的特征作升维处理,将其转化为固定长度向量后作降维处理,并采用聚类算法进行涉法人员体挖掘;
(5)基于聚类结果,结合涉法人员的特征进行体画像构建;
(6)对构建得到的人物画像进行可视化处理,并支持根据界面展示对特征进行二次筛选。
2.根据权利要求1所述的一种涉法人员体画像分析方法,其特征在于:所述步骤(1)具体为:通过多个业务系统收集涉法数据,将涉法人员基本信息赋予不同的权重,计算涉法人员相似程度,通过设置相似程度阈值、冗余信息处理、冲突信息处理来进行跨系统数据融合,并将单个业务系统中完全相同的记录去除,将空值率大于预设阈值的字段去除。
3.根据权利要求1所述的一种涉法人员体画像分析方法,其特征在于:所述的深度脱敏方法步骤如下:
(2.1)统计涉法人员姓名信息,按照姓名中姓和名字的分布情况,重新生成涉法人员姓名;
(2.2)对涉法数据中涉及到的组织机构信息进行编码处理;
(2.3)将身份证件和转化为唯一标识代码形式;
(2.4)结合外部地图数据,对采集到的地址信息进行规范化处理,规范化为省市县的形式,不涉及更加详细信息;
(2.5)识别所述融合及预处理后的涉法数据中的实体数据,对所述实体数据执行步骤(2.1)-(2.4),完成数据脱敏。
4.根据权利要求3所述的一种涉法人员体画像分析方法,其特征在于:所述步骤(3)具体为:将涉法数据归类为文本特征数据与数值特征数据,具体划分为人员固定属性、人员动态属性、文本描述、地址、组织以及涉法案件特征六种特征类别数据,对这六种特征类别分别进行数据处理,并进行特征融合得到涉法人员的特征;其中,六种特征类别数据及处理具体如下:
1)人员固定属性数据反映涉法人员的基本信息,对数据进行预处理;
2)人员动态属性数据是指随着时间变化而不断改变的特征,反映涉法人员思想、行为变化状态,计算各动态属性数据的均值、方差、以及变化趋势,其中类别类数据需转化为数值型数据;
3)文本描述数据反应涉法案件文本描述信息,先进行分词,并采用word2vec模型生成X 维向量;
4)地址数据反映涉法案件的地址相关性,采用步骤(2.4)所述方法处理;
5)组织数据反映涉法案件的组织相关性,采用步骤(2.2)所述方法处理;
6)涉法案件特征是指司法机关对涉法人员涉法事件的相关裁定信息,并对此类信息进行预处理。
5.根据权利要求4所述的一种涉法人员体画像分析方法,其特征在于:所述变化趋势通过如下公式计算:
x=[x1,x2,...,x m]
其中,m表示某个涉法人员动态数据记录条数;j是下标,无实际意义;x表示动态记录;1 {}表示括号中记录为真则值为1,否则值为0;td(x)是特征x的变化趋势值,代表动态数据变好或者维持现状的趋势,在0-1之间。
6.根据权利要求1所述的一种涉法人员体画像分析方法,其特征在于:所述步骤(4)具体如下:
(4.1)对涉法数据中的数值特征数据进行升维处理,转化为X维的向量形式,X可以根据实际特征类别以及特征数量决定;其中,空值特征也编码为X维向量;
(4.2)将特征向量乘以对应的权重横向拼接在一起,生成固定长度的涉法人员特征F,
F=[g1f1,g2f2,...,g N f N]
其中,N表示涉法人员的特征数量,f表示X维特征向量,g表示特征向量的权重,根据业务需求来设定,F表示涉法人员特征拼接向量,共有N*X维;N的选取根据实际业务系统的特征数据量决定;
(4.3)对得到的涉法人员特征F进行降维处理,采用PCA降维提取主要特征F′,其中降维后F的维度可根据实际采用的算法和模型的准确度需求来设定;
(4.4)采用自适应DBSCAN密度聚类算法对处理好的降维特征F′进行聚类分析,获得稳定的C个聚类类别。
7.根据权利要求6所述的一种涉法人员体画像分析方法,其特征在于:所述的自适应DBSCAN密度聚类算法具体为:
假设样本数据D={F′1,F′2,...,F′M},M是样本个数,设置初始参数为ε0和MinPts,采用欧式距离计算
样本间的距离dis;通过距离度量的形式,寻样本d i的ε-邻域样本集Dε(d i),如果dis(d i,d j)<ε,则样本d j是d i的ε-邻域样本;Dis是样本d i与其他样本之间距离dis的由小到大排序集合,如果Dε(d i)中样本个数大于MinPts,则d i是核心对象样本,其中ε的自适应计算如下式所示:
其中,j表示下标,无实际意义;α,β是权重,0≤β<α≤1,具体数值可根据实际训练结果调整;max()是取最大值函数;Dis j是Dis中下标小于等于j的子样本集;是sigmod函数θ泛指参数;E()是取均值函数;当E(Dis j)<αε0时h(Dis j)<0,即样本密度大,则将εj调小;相反的,样本密度小时,则将εj调大;
任选没有类别的核心对象,到这个核心对象所有密度可达的样本集合,即聚类簇;直到所有核心对象都有类别获得C个聚类类别。
8.根据权利要求1所述的一种涉法人员体画像分析方法,其特征在于:所述步骤(5)具体为:基于聚类得到的C个聚类类别,选用涉法人员的特征中的人员固定属性特征、人员
动态属性特征及涉法案特征进行详细刻画,生成人物画像,并分别打上标签,实现步骤如下:
(5.1)根据业务场景需求选取人员固定属性中若干个特征综合表示,分别统计类别中各特征值对应的人员数,取人员数最多的特征值为该特征的标签;
(5.2)根据业务场景需求选取人员动态属性中若干个特征进行刻画体画像,其中,特征标签计算方法具体如下:
将数据归一化为[0,1]之间的数值型,结合数据均值、方差、以及变化趋势计算:
其中,m表示动态数据特征记录条数;x表示涉法人员动态属性特征x的动态记录,均在0-1之间;td(x)是变化趋势,0≤mean(x)≤1是动态记录的均值,0≤var(x)≤1是动态记录的方差;fd(x)表示涉法人员动态属性特征x的动态特征标签,在0-1之间,将0-1均分为4等份,从大到小映射为优、良、中、差,分别统计动态数据中各特征值对应的人数,人数最多的特征值为特征的标签;
(5.3)根据业务场景需求选取涉法案件特征数据中若干个特征,计算涉案性质标签:
其中,ns表示人员涉法次数,d表示数据来源业务系统个数,p表示选取的特征个数,k表示下标,无实际意义;q k是第k个业务系统与时间相关的特征,假设符合均值为u方差为σ的正态分布,Q k是q k在区间[u-2σ,u+2σ]的均值;fz是计算得到的涉案性质,将0-1均分为5等份,从大到小映射为非常严重、严重、一般、较轻、轻微五个等级作为涉案性质的标签,分别统计五个等级中各特征值对应的人数,人数最多的特征值为人员画像中涉案性质的标签。
9.根据权利要求1所述的一种涉法人员体画像分析方法,其特征在于:所述步骤(6)具体包括如下步骤:
(6.1)将聚类特征降维到二维平面坐标系中展示类簇,直观展现涉法人员类簇分布情况;
(6.2)点击具体的类簇,可显示类簇中人物画像特征;
(6.3)点击具体的人物画像特征,可对比展示各类簇特征之间的差异;
(6.4)根据展示的效果,可筛选调整算法特征。
10.一种涉法人员体画像分析系统,其特征在于,包括:数据采集模块、数据融合处理模块、数据深度脱敏模块、特征处理模块、涉法人员体挖掘模块、画像展示模块;
所述的数据采集模块用于从多个业务系统收集涉法数据,并将其归集在一起;
所述的数据融合处理模块用于对涉法数据进行融合,以及数据处理;
所述的数据深度脱敏模块用于对涉法数据中的敏感数据进行脱敏;
所述的特征处理模块用于融合数据特征处理;
所述的涉法人员体挖掘模块对涉法人员的特征作升维处理,将其转化为固定长度向量后作降维处理,并采用聚类算法进行涉法人员体挖掘;
所述的画像展示模块用于对涉法人员进行体画像构建,并对构建得到的人物画像进行可视化处理,并支持根据界面展示对特征进行二次筛选。
一种涉法人员体画像分析系统及方法技术领域
[0001]本发明涉及机器学习与自然语言处理技术领域,尤其涉及一种涉法人员体画像分析系统及方法。
背景技术
[0002]近年来,国家大力推进行政执法综合管理监督信息系统建设,完善全国行政执法数据汇集和信息
共享机制,全面提升全国行政执法与监督信息化水平,随着司法信息化的逐步完善,收集了大量的涉法案件信息,如裁判文书、监狱服刑记录、社区矫正、戒毒信息等数据。如何合理有效的利用数据辅助监管涉法人员,预防涉法人员逃脱、暴力、自杀等突发事件发生,根据涉法人员特征进行针对性教育改造,如何充分发挥数据效能是司法信息化建设的重要组成部分,而人物画像是在大数据背景下根据目标人物属性、行为等信息分析抽象出来的标签化的用户模型,用一些高度概括、容易理解的标签来描涉法体,可以为后续辅助监管、教育改造等提供有力支持。
[0003]目前,画像技术在电商、金融、通信等领域已经得到的很好的应用,为用户提供了良好的有针对性的服务。在司法领域人物画像技术应用还不多,专利CN109543986A是基于用户画像的监狱罪犯三预风险评估,通过分析样本数据来制定个人用户画像标签,再采用分类模型根据风险等级来生成风险预警信息。专利CN108399190A是监狱罪犯的全景画像方法,是针对罪犯个人的画像方法,首先通过聚类自动生成六个画像维度,再针对每个维度计算画像分值,根据罪犯画像分值给出不同的罪犯改造策略。专利CN201810592984.5,一种基于画像标签的戒毒人员康复评估系统,是将戒毒人员康复评估进行标签化,生成周期记录分析报告。以上专利是在某个司法业务领域内的画像及应用,忽略了各领域之间的关联性,画像信息不够全面,建模过程中也忽视了文本信息的重要性。
[0004]画像技术在司法领域相较于其他领域存在一定的困难,首先,司法数据是高度敏感数据,需要更加精细化针对性的数据脱敏技术进行数据脱敏后才能使用;其次,司法领域信息化发展起步较晚,采集
的数据不规范不全面,各个业务系统之间存在壁垒,而涉法人员可能不仅仅涉及一个业务系统,需要对数据进行融合;再次,司法数据存在中文本描述字段和结构化字,需要将自然语言处理技术和机器学习技术相结合,防止信息丢失;最后,司法数据存在一定的特殊性,需要一定的专业知识才能保证模型的有效性。
发明内容
[0005]本发明为克服上述的不足之处,目的在于提供一种涉法人员体画像分析系统及方法,本发明主要包括涉法数据融合及预处理,涉法数据深度脱敏,融合数据特征处理,涉法人员体挖掘,体画像构建和画像展示六部分;本发明针对司法数据进行深度脱敏,防止信息泄露保护信息安全,并且针对融合多种业务系统涉法人员的体性画像,方便挖掘特殊体并进行有针对性的策略制定;此外,本发明还具有一定的灵活性,可根据用户经验对画像特征进行调整,并且可以针对特殊体进行可视化展示。
说 明 书
1/10页CN 111159763 A

本文发布于:2024-09-21 17:32:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/450659.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:涉法   特征   人员   数据   画像   进行   群体
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议