犯罪信息网络分析与建模

犯罪信息网络分析与建模74ls164
庄一洲谓语助者*,刘森峰2*,肖柳斯2*
指导教师:程国胜3*
(南京信息工程大学1.大气物理学院,2.大气科学学院,3.数学与统计学院,江苏 南京210044
摘要:本文基于2012年美国数学建模C题的数据,利用83人共15个种类的600条信息进行了犯罪信息网络分析,建立了概率网络模型和最短路径模型,设计了相应的求解算法,对所有人的可疑度进行评价和排序,出通信网络中的可疑嫌犯,并对两个模型进行了对比。然后基于中心性理论建立了识别嫌犯领导人的模型,得到犯罪集团中最可能的领导人。最后讨论了文本分析、语义网络分析方法在犯罪信息网络分析中的应用,并对模型在其他领域推广应用的可行性进行了探讨。
关键字:网络分析;概率;图论;中心性;文本分析;语义分析
0 引言
随着资本经济扩张以及高科技在各行各业的广泛应用,经济型白领犯罪的势头愈发迅猛。张文军[ 1 ]的研究发现,白领犯罪人利用职权之便或者娴熟业务技能的优势,使得犯罪主体所采用的犯罪手段与其他形式犯罪相比,具有更大的隐秘性,从而使得案件侦查的难度加大。林志刚[ 2 ]的研究表明,越是经验丰富的高智商犯罪嫌疑人,做事越小心谨慎。基于一系列的犯罪心理研究成果对交流信息即情报进行挖掘,有助于提取涉嫌关系网。陈鹏等[ 3 ]对犯罪组织结构的社会网络进行了研究。Freeman[ 4 ]提出了一套计算整个网络中任何一个成员在网络中的重要与影响程度方法,包括点度中心度,中间中心度和接近中心度。周景等[ 5]通过文本挖掘技术,提取并建立情报信息的特征向量,采用中心度测度算法,提出一个自动化的情报分析系统,能定量分析各成员在犯罪网络中的地位和角。因此,从情报关系网络中侦破经济型白领犯罪的急需解决的问题。本文从某个案件的通信网络出发,对信息进行分类和识别,建立数学模型对人员的可疑性进行评价并且确定犯罪集团的领导人。
1 数据
本文分析数据来自2012年美国交叉学科建模竞赛(ICM),题目以商业犯罪为背景,给出了发生在83人(7人确定为嫌犯,8人确定非嫌犯)之间15个种类(3类为可疑型)的600条交流信息。
2 嫌犯可疑度
当前已经确认所有83人中有8人为非嫌犯,7人为嫌犯,且15类信息中主题71113为可能与罪案有关的主题。基于已知情报,建立概率模型和最短路径网络模型对公司内所有83人的可疑度进行研究。
2. 1 概率模型
除了已确定的嫌犯和非嫌犯,我们假设任何一个人是嫌犯的可能性仅与跟其有直接信息联系的人有关,如关联人是嫌犯或者信息是可疑类型,则嫌疑度较大,以下我们将以结点的概念来代替该案件中的“人”。为了表明这个概率网络中点间的关系,我们建立以下模型。
S={7,11,13}为可疑主题集,U={1,2,3,4,5,6,8,9,10,12,14,15}为非可疑主题集;83个结点分成3组,即嫌犯组、非嫌犯组和未确定组。分别设,不包括15个属于嫌犯组或非嫌犯组的结点)为三类结点各自是嫌犯的概率,易知=1=0
结点收发可疑主题信息数越多,则越大。结点的可疑程度:
                  (1)
其中()为该结点收发的可疑(非可疑)主题信息数,,分别为其权重。
赎回良心图 1
结点网络由许多以一未确定组结点为中心,包括与其直接联系的所有结点构成的小网络组成(如图1所示)。仿照全概率公式的形式,设网络的中心结点的概率为全概率公式中的,相连结点概率为公式中的,而,故
        (2)
任一结点的概率均由其周围有直接的联系的结点概率计算得到,实际上是把所有结点给联系起来,形成了一个“概率网络”。但是未确定组的结点概率都是未知的,所以直接利用上式不能计算出所有结点的概率,于是设计以下迭代算法求解(图1形象地展示求解过程):
1. 设定迭代次数,初始化参数,
2. 更新网络结点的概率值:
    遍历,使用式(2),计算未确定组所有结点概率
3. 计算所有结点在本次迭代前后的概率差平方和:
4. ,若则程序终止,否则返回2.
计算过程中,若随增加而趋近于0党史文苑,则表明整个概率网络趋近于稳定,且所有的基本已满足式(2)
图 2
2.2 最短路径网络模型
用网络图表示整个信息传递网络,其中结点集合表示人员,边集合表示信息;嫌犯组结点构成集合,非嫌犯组结点构成集合。通常为了避免泄密,嫌犯同谋会用尽可能短的人际网络路径来进行谋划信息的交流,所以图上的最短路径对评价可疑性有重要的作用,此外可疑信息也要比一般信息重要的多。因此,结点的可疑程度取决于网络图中信息的类型、数量和与嫌犯间的“距离”。最短路径距离用结点中任意结点的之间的最少边数来表示:
                    (3)
定义可疑指数来度量结点的可疑程度,已知嫌犯、非嫌犯的可疑指数分别为100;非确定组可疑指数按下式计算
                          (4)
其中,表示第个结点直接相连的第条边的权重,它的值由信息的类型决定,可疑信息和非可疑信息分别取值,求和符号对所有与结点直接相连的边进行求和,越大,第个结点的嫌疑程度越高。具体的算法过程如下所示:
1. 创建嫌犯组的结点集合和非嫌犯组的结点集合
2. 计算所有结点到的最短距离;
    创建一个邻接矩阵来表示信息传递网络,相连的边赋值为1,不相连的边赋值为0的结点初始化中的结点初始化
    paa1)从的结点出发,在矩阵中搜索所有与其直接相连的结点,同时构成新的集合,将它们的最小距离赋值为1   
2)继续往下搜索,某个结点一旦被访问赋值过,它的值将不会再被修改,直到网络图中所有结点都被访问过为止;
3. 访问所有的边,赋给它们权重,根据公式(3)计算,并且由它相连的两个结点计算
4. 对于集合的结点,赋值为10.0;对于集合赋值为0.0;其他结点的可疑指数按公式(4)累加计算每个结点收到的可疑贡献总和。
整个算法流程可由图3形象表达。
2.3 结论
在概率模型中,设置参数:,基于以上所设计的迭代算法,使用MATLAB编程计算,的变化趋势如图4所示:
图4
经过20次迭代计算后,,即未确定组的各个结点概率值已经趋于稳定。对所有结点按进行排序,得到一份83人的可疑度排序表(略)。设定临界概率值为=0.5,概率高于的结点则认为其属于嫌犯类(共43人)。
    在图论模型中,我们设
即认为10条一般信息的对可疑度的贡献等价于1条可疑信息。
根据模型求解步骤,计算每一个,(),可得到可疑度排序表(略);
设定临界值(如一个人与已知犯罪者交流超过2条可疑信息,即被确认为嫌犯),结果显示共有38个人被确定为嫌犯。
2.4 模型比较与优缺点分析
将模型一与模型二得到的各结点嫌疑度(可能性)通过图5共同展示:
图 5
图中y轴(嫌疑度排名)采用了对数坐标,因为我们更重视排名靠前即嫌疑度较大的结点(人)。
以上建立的两个模型,模型一以概率论为基础,将整个信息网处理成一个概率网,借助全概率公式的形式,将信息类型和数量与每个人的涉嫌程度联系起来,所用的迭代算法巧妙有效,且收敛快;而模型二以图论为基础,一个人是一个顶点,边长用以衡量一个未确定组的人与嫌犯的关系,边长越短,二者关系越密切,则此人的嫌疑度越大,模型考虑了未确定组人与嫌犯的距离,考虑了不同信息对可疑度的影响不同;算法复杂度小,运算速度快,容易实现。但模型存在以下缺点:
1)模型中的权重参数以及嫌疑性分界线都由人工设定,导致嫌疑人序列因设置的参量的变化而有所变化。尽管通过改变参量可以验证模型是稳定的,但是仍不能提供保证模型结果有效的理由。对此采用的改进方法只能是在与其他模型的结果作出对比,或者将模型应用于其他实例作出对比之后,到最合适的参量。
2 在建立的所有模型中,我们假设收、发信息对侦查分析具有同样的效果,即信息传递无向,但是事实上,在一些案例中,这样的假设是不合理的。因此在以后的工作中,必须针对案例本身做出适当调整。
3)针对信息本身,我们只关注了其是否可疑,如果可以对其可疑程度进一步分类,效果会更好;此外,我们得到的是经过一次处理的信息,如果我们可以得到源信息,将有利于我们挖掘更多的信息去辨别各人员的可以程度,提高模型精度。
4)没有考虑信息发出方与接收方的差异,仅考虑信息对通信双方的影响,没考虑对其他人的影响。
3 嫌犯领导人的识别
陈鹏等的研究提出了犯罪组织结构的社会网络的分析方法。Freeman认为成员在犯罪网络中的地位可以通过该网络的结构的一些特征来体现,并提出了一套计算网络中成员的重要性和地位的方法,包括点度中心度,中间中心度和接近中心度。
1)点度中心度
                          (5)
式中表示成员的连接数。网络中与某结点直接相连的结点的数目越多,该结点的影响力越大。
2)中间中心度
                      (6)
式中为除了结点以外任意两个结点之间的最短路路径个数,是结点之间的最短路路径经过结点的个数。当一个结点处于其他2个结点的最短路径上,表明该结点具有控制其他2个结点之间通信的能力,处于比较重要的地位。 
3)接近中心度
                      (7)
式中表示结点到达其他任意一位结点的最短距离。当网络中一结点到达其他结点最短路径的总和越小,表明该结点更容易通过较短的距离与其他结点联系,为领导人的可能性较大。
以上的研究结果表明犯罪集团领导人在社会网络中往往具有中心性的特征,我们定义一个综合指数来评价网络中一个结点的中心性程度
                    (8)
中的yc8卡充值中心表示三项对应的权重系数,由各指标归一化后得到的。
    根据2.2确定的嫌犯,分别计算每个人的,设,计算综合指数,结果显示排在前3位的为Paul、Elsie和Dolores,这三个人最可能是犯罪集团的领导人。而且目前案件已知公司中有3名主管领导人,而Dolores正是其中之一,这对侦破案件具有重要的意义。
4 模型的进一步讨论
4.1 文本分析与语义网络分析
犯罪侦查过程中,往往能收集到大量情报,但是就情报表面资料往往不足以提供破案线索,而必须对情报内在的本质进行挖掘,以及对情报间的规律进行探索,从而从大量的资料中得到有效的信息。随着计算机技术以及数学方法的发展,越来越多的人对情报分析进行深入的研究,其中有两种比较常用的智能方法:文本分析和语义网络分析。其中,文本分析可以根据其应用领域分为三种类型:口令分析,内容分析,数据分析。而语义网络分析既是一种研究方法,也是一种理论框架,后者以同义和认知为基础,关注于篇章结构,依据文本内容分析去发掘字符的使用频率。

本文发布于:2024-09-22 22:28:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/211298.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:结点   信息   网络   可疑   模型   嫌犯
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议