一种抑制罗生门效应的树代理模型的建立方法


doshi-velez,f.,2020,april.regional tree regularization for interpretability in deep neural networks.in proceedings of the aaai conference on artificial intelligence(vol.34,no.04,pp.6413-6421).
11.[5]https://en.wikipedia.org/wiki/rashomon_effect
[0012]
[6]semenova,l.,rudin,c.and parr,r.,2019.a study in rashomon curves and volumes:a new perspective on generalization and model simplicity in machine learning.arxiv preprint arxiv:1908.01755.
[0013]
[7]song,j.,zhang,h.,wang,x.,xue,m.,chen,y.,sun,l.,tao,d.and song,m.,2021.tree-like decision distillation.in proceedings of the ieee/cvf conference on computer vision and pattern recognition(pp.13488-13497).
[0014]
现有的方法中存在有下述问题:
[0015]
罗生门效应会损害可解释性的一致性,导致用户迷惑;
[0016]
普通的树代理模型的中间决策未必与实际的多层感知机决策一致,导致可信度降低;
[0017]
普通的树代理模型的可视化效果未能反映多层感知机的中层决策信息;
[0018]
基于上述内容,我们提出了一种抑制罗生门效应的树代理模型的建立方法。


技术实现要素:



[0019]
(一)解决的技术问题
[0020]
针对现有技术的不足,本发明提供了一种抑制罗生门效应的树代理模型的建立方法,解决了上述的问题。
[0021]
(二)技术方案
[0022]
为实现上述所述目的,本发明提供如下技术方案:一种抑制罗生门效应的树代理模型的建立方法,包括以下步骤:
[0023]
第一步:策略分析阶段,通过无监督学习进行策略的挖掘,确定节点分裂时候的特征以及特征值的选择,策略分析阶段又分为3个子阶段包括降维、合并聚类等价层以及策略抽取;
[0024]
第二步:树建立阶段,包括分裂和聚合操作以及基于策略层级的建树过程;
[0025]
第三步:基于策略层级的建树。
[0026]
优选的,所述降维采用pca或者t-sne等与标签无关的降维算法。
[0027]
优选的,所述合并聚类层采用聚类算法确定单层神经网络对数据流分布的影响,定义聚类分布相似的连续多层为聚类等价层,给定第i层的前后多个聚类簇{...,c
i-1
,c
i+1
,...},假设ci为真实的簇分配,当fmi(ci,c
*
)≤δ,δ为超参数,认为ci与c
*
是等价的,fmi为fowlkes-mallows得分,其定义如下:
[0028][0029]
tp是指c
*
和ci属于相同簇的点对数,fp是指不属于c
*
而仅在ci中相同簇的点对数,而fn是指不属于ci而仅在c
*
中相同簇的点对数,当两个簇相对独立时,fmi的数值趋近于零,
而两者分布接近时,则趋向于1。
[0030]
优选的,所述策略抽取包括以下内容:
[0031]
一个策略由一个策略根与多个策略叶s={s
root
,s
leave
}组成,简单记为s={sr,s
l
},记输入层和输出层对应的聚类簇为c
i-1
和ci,,策略成绩的定义为:
[0032]
score(s)=score1(sr)
α
×
score2(s
l
),α∈(0,1];
[0033]
α为超参数,取0.5,score1(sr)被定义为属于sr的所有样本x的平均silhouettes系数,其中:
[0034][0035]
silhouettes,取值范围为[-1,1],越接近1聚类效果越好,这里归一到[0,1]之间,socrel的正式表达为:
[0036][0037]
对于策略叶的成绩score2(s
l
),定义socre2如下:
[0038][0039]
β为超参数,取0.5。连接成绩的定义为:
[0040][0041]
优选的,所述分裂包括以下内容:
[0042]
记特征集合为特征值为全局数据全局标签y,局部标签y,罗生门特征集合其定义如下:
[0043][0044]
这里l(y,f,v)是给定特征f以及特征值v关于y的损失,可以是信息增益或者基尼系数,f*,v*是所有特征以及对应的特征值中能够给标签y带来最大收益的一个,即:
[0045][0046]
为了拟合局部标签y,我们定义策略拟合特征集合:
[0047][0048]
优选的,所述聚合树的具体内容为建立到右子树的时候,尽管只有来自一种簇的数据流,但是其决策应该与左子树一致,于是,可以直接复制左子树并嫁接到当前位置。
[0049]
优选的,基于策略层级的建树包括以下内容:
[0050]
s1:准备经过多层感知机的非聚类等价层数据分布x=[x1,x2,...,xn],以及全局
标签y;
[0051]
s2:初始化树的根节点root以及队列q;
[0052]
s3:对h0,h1,...,hn进行聚类,并且入队(root,i);
[0053]
s4:判断q是否为空。若是则返回root,建树结束,若否,进行s5;
[0054]
s5:从q出队,获得节点node和深度i;
[0055]
s6:根据当前节点的输入输出分布进行策略分析,获得策略s;
[0056]
s7:判断s是否存在,若是,则进行s8,若否,则进行s10;
[0057]
s8:通过对node的输入x进行聚类获得局部标签y,根据x,y,y建立子树,并且缓存;
[0058]
s9:对node的所有叶子以及深度+1进行入队,返回s4;
[0059]
s10:通根据x,y直接建立子树,返回s4。
[0060]
(三)有益效果
[0061]
与现有技术相比,本发明提供了一种抑制罗生门效应的树代理模型的建立方法,具备以下有益效果:
[0062]
1、该抑制罗生门效应的树代理模型的建立方法,逐层挖掘多层感知机的聚类分布信息,降低树节点分裂的多样性,从而抑制整体树生长的罗生门效应。
[0063]
2、该抑制罗生门效应的树代理模型的建立方法,通过基于策略层级的建树方式,使得树代理模型与多层感知机的中间策略同步。
[0064]
3、该抑制罗生门效应的树代理模型的建立方法,在可视化效果上,通过在树代理的节点上显示对应的策略层信息,为用户提高更深刻认识宿主模型的内部决策。
附图说明
[0065]
图1为策略分析和树建立示意图;
[0066]
图2为基于策略层级的建树流程示意图;
[0067]
图3为树解释示意图。
具体实施方式
[0068]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0069]
请参阅图1-3,一种抑制罗生门效应的树代理模型的建立方法,包括策略分析和树建立。1.策略分析阶段:策略分析的主要目的是通过无监督学习(聚类)等方法进行策略的挖掘。从而
[0070]
确定节点分裂时候的特征以及特征值的选择。策略分析阶段又分为3个子阶段包括:降维、合并聚类等价层以及策略抽取。
[0071]
1)降维:考虑到时间复杂度,我们通常对待处理的数据进行降维处理。由于神经网络的浅层(靠近输入层)通常所做的决策与输出没有什么联系,我们通常采用pca或者t-sne等与标签无关的降维算法。
[0072]
2)合并聚类层:我们通常采用聚类算法(kmeans或者dbscan)确定单层神经网络对
数据流分布的影响。我们定义聚类分布相似的连续多层为聚类等价层。给定第i层的前后多个聚类簇{...,c,
·
,c,.,...},假设ci为真实的簇分配,当fmi(ci:c
*
)<δ(δ为超参数),我们认为ci与c
*
是等价的。其中fmi为fowlkes-mallows得分,其定义如下:
[0073][0074]
其中,tp是指c
*
和ci属于相同簇的点对数,fp是指不属于c
*
而仅在ci中相同簇的点对数,而fn是指不属于ci而仅在c
*
中相同簇的点对数。当两个簇相对独立时,fmi的数值趋近于零,而两者分布接近时,则趋向于1。更重要的是fmi可以用于不同类的算法,适合知识聚类没有特定最佳聚类算法的需求。
[0075]
3)我们定义,一个策略由一个策略根与多个策略叶s={s
root
,s
kan
}组成,简单记为s={sr,s
l
}。记输入层和输出层对应的聚类簇为c,
·
和例如,某层对应的输入簇为{1,2,3},输出簇为{1,2,3,4,5},如果我们发现属于输入簇2超过某程度的数据流向了输出簇1,4,那么我们记该策略为s={2,{1,4}}。由于策略往往存在多个,为了简化解释,我们一般分析策略成绩为top2的策略。策略成绩的定义为:
[0076][0077]
其中,α为超参数,目的是平衡输入簇与输出簇成绩的权重,通常取0.5。因为策略根的成绩只与聚类的质量相关,所以score1(sr)被定义为属于sr的所有样本x的平均silhouettes系数,其中:
[0078][0079]
silhouettes系数是一种聚类性能的评估指标,取值范围为[-1,1],越接近1聚类效果越好,这里我们直接归一到[0,1]之间。socre1的正式表达为:
[0080][0081]
对于策略叶的成绩score2(si),除了跟其对应聚类性能有关外,我们认为跟其与策略根的链接分数有关。试想一下如果某个输入簇只有几个数据点流向某个输出簇,那是没有什么意义的。我们定义socre2如下:
[0082][0083]
同样,β为超参数,目的是平衡轮廓成绩与连接成绩的权重,通常取0.5。连接成绩的定义为:
[0084][0085]
2.树建立阶段:在获得了候选的策略s后,我们的关键问题是如何以树的形式去解释这些策略。我们将会介绍如何把策略转换为树的细节,包括:分裂和聚合操作以及基于策略层级的建树过程。
[0086]
分裂:一个簇可以分裂为多个簇,这就是裂变。决策树可以很容易地通过特征选择拟合这种裂变行为。在上文,决策树的目标是拟合簇的裂变,也就是聚类的标签,称为局部标签。与之相对的是数据的标签,则称为全局标签。然而,罗生门效应的产生正是因为特征选择的过程中,存在多个具有接近的对全局增益的特征,导致了决策树的多样性。这些特征也称为罗生门特征。在建树的时候,必须同时考虑全局标签与局部标签。如果在拟合局部标签的时候,罗生门特征没有被选择,而选择了对局部标签的拟合增益最大的特征,则不符合罗生门效应的定义,因为该特征已经不是一个等价解释。另一方面,过度脱离全局的拟合目标,必然导致树的保真度下降。我们记特征集合为特征值为全局数据全局标签y,局部标签y,罗生门特征集合其定义如下:
[0087][0088]
这里l(y,f,v)是给定特征f以及特征值v关于y的损失,可以是信息增益、基尼系数等。f*,v*是所有特征以及对应的特征值中能够给标签y带来最大收益的一个,即:
[0089][0090]
另一方面,为了拟合局部标签y,我们定义策略拟合特征集合:
[0091][0092]
我们将会采用随机或者最佳的方式从中选取特征与相应特征值。
[0093]
聚合:当两个或者多个输入簇有分支流入到同一个输出簇的时候,将造成聚合的现象。如附录图1的输入簇1和2,均有支流汇聚到输出簇2。理论上说,树是不能实现聚合结构的,否则将成为有向无环图(dag)。如果我们从策略的角度看,我们的理论地认为同一个簇中各部分均属于一个策略。进一步说,同一个策略应该有同一种解释,也即相同的解释子树。于是,对于聚合结构,我们将使用复制子树的方式。如上图,输出簇2的成分来自多个输入簇(红、蓝)。在解释树的建立到右子树的时候,尽管只有来自蓝簇的数据流,但是其决策应该与左子树一致。于是,可以直接复制左子树并嫁接到当前位置。
[0094]
基于策略层级的建树过程(如图2):
[0095]
1)准备经过多层感知机的非聚类等价层数据分布x=[x1,x2,...,xn],以及全局标签y;
[0096]
2)初始化树的根节点root以及队列q;
[0097]
3)对h0,h1,...,hn进行聚类,并且入队(root,i);
[0098]
4)判断q是否为空。若是则返回root,建树结束;若否,进行步骤5;
[0099]
5)从q出队,获得节点node和深度i;
[0100]
6)根据当前节点的输入输出分布进行策略分析,获得策略s;
[0101]
7)判断s是否存在。若是,则进行步骤8;若否,则进行步骤10;
[0102]
8)通过对node的输入x进行聚类获得局部标签y,根据x,y,y建立子树,并且缓存;
[0103]
9)对node的所有叶子以及深度+1进行入队,返回步骤4;
[0104]
10)通根据x,y直接建立子树,返回步骤4。
[0105]
实施例
[0106]
以在长度为4只包含0或者1字符串中寻“01”任务为例,训练数据为“0000”到“1111”的16个数据。基于以上训练数据量非常少,为了能够使得聚类分析更加直观,我们生成四维空间的等距离点阵x,每个维度的范围为0到1,间距为0.1,共10^4个点。训练一个3层感知机。按照上述步骤对3层的输出进行聚类分析,获得附录3的左列两图。
[0107]
对第一层进行策略分析。可以看到第一个隐藏层较明显地对输入进行了5个切分。经过简单的手工计算,我们可以发现按照x[3]《=0.5可以把"0000"到"1111"的整数位数据完美划分为to_0以及to_1两个簇,而且有gini(x|x[3])=0.0,而gini(x|x[1])=gini(x|x[2])=gini(x|x[4])=0.5。因此对应图3的树解释,红节点以x[3]《=0.5为分裂点。
[0108]
对第二层进行策略分析,我们可以看到x均分布在from_0和from_1两个源簇中,并且from_0主要分裂到to_2和to_3中,而from1主则分裂到to_0,to_1当中。通过gini指数计算发现,x[2]《=0.5最能保真from_0的分裂,因为gini(x_from2|x[1])=0.636,gini(x_from2|x[2])=0.484,gini(x_from2|x[2])=max,gini(x_from2|x[2])=0.636。同理对于from_1,x[1]《=0.5则最能接近from_1的分裂。
[0109]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:


1.一种抑制罗生门效应的树代理模型的建立方法,其特征在于,包括以下步骤:第一步:策略分析阶段,通过无监督学习进行策略的挖掘,确定节点分裂时候的特征以及特征值的选择,策略分析阶段又分为3个子阶段包括降维、合并聚类等价层以及策略抽取;第二步:树建立阶段,包括分裂和聚合操作以及基于策略层级的建树过程;第三步:基于策略层级的建树。2.根据权利要求1所述的一种抑制罗生门效应的树代理模型的建立方法,其特征在于:所述降维采用pca或者t-sne等与标签无关的降维算法。3.根据权利要求1所述的一种抑制罗生门效应的树代理模型的建立方法,其特征在于:所述合并聚类层采用聚类算法确定单层神经网络对数据流分布的影响,定义聚类分布相似的连续多层为聚类等价层,给定第i层的前后多个聚类簇{...,c
i-1
,c
i+1
,...},假设c
i
为真实的簇分配,当fmi(c
i
,c
*
)≤δ,δ为超参数,认为c
i
与c
*
是等价的,fmi为fowlkes-mallows得分,其定义如下:tp是指c
*
和c
i
属于相同簇的点对数,fp是指不属于c
*
而仅在c
i
中相同簇的点对数,而fn是指不属于c
i
而仅在c
*
中相同簇的点对数,当两个簇相对独立时,fmi的数值趋近于零,而两者分布接近时,则趋向于1。4.根据权利要求1所述的一种抑制罗生门效应的树代理模型的建立方法,其特征在于:所述策略抽取包括以下内容:一个策略由一个策略根与多个策略叶s={s
root
,s
leave
}组成,简单记为s={s
r
,s
l
},记输入层和输出层对应的聚类簇为c
i-1
和c
i
,s
r
=c
i-1
,策略成绩的定义为:score(s)=score1(s
r
)
α
×
score2(s
l
),α∈(0,1];α为超参数,取0.5,score1(s
r
)被定义为属于s
r
的所有样本x的平均silhouettes系数,其中:silhouettes,取值范围为[-1,1],越接近1聚类效果越好,这里归一到[0,1]之间,socre1的正式表达为:对于策略叶的成绩score2(s
l
),定义socre2如下:β为超参数,取0.5。连接成绩的定义为:
5.根据权利要求1所述的一种抑制罗生门效应的树代理模型的建立方法,其特征在于:所述分裂包括以下内容:记特征集合为特征值为全局数据全局标签局部标签y,罗生门特征集合其定义如下:这里l(y,f,v)是给定特征f以及特征值v关于的损失,可以是信息增益或者基尼系数,f*,v*是所有特征以及对应的特征值中能够给标签带来最大收益的一个,即:为了拟合局部标签y,我们定义策略拟合特征集合:6.根据权利要求1所述的一种抑制罗生门效应的树代理模型的建立方法,其特征在于:所述聚合树的具体内容为建立到右子树的时候,尽管只有来自一种簇的数据流,但是其决策应该与左子树一致,于是,可以直接复制左子树并嫁接到当前位置。7.根据权利要求1所述的一种抑制罗生门效应的树代理模型的建立方法,其特征在于:基于策略层级的建树包括以下内容:s1:准备经过多层感知机的非聚类等价层数据分布x=[x1,x2,...,x
n
],以及全局标签y;s2:初始化树的根节点root以及队列q;s3:对h0,h1,...,h
n
进行聚类,并且入队(root,i);s4:判断q是否为空,若是则返回root,建树结束,若否,进行s5;s5:从q出队,获得节点node和深度i;s6:根据当前节点的输入输出分布进行策略分析,获得策略s;s7:判断s是否存在,若是,则进行s8,若否,则进行s10;s8:通过对node的输入x进行聚类获得局部标签y,根据x,y,y建立子树,并且缓存;s9:对node的所有叶子以及深度+1进行入队,返回s4;s10:通根据x,y直接建立子树,返回s4。

技术总结


本发明涉及人工智能领域,且公开了一种抑制罗生门效应的树代理模型的建立方法,包括以下步骤:第一步:策略分析阶段,通过无监督学习进行策略的挖掘,确定节点分裂时候的特征以及特征值的选择,策略分析阶段又分为3个子阶段包括降维、合并聚类等价层以及策略抽取;第二步:树建立阶段,包括分裂和聚合操作以及基于策略层级的建树过程;第三步:基于策略层级的建树,该抑制罗生门效应的树代理模型的建立方法,逐层挖掘多层感知机的聚类分布信息,降低树节点分裂的多样性,从而抑制整体树生长的罗生门效应。生门效应。生门效应。


技术研发人员:

顾钊铨 梁栩建 王乐 杨举 张登辉 唐可可

受保护的技术使用者:

广州大学

技术研发日:

2022.11.15

技术公布日:

2023/2/23

本文发布于:2024-09-21 15:23:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/61690.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:策略   子树   特征   标签
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议