WKAG一种针对不平衡医保数据的欺诈检测方法

2021579我国对人民生命健康的保障制度日益完善，医疗保险参保人数已超过13亿，但是，医疗保险普及的同时，也引发了很多医保行为，每年造成的经济损失高达数亿元[1]。对医保欺诈进行有效检测成为一项迫切且富

有意义的研究工作。

2017年，中国社会保险学会联合人社部信息中心等部门，指导举办了“全国社会保险大数据应用创新大赛”，其中就包括对医保欺诈违规行为的检测识别。竞

基金项目：中国科学院STS 计划（KFJ-STS-QYZD-102）；中科院创新青年促进会（Y9290802）；自治区天山青年计划（2018Q032）。作者简介：吴文龙（1994—），男，硕士研究生，研究领域为大数据分析、数据挖掘；周喜（1978—），男，博士，研究员，CCF 会员，研究

领域为物联网应用、大数据分析，E-mail ：；王轶（1986—），男，博士，副研究员，CCF 会员，研究领域为大数据治理、数据融合；王保全（1990—），男，博士，研究领域为大数据分析、数据挖掘。

收稿日期：2020-02-06

修回日期：2020-03-16

文章编号：1002-8331（2021）09-0247-08

WKAG ：一种针对不平衡医保数据的欺诈检测方法

吴文龙1，2，3

，周

喜1，2，3

，王

轶1，2，3，王保全1，

2，3

1.中国科学院新疆理化技术研究所，乌鲁木齐830011

2.中国科学院大学，北京100049

3.新疆民族语音语言信息处理实验室，乌鲁木齐830011

摘

要：医保欺诈检测具有迫切的现实意义，当前工作主要以机器学习方法为主，但面临两个重要问题：（1）数据不

平衡问题较为突出，欺诈样本占比极小，影响识别效果；（2）数据特征的选取与构造过于依赖领域业务知识，难以保证特征有效性。针对这些问题，提出了一种针对不平衡医保数据的欺诈检测方法——WKAG 。使用WGAN-KDE （Wasserstein Generative Adversarial Network-Kernel Density Estimation ）方法改善数据不平衡问题，结合自编码器（Auto-Encoder ）提取数据的深层隐藏特征，使用Gradient Boosted Decision Tree （GBDT ）检测医保欺诈行为。在多个公开数据集上验证了该方法有效性，并在真实医保业务数据集上进行了实验验证，结果表明了WKAG 可作为医保欺诈行为的有效检测方法。

关键词：生成对抗网络；不平衡类；自编码特征表示；医保欺诈检测；集成学习文献标志码：A

中图分类号：TP391

doi ：10.3778/j.issn.1002-8331.2002-0082

WKAG ：Fraud Detection Method for Imbalanced Medical Insurance Data

WU Wenlong 1，2，3,ZHOU Xi 1，2，3,WANG Yi 1，2，3,WANG Baoquan 1，

2，31.Xinjiang Technical Institute of Physics &Chemistry,Chinese Academy of Sciences,Urumqi 830011,China 2.University of Chinese Academy of Sciences,Beijing 100049,China

3.Xinjiang Laboratory of Minority Speech and Language Information Processing,Urumqi 830011,China

Abstract ：Medical insurance fraud detection has urgent practical significance.The current work is mainly concentrated on machine learning methods and confronted with two important issues ：（1）The problem of imbalanced data is prominent and the proportion of fraud data among medical insurance data is extremely small,which affects the identification effect;（2）The selection and construction of data features depend on domain business knowledge,and it is difficult to guarantee the validity of features.Aiming at these problems,this paper proposes a fraud detection method for imbalanced healthcare data —WKAG ：The Wasserstein Generative Adversarial Network-Kernel Density Estimation （WGAN-KDE ）method is used to improve the imbalance of medical insurance data.The Auto-Encoder is used to extract the deep hidden features of data.The Gradient Boosted Decision Tree （GBDT ）is used to detect medical insurance fraud.The validity of the method has b

een verified on multiplepublic data sets as well as the real medical insurance business data set.The results show that WKAG can be used as an effective detection method for medical insurance fraud.

Key words ：generative adversarial network;imbalance dataset;auto-encoder feature representation;medical insurance fraud detection;ensemble learning

247

2021579

赛成绩较好的队伍主要采取在构造大量特征的基础上，结合机器学习的方法对医保欺诈数据进行检测，但是由于受限于业务背景知识的掌握，构造的特征会出现重叠或者无效的情况。

医保欺诈检测实际上属于二分类问题，把数据分为正常数据和欺诈数据，然后选择合适的算法模型对欺诈记录数据进行检测发现[2]。在医疗保险数据中，欺诈人数占比很小，欺诈数据量和正常数据量差

别较大，数据不平衡问题极大地影响了很多已有欺诈识别方法的效果。当前虽然有欠采样（Under-Sampling）或者过采样（Over-Sampling）方法用于改善这种数据不平衡问题，但是欠采样方法容易丢失重要的数据，而过采样方法容易导致模型过拟合[3]。合成少数类过采样技术（Synthetic Minority Oversampling Technique，SMOTE）在一定程度上避免了信息损失和过拟合的问题，但是会增加数据中不同类之间重叠的可能性，容易出现过度泛化的问题[4]。

针对上述对现有问题的分析，本文提出了一种针对不平衡医保数据的欺诈检测方法——WKAG。首先，不同于传统的采样方法，本文基于现有欺诈数据使用生成模型生成高置信度的仿真欺诈数据，避免出现信息损失以及过拟合问题。其中，通过使用核密度估计（Kernel Density Estimation，KDE）[5]改变Wasserstein Generative Adversarial Network（WGAN）[6]噪声数据的构成，以此来进一步提高网络生成数据的质量，对不平衡数据进行重新构建。在数据特征表示方面，本文针对特征构造困难的问题，使用Auto-Encoder[7]来对数据进行自编码特征表示，最后使用构建表示后的数据对Gradient Boosted Decision Tree（GBDT）[8]分类预测模型进行训练，并将训练完成的模型应用于原始的不平衡医保数据集上，对欺诈数据进行检测发现。

1相关工作

目前中西方学者主要从数据挖掘的角度来开展欺诈检测的相关研究工作[9]。

Liou等人[10]针对台湾的健康保险系统数据，使用了逻辑回归、决策树和神经网络三种数据挖掘技术来进行数据异常的检测发现。Bauder等人[11]使用欠采样以及过采样方法在无监督学习、有监督学习以及混合机器学习方法上进行医保欺诈检测实验，结果表明欠采样方法表现优于过采样方法。Fiore等人[12]在信用卡不平衡数据集上使用对抗生成网络（Generative Adversarial Net-work，GAN）[13]来对少量的异常样本进行扩充，实验证明，相比于SMOTE，GAN对不平衡样本的处理效果更好。GAN虽然可以通过生成新的数据来改善数据不平衡问题，但是模型在训练时容易出现模式崩溃的现象，无法保证生成数据的多样性，而WGAN则可以避免这

一问题[14]。Sethia等人[15]使用WGAN结合人工神经网络模型来对信用卡欺诈数据进行检测发现。曹鲁慧等人[16]针对医保数据不平衡问题和时间分布不均问题，使用TLSTM方法对用户欺诈的可能性进行判断，这种方法要求数据要保证具有较长的时间跨度，不适用于时间周期较短或者不连续的数据。

数据特征表示对最终的欺诈检测效果影响很大。Gao等人[17]通过对历史数据统计分析并选择相关特征对用户进行分组，从而避免医疗保险理赔数据中个人数据稀疏的问题。Herland等人[18]通过人工选择医保数据集中的某些特定特征，并采用计算平均值、总和、中位数等聚合方式增加新特征。Pouramirarsalani等人[19]提出了一种基于混合特征选择和遗传算法的欺诈检测方法，在电子银行欺诈检测方面取得了不错的效果。Li等人[20]提出了一种构建欺诈检测模型的方法，该方法在人工特征工程的基础上，结合GBDT和Gate Recurrent Unit （GRU）对特征进行优化，最后使用随机森林分类模型

进行训练预测。

虽然目前关于欺诈检测的研究已经取得了一定进展，但是对于欺诈检测中数据不平衡问题并没有很好地解决方案，而且对数据的特征构造过于依赖人工以及和业务知识相关的先验经验。因此本文考虑使用生成仿真数据的方式对数据不平衡问题进行改善，结合深度学习模型基于数据本身进行特征表示并由此提出一种针对不平衡医保数据的检测方法。

汽车尾气抽排系统2欺诈检测方法

本文提出的医保欺诈检测方法WKAG主要包括以下三方面内容：（1）WGAN-KDE数据构建；（2）自编码特征增强表示；（3）GBDT欺诈分类检测。图1为本文欺诈检测方法的总体流程。

2.1数据的构建方法

针对医保数据中欺诈数据和正常数据不平衡问题，本文使用WGAN-KDE在现有欺诈数据的基础上进行仿真数据生成，对不平衡数据重新构建。

2.1.1生成式对抗网络

GAN模型包括生成器（G，Generator Model）和判别器（D，Discriminative Model）。生成器最大化

生成和真实数据相似的样本，判别器则对生成样本和真实数据加以判别，当判别器无法正确区分生成样本和真实数据时，此时的生成样本就和真实数据高度相似。对抗神经网络模型的计算过程如图2所示。虽然GAN利用零和博弈理论定义了新的生成模型，但是在训练时会存在梯度消失和模型崩溃的问题。针对这一问题，WGAN使用了Wasserstein Distance作为距离度量并将其转化为优化问题，彻底解决了模型训练不稳定的问题，同时也基本避免了崩溃模式的发生，保证生成数据的多样性。

248

个人飞行器2021579生成式对抗网络作为一种生成模型，可以用于仿真数据的生成，弥补数据不足的问题。

2.1.2非参数核密度估计

KDE 是一种非参数检验方法，可以基于数据本身的分布特点，在对数据分布没有预先作出假设的情况下，进行拟合预估。假设同分布数据x 1,x 2,…,x n ，对于任意样本x 处的总体概率密度函数f h ()x 可以表示为：

f h ()x =n -1h

-1

∑i =1

古代建筑模型n

K æ

çö

÷x -x i h （1）

其中，n 代表样本数据量个数，

h 代表平滑系数，K ()⋅是核函数。

2.1.3WGAN-KDE

GAN 中随机噪声数据可以提高网络的泛化性能，避免模型出现过拟合问题，但是没有考虑到真实样本的分布状态，对数据的生成效果难以控制。在此基础上，本文考虑基于医保数据的数据分布来引入噪声数据。

获取数据分布可以使用参数方法和非参数方法。目前常用的参数方法往往是根据先验知识，对数据的总体分布作出一个合理的假设（例如：正态分布、高斯分布等），但是实际情况下往往不能保证数据的实际分布符

合假设的情况。核密度估计作为一种非参数方法，几乎不需要对数据的总体作出任何的假设条件，可以适用于多种类型的数据。因此可以使用KDE 对数据分布进行估计。

（1）核密度估计噪声

对欺诈样本S ={}x 1,x 2,…,x n ，使用KDE 构建S 的概率密度模型，考虑到本文关注的是欺诈样本总体的分布情况，而高斯核可以使得估计的分布更加平滑，因此选用高斯核作为核函数。f h ()x 可以进一步表示为：

f h ()x =n -1h -1

2π-1

∑i =1n

exp éëêêù

úú-12æèçöø÷x -x i h 2（2）本文基于数据的分布引入部分噪声数据N k ，使用

WGAN-KDE 用于少数类数据生成扩充，模型的计算过程如图3所示。

（2）数据生成质量控制

WGAN 中N w 可以保证算法的泛化性能，但是无法兼顾数据实际分布特点。N k 虽然兼顾实际数据的分布，但是过多地引入会引起模型的过拟合问题。合理结合使用N w 和N k 对最终的数据生成质量影响很大。

一方面，为了对仿真数据的生成效果进行评估，计算仿真数据和真实数据之间的相似程度，本文具体方法如下：对真实数据S 添加标签0，对生成的仿真数据

G ()N 添加标签1。使用GBDT 分类器对真实数据S 和

生成的仿真数据G ()N 进行分类。理想情况下，生成的仿真数据和真实数据高度一致，这样分类器无法正确区分，此时分类效果应为0.5。

另一方面，对数据多样性的保证也至关重要。使用分类器可以量化评估仿真数据和真实数据的相似度，但可能会出现在较为理想的分类效果下，仿真数据只学习了少部分真实数据的问题。数据生成的多样性可以更为全面地表现原有的欺诈数据，对不平衡数据的重新构建结果有极大影响。所以本文针对这一问题，对真实数

图1WKAG 方法总体流程

原始数据

数据清洗

数据构建

欺诈数据

是否

是否是欺诈

记录数据

WGAN-KDE 对欺诈数据进行数据生成扩充

特征表示

扩充的欺诈

数据

正常数据

Auto-Encoder 自编码

特征表示

GBDT 分类学习器

检测结果

分类检测

图2GAN 计算过程

随机噪声空间N w

真实数据S

判别器D

生成样本G (N )

生成器G

真实/生成？

图3WGAN-KDE 计算过程

真实数据S

随机噪声

空间N w 生成器G

生成样本G (N )

核密度估计生成噪声N k

判别器D

真实/生成？

249

2021579

据和仿真数据进行可视化展示，直观地观察仿真数据生成的效果。

本文综合考虑分类器的量化指标以及可视化结果，对生成的仿真数据进行选择。考虑到实际情况下很

难达到0.5的分类效果，因此本文设置一个控制区间Δ，选择分类效果区间在0.5±Δ之间的仿真数据，结合其数据分布效果图，选择数据多样性较高的仿真数据用于对欺诈数据的扩充。

定义仿真数据和真实欺诈数据的相似距离E：

E=dis()

pre()

G()N,S-0.5（3）其中，dis()⋅为绝对值计算，pre()

G()N,S为使用GBDT 对G()N和S的分类评测结果。

最终数据分类的选择区间win可以表示为：

win∈()

0.5-min()E-Δ,0.5+min()E+Δ（4）

（3）WGAN-KDE算法

综合以上对数据生成质量控制的分析，设定一个噪声融合比例λ，表示N k和N w之间的比例关系，最后融合的噪声N可以表示为：

N=λN k+()

1-λN w,λ∈()

0,1（5）本文使用医保欺诈样本数据对WGAN-KDE网络进行训练，最终得到高置信度的仿真欺诈数据并且将这些仿真数据加入到原始医保数据中，平衡数据分布，克服数据不平衡对模型训练的影响，提高训练效果。WGAN-KDE的详细步骤如下所示：

输入：欺诈样本数据S={}

x1,x2,…,x n，分类控制区间ΔForλ=0to1

（1）使用KDE获取S的数据分布Distrubution(S)

（2）Distrubution(S)生成噪声数据N k

（3）将N k以λ的比例加入到WGAN的原有随机噪声数据中，生成新的噪声数据N

（4）G接受噪声数据N，生成仿真数据G()N

（5）D对G生成的仿真数据G()N和真实数据S进行判别

（6）若D无法正确区分仿真数据G()N和真实数据S，算法终止，返回仿真数据；否则，重复步骤（2）至（5）（7）计算仿真数据和欺诈数据距离E

（8）λ=λ+step，其中step为更新步长

End for

（9）选择数据分类区间pre()

G()N,S在win的数据，结合数据分布可视化图形，选择合适λ值，记为λ*

（10）在λ*的比例噪声下，重复步骤2至5，进行仿真数据G()N的生成

输出：仿真数据G()N

2.2数据特征增强表示

折叠式集装箱在医保欺诈数据的分类检测任务中，数据的特征处理对最终的检测效果影响很大。对数据进行有效特征的构造是一项十分耗时的工作，而且受限于对业务背景知识的掌握以及现有的分析方法，通常也无法保证所构造特征的有效性。

自编码器是一种无监督的深度学习模型，模型经过训练后，可以学习到数据中有效的新特征，自编码器的结构如图4所示，包括编码过程和解码过程。在编码阶段，通过将输入层的数据映射到隐藏层进行维度压缩；在解码阶段，将隐藏层的数据映射恢复到输出层。所以可以通过对隐藏层的编码数据进行提取，获取到原数据的自编码特征，文献[21]表明自编码特征可以有效加强对数据特征的表示效果。

本文在对数据重新构建后，使用自编码器来获取原数据的自编码特征，然后将提取到的自编码特征与原有特征结合，对数据特征增强表示。

对构建后的平衡数据集D={}

x1,x2,…,x q，训练自编码网络：

编码阶段，映射可以表示为：

z=f()x=sig(w x+b)（6）解码阶段，映射可以表示为：

y=g()z=sig()

w′x+b′（7）其中，z是输入层到隐藏层的映射数据，sig是sigmoid 激活函数，y是解码后的数据，w和w′为权重矩阵，b 和b′为偏置向量。

网络训练效果以重构误差L()

x,y表示：

L()x,y=-∑

i=1

[]

x i ln y i+()

1-x i ln()

1-y i（8）定义损失函数J()Ω：

J()Ω=∑

x∈D

L()

x,g()

f()x（9）其中，Ω为网络参数，Ω=w,w′,b,b′。

采用梯度下降法训练，迭代更新直至参数Ω收敛。

2.3分类检测

GBDT是一种集成学习的方法，采用Boosting的方式将一系列决策树作为弱分类器进行训练组合，通过梯度上升对模型不断进行迭代优化，模型最终的预测结果

图4自编码器网络结构

电弧发生器

h w,b(x) 250

2021579由多个决策树预测值加权结合得到。图5为GBDT 训练过程。

当前GBDT 以其良好的性能表现被用于解决分类、回归以及排序等问题，在学术界以及工业界得到了充分的认可。本文在解决医保数据不平衡以及特征表示问题后，将重构表示后的数据用于GBDT 模型

的训练，对医保欺诈数据进行检测。

3实验与结果分析3.1实验数据与设计

本文使用的医保数据集来自2017年“全国社会保险大数据应用大赛”官方数据，该数据样本为部分地区以往年度的医疗保险就医结算脱敏数据，包含20000人将近两百万条记录信息，其中欺诈人员有1000人，数据包含69个特征。另外，为了验证本文方法WGAN-KDE 在改善不平衡数据分类方面的普遍适用性，选取

了Kaggle 信用卡欺诈数据和KEEL [22]的2个不平衡数据集进行了实验验证。表1描述了实验所用数据集相关信息。

本文将WGAN-KDE 与随机欠采样（Random Under-Sampling ，RUS ）、SMOTE 等传统方法以及WGAN 相比较，基于LR 、AdaBoost 和GBDT 等不同的分类模型，在使用不同方法平衡后的数据上对模型进行训练，然后基于原有的不平衡数据测试集进行分类检测。最后，在医保数据集进一步使用Auto-Encoder 对数据进行自编码特征增强表示，使用GBDT 算法进行欺诈数据的检测发现。

为了全面对不同方法做出评价，本文使用召回率（Recall ）、精确率（Precision ）、F1、准确率（Accuracy ）以及AUC 等多个评价指标。

3.2WGAN-KDE 有效性的实验验证

首先，本文基于Kaggle 信用卡欺诈数据集和KEEL

的2个不平衡数据对WGAN-KDE 方法进行实验验证。为了更为直观地展示本文使用WGAN-KDE 生成仿真数据的效果，在每个数据集上各选取两个特征对真实数据和仿真数据进行可视化展示，横纵坐标分别表示经过数据处理后的特征信息，不是属性的真实值。图6~图8为各数据集的仿真数据生成效果图。

根据在信用卡、yeast4以及appendicitis 三个公开数据集上的数据生成效果图，对各数据集的真实数据分布和生成数据分布进行比较。从总体分布来看，使用WGAN-KDE 生成的数据较好地还原了原本真实数据的分布特点和规律；从个别数据分布来看，虽然生成数据和真实数据分布基本一致，但是又不完全相同。这样就避免了随机欠采样引起的关键信息丢失和SMOTE 过采样方法导致的样本重叠问题。因此，可以考虑使用WGAN-KDE 针对不平衡数据样本中的少数类来进行仿真数据生成，达到平衡数据分布的目的。但是，直观的可视化表示还不足以证明WGAN-KDE 方法的有效性，下面本文使用RUS 、SMOTE 、WGAN 和WGAN-KDE 等不同的方法来平衡数据分布，基于不同的分类器模型进行训练比较。表2~表4分别为基于信用卡欺诈数据、yeast4、appendicitis 数据集上的实验结果。

实验使用五个指标对不同的数据不平衡处理方法进行全面评价。从信用卡欺诈数据、yeast4、appendi

citis

图5GBDT 训练过程

融合模型

加权

加权加权

学习学习学习

基分类器基分类器基分类器

重构表示后的医保数据

表1

数据集信息

数据集医保数据信用卡欺诈数据yeast4appendicitis

数据量18303862848071484106

不平衡度（多数类/少数类）

9.49577.8828.104.05

特征数693087

−2

0−1−2

ct二次过电压保护器V 2

−2

0−1−2

V 2（b ）生成数据分布

（a ）真实数据分布

图8

appendicitis 数据集数据生成效果

0.4

0.60.8 1.0

0.80.60.4

V 2V1

（b ）生成数据分布

0.4

0.60.8

1.0

0.8

0.60.4

V 2

（a ）真实数据分布

图7

yeast4

数据集数据生成效果

−20

−10

V14

7.55.02.50

−20

−100

V14

7.55.02.50V 4

（b ）生成数据分布

（a ）真实数据分布

图6

信用卡数据集数据生成效果

251

本文发布于:2024-09-21 22:21:50，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/294818.html

上一篇：植物病原卵菌效应蛋白RXLR和CRN研究进展

下一篇：结合边缘信息和门卷积的人脸修复算法

标签：数据欺诈进行

留言与评论（共有 0 条评论）