一种基于主成分分析算法的医保欺诈识别方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201710034564.0
(22)申请日 2017.01.18
(71)申请人 天津艾登科技有限公司
地址 300280 天津市滨海新区经济技术开
发区南港工业区综合服务区办公楼D
座二层213-03室
(72)发明人 谢国亮 程岚 孙志强 张宪录 
孙广阳 
(74)专利代理机构 北京中企鸿阳知识产权代理
事务所(普通合伙) 11487
代理人 郭鸿雁
(51)Int.Cl.
G06F  19/00(2011.01)
(54)发明名称
一种基于主成分分析算法的医保欺诈识别
方法
(57)摘要
本发明提出了一种基于主成分分析算法的
医保欺诈识别方法,包括:获取医保基础数据,生
成医保结构化数据集;对各项数据进行标准化处
理,生成标准化矩阵;计算标准化矩阵的协方差
矩阵,并求解样本协方差矩阵的特征方程,确定
主成分;将标准化后的指标变量转换为主成分得
分;分别计算每个主成分得分的均值和标准差,
根据切比雪夫定律计算每个主成分维度下的异
常阈值;以每个主成分为坐标,制作二维空间散
点图,将每个散点代表实际医保账户,判断大于
步骤S5中异常阈值的医保报销账号视为异常帐
号。本发明对医保数据进行清洗、整理,采取主成
分分析方法,对与欺诈行为相关的变量进行特征
降维,根据统计学方法计算异常阈值,对医保欺
诈高风险识别。权利要求书2页  说明书5页  附图4页CN 106874658 A 2017.06.20
C N  106874658
A
1.一种基于主成分分析算法的医保欺诈识别方法,其特征在于,包括如下步骤:
步骤S1,获取医保基础数据,生成医保结构化数据集X;
步骤S2,对所述医保结构化数据集X中的各项数据进行标准化处理,生成标准化矩阵Z;
步骤S3,计算所述标准化矩阵Z的协方差矩阵R,并求解样本协方差矩阵R的特征方程,确定主成分;
步骤S4,将标准化后的指标变量转换为主成分得分;
步骤S5,分别计算每个主成分得分的均值和标准差,根据切比雪夫定律计算每个主成分维度下的异常阈值;
步骤S6,以每个主成分为坐标,制作二维空间散点图,将每个散点代表实际医保账户,判断大于步骤S5中异常阈值的医保报销账号视为异常帐号,将异常帐号以可视化形式进行呈现。
2.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S1中,所述医保基础数据,包括:医保基金帐号、每个帐号基金报销总额、门诊天数、基金报销比例和门诊花费总额。
3.如权利要求2所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S1中,计算每个医保基金账号每天门诊花费总额和基金报销总额,进而计算每年门诊报销总天数、基金报销额和基金报销比例,生成医保结构化数据集X。
4.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S2中,
采集样本向量x=(X1,X2,X3)T),n个样品xi=(x i1,x i2,x i3)T,i=1,2,…,n,进行如下标准化变换:
其中p为特征变量个数,得到标准化矩阵
Z。
5.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S3中,所述协方差矩阵R为:
其中,k为样本数。
6.如权利要求5所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S3中,所述求解样本协方差R的特征方程,确定主成分,包括:
计算样本协方差矩阵R的特征方程|R-λI p|=0,得到p个特征根,确定主成分;根据
其中,λ为特征值、m为待选主成分数、p为变量数,当取2个主成分PC1和
PC2时,对每个λj,计算方程组Rb=λjb,得到单位特征向量其中,j=1,2。
7.如权利要求5所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S4中,所述将标准化后的指标变量转换为主成分得分,包括:
其中,U ij为每个样本主成分得分,各样本主成分总得分=U1+U2。
8.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S5中,所述根据切比雪夫定律计算每个主成分维度下的异常阈值,包括:max=mean+4*std,
其中,max为异常阈值,mean为主成分得分的均值,std为主成分得分的标准差。
一种基于主成分分析算法的医保欺诈识别方法
技术领域
[0001]本发明涉及计算机应用技术领域,特别涉及一种基于主成分分析算法的医保欺诈识别方法。
背景技术
[0002]随着社会经济的发展,国家为了给老百姓提供更好的医保环境,医保政策越来越好。然而,一些人通过各种各样的手段骗取医保,导致医保基金不合理流失。另一方面,由于经办机构的监管模式主要以人工审核监管为主,多采用基于简单规则的数据筛选方法,从医疗基金收支监测、简单指标预警等方面开展基金风险管理工作,不仅速度慢,人力成本高,而且难以保证对欺诈行为的识别准确度。
[0003]在现有的技术中,专利(申请号:201510760477.4;名称:一种医疗保险异常数据在线智能检测方法)提出,对已标注为异常的医保数据样本进行特征学习,然后运用机器学习算法进行在线检查,然而如何确定目标样本是否异常,该专利并未涉及。
[0004]此外,专利(申请号:201410598935.4;名称:一种基于数据挖掘的医保欺诈行为的检测方法)采取对医保参保人的信息记录进行分位数打分的方法确定异常级别,并将多种异常类别简单加总确定总异常分值。该方法把连续性变量人为分段,损失了数据信息,而且忽略了各变量间可能存在的相关性,使总异常分值失去准确性。
发明内容
[0005]本发明的目的旨在至少解决所述技术缺陷之一。
[0006]为此,本发明的目的在于提出一种基于主成分分析算法的医保欺诈识别方法。[0007]为了实现上述目的,本发明的实施例提供一种基于主成分分析算法的医保欺诈识别方法,包括如下步骤:
[0008]步骤S1,获取医保基础数据,生成医保结构化数据集X;
[0009]步骤S2,对所述医保结构化数据集X中的各项数据进行标准化处理,生成标准化矩阵Z;
[0010]步骤S3,计算所述标准化矩阵Z的协方差矩阵R,并求解样本协方差矩阵R的特征方程,确定主成分;
[0011]步骤S4,将标准化后的指标变量转换为主成分得分;
[0012]步骤S5,分别计算每个主成分得分的均值和标准差,根据切比雪夫定律计算每个主成分维度下的异常阈值;
[0013]步骤S6,以每个主成分为坐标,制作二维空间散点图,将每个散点代表实际医保账户,判断大于步骤S5中异常阈值的医保报销账号视为异常帐号,将异常帐号以可视化形式进行呈现。
[0014]进一步,在所述步骤S1中,所述医保基础数据,包括:医保基金帐号、每个帐号基金报销总额、门诊天数、基金报销比例和门诊花费总额。
[0015]进一步,在所述步骤S1中,计算每个医保基金账号每天门诊花费总额和基金报销总额,进而计算每年门诊报销总天数、基金报销额和基金报销比例,生成医保结构化数据集X。
[0016]进一步,在所述步骤S2中,
[0017]采集样本向量x=(X1,X2,X3)T),n个样品xi=(x i1,x i2,x i3)T,i=1,2,…,n,进行如下标准化变换:
[0018]
[0019]其中p为特征变量个数得到标准化
矩阵Z。
[0020]进一步,在所述步骤S3中,所述协方差矩阵R为:
[0021]
[0022]其中,k为样本数。
[0023]进一步,在所述步骤S3中,所述求解样本协方差矩阵R的特征方程,确定主成分,包括:
[0024]计算样本协方差矩阵R的特征方程|R-λI p|=0,得到p个特征根,确定主成分;根据λ为特征值、m为待选主成分数、p为变量数,当取2个主成分PC1和PC2
时,对每个λj,计算方程组Rb=λjb,得到单位特征向量其中,j=1,2。
[0025]进一步,在所述步骤S4中,所述将标准化后的指标变量转换为主成分得分,包括:
[0026]
[0027]其中,U ij为每个样本主成分得分,各样本主成分总得分=U1+U2。
[0028]进一步,在所述步骤S5中,所述根据切比雪夫定律计算每个主成分维度下的异常阈值,包括:
[0029]max=mean+4*std,
[0030]其中,max为异常阈值,mean为主成分得分的均值,std为主成分得分的标准差。[0031]根据本发明实施例的基于主成分分析算法的医保欺诈识别方法,对医保数据进行清洗、整理,采取主成分分析方法,对与欺诈行为相关的变量进行特征降维,根据统计学方法计算异常阈值,通过数据可视化方法实现医保欺诈高风险识别。本发明克服了现有方法的不足,基于医保基金持卡人一年中发生门诊报销行为的天数、报销总金额以及报销金额占总费用中的比例,建立门诊报销异常行为识别模型,检索涉嫌欺诈的高风险卡号。[0032]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

本文发布于:2024-09-20 14:23:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/801117.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:成分   基金   报销   欺诈   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议