一种医保欺诈识别方法、装置、存储介质及设备

1.本技术涉及人工智能技术领域，具体涉及一种医保欺诈识别方法、装置、计算机可读存储介质及计算机设备。

背景技术：

2.随着社会保障制度的发展，具有医保并使用医保就诊的人员越来越多，各人员在各医疗机构使用医保就诊如住院或购买药品时，医疗机构的医疗人员会针对就诊人员的病症信息开出相应的医疗处方或用药信息，以对就诊人员的疾病进行。
3.由于医保特有的复杂的委托代理关系和严重的信息不对称，使医疗费用控制难度加大，在利益的驱动下就会产生一些过度医疗服务行为和违规欺诈行为，导致医保基金不合理的流失。尤其是住院的情况下，涉及费用较高，可能会造成更大的损失。因此，在就医环境中，尤其是住院场景中，医保欺诈行为的识别在杜绝医保恶意使用方面显得尤为重要。

技术实现要素：

4.本技术实施例提供一种医保欺诈识别方法、装置、计算机可读存储介质及计算机设备，可以基于用户画像和用户画像中的特征数据的异常检测来对用户住院的医保结算数据进行医保欺诈行为识别，提高识别准确率。
5.本技术实施例提供了一种医保欺诈识别方法，包括：
6.获取用户单次住院的病历数据，以及在所述单次住院期间的医保结算数据；
7.根据所述病历数据和所述医保结算数据，生成所述用户的用户画像，所述用户画像包括所述用户的基本信息维度、住院行为维度、住院费用维度、特殊医疗项目维度、病情信息维度和所述用户的病情危重等级维度，所述用户画像的每个维度中包括至少一个子标签和所述子标签所对应的特征数据；
8.根据所述用户画像中的所述基本信息维度、所述病情信息维度和所述病情危重等级维度下对应的多个特征数据对所述用户进行聚类处理，以得到所述用户所属的类别；
9.确定在所述类别下，所述用户画像中的所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下对应的多个特征数据所对应的异常程度；
10.根据所述异常程度来确定所述医保结算数据的医保欺诈识别结果。
11.本技术实施例还提供一种医保欺诈识别装置，包括：
12.获取模块，用于获取用户单次住院的病历数据，以及在所述单次住院期间的医保结算数据；
13.画像构建模块，用于根据所述病历数据和所述医保结算数据，生成所述用户的用户画像，所述用户画像包括所述用户的基本信息维度、住院行为维度、住院费用维度、特殊医疗项目维度、病情信息维度和所述用户的病情危重等级维度，所述用户画像的每个维度中包括至少一个子标签和所述子标签所对应的特征数据；
14.类别确定模块，用于根据所述用户画像中的所述基本信息维度、所述病情信息维
度和所述病情危重等级维度下对应的多个特征数据对所述用户进行聚类处理，以得到所述用户所属的类别；
15.异常确定模块，用于确定在所述类别下，所述用户画像中的所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下对应的多个特征数据所对应的异常程度；
16.识别模块，用于根据所述异常程度来确定所述医保结算数据的医保欺诈识别结果。
17.本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的医保欺诈识别方法中的步骤。
18.本技术实施例还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的医保欺诈识别方法中的步骤。
19.本技术实施例提供的医保欺诈识别方法、装置、计算机可读存储介质及计算机设备，通过获取用户单次住院的病历数据以及在单次住院期间的医保结算数据，根据病历数据和医保结算数据，生成用户的用户画像，该用户画像中包括用户的基本信息维度、住院行为维度、住院费用维度、特殊医疗项目维度、病情信息维度和病情危重等级维度，如此，用户画像中包括了用户的多个不同维度的信息，可全面完整的了解用户本次就医情况，提高用户画像的准确度；再根据用户画像中的基本信息维度、病情信息维度和病情危重等级维度下对应的多个特征数据对用户进行聚类处理，以得到用户所属的类别，并确定在该类别下，用户画像中的住院行为维度、住院费用维度和特殊医疗项目维度下对应的多个特征数据所对应的异常程度，以在同一类别下的用户进行比对，确定出用户的住院行为维度、住院费用维度和特殊医疗项目维度下对应的多个特征数据所对应的异常程度，提高特征数据对应的异常程度的准确性，最后，根据异常程度来确定医保结算数据的医保欺诈识别结果，提高医保欺诈识别结果的准确性。本技术实施例基于用户画像和用户画像中的特征数据的异常检测来对用户住院的医保结算数据进行医保欺诈行为识别，提高识别准确率。
附图说明
20.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为为本技术实施例提供的医保欺诈识别方法的流程示意图。
22.图2为本技术实施例提供的用户画像的示意图。
23.图3为本技术实施例提供的医保欺诈识别方法的子流程示意图。
24.图4为本技术实施例提供的采用bilstm-crf模型来进行实体识别处理的示意图。
25.图5为本技术实施例提供的部分实体识别结果的示意图。
26.图6为本技术实施例提供的医保欺诈识别方法的一子流程示意图。
27.图7为本技术实施例提供的第一神经网络模型处理的示意图。
28.图8为本技术实施例提供的标准化后的用户画像的示意图。
29.图9为本技术实施例提供的医保欺诈识别方法的另一子流程示意图。
30.图10为本技术实施例提供的医保欺诈识别方法的简易示意图。
31.图11为本技术实施例提供的医保欺诈识别装置的结构示意图。
32.图12为本技术实施例提供的计算机设备的结构示意图。
具体实施方式
33.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
34.本技术实施例提供一种医保欺诈识别方法、装置、计算机可读存储介质及计算机设备。具体地，本技术实施例的医保欺诈识别方法可以由计算机设备执行，本技术实施例中的医保欺诈识别装置集成在计算机设备中。其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、个人计算机(pc，personal computer)等终端设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集，还可以是提供云服务、云数据库等基础云计算服务的云服务器。
35.以下将分别对本技术实施例提供的一种医保欺诈识别方法、装置、计算机可读存储介质及计算机设备进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。
36.需要注意的是，本技术实施例中的跟用户相关的信息，如病历数据、医保结算数据等，均已经获取了用户的授权。当本技术以下实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需遵守相关国家和地区的相关法律法规和标准。
37.图1是本技术实施例提供的医保欺诈识别方法的流程示意图，该医保欺诈识别方法包括如下步骤。
38.101，获取用户单次住院的病历数据，以及在单次住院期间的医保结算数据。
39.用户单次住院指的是用户本次从入院到出院的整个过程，在一些实施例中，甚至还可以包括住院前的门诊记录等，需要注意的是，该住院前的门诊记录是与住院相关的门诊记录。该病例数据指的是用户本次住院的全病历数据，该病例数据中包括了详细病情和诊疗情况。医保结算数据包括医保结算清单和费用明细数据等，单次住院期间的医保结算数据包括在单次住院期间所涉及的医保结算清单和费用明细数据。
40.102，根据病历数据和医保结算数据，生成用户的用户画像，该用户画像包括用户的基本信息维度、住院行为维度、住院费用维度、特殊医疗项目维度、病情信息维度和用户的病情危重等级维度，用户画像的每个维度中包括至少一个子标签和子标签所对应的特征数据。
41.用户画像的本质是通过对用户基本信息和特征偏好等多维度的数据进行分析和挖掘，提取出所需要的标签和标签对应的特征，抽象出用户的信息全貌。
42.获取病历数据和医保结算数据之后，进行数据清洗，根据清洗后的病历数据和医保结算数据采用常用的多维度标签体系来构成用户画像。在介绍如何生成用户的用户画像
之前，先介绍下用户画像所对应的多维度标签体系。
43.如图2所示，为本技术实施例提供的用户画像(也可称为患者画像)对应的多维度标签体系的示意图。该用户画像中包括六个维度，分别为基本信息维度、住院行为维度、住院费用维度、特殊医疗项目维度、病情信息维度和病情危重等级维度。
44.其中，基本信息维度对应用户的基本信息，住院行为维度对应用户的住院行为信息，住院费用维度对应用户的住院费用信息，特殊医疗项目维度对应用户的特殊医疗项目信息，病情信息维度对应用户的病情信息、病情危重等级维度对应用户的病情危重等级。
45.每个维度下包括至少一个子标签，当填充子标签时，每个子标签对应有特征数据，例如，基本信息维度下包括至少一个子标签，也意味着用户的基本信息由至少一个子标签和子标签对应的特征数据构成。
46.例如，基本信息维度下的子标签主要用于了解用户就诊基本信息，具体可包括但不限于病历id、性别、年龄、入院科室、出院科室、医院等级等子标签中的一个或者多个。
47.例如，住院行为维度下的子标签主要参考分解住院、挂床住院等医保异常行为涉及的判定指标进行制定，便于发现用户是否存在以上异常行为的潜在可能，具体可包括但不限于住院天数、年度单病种住院次数、两次住院时间间隔、间隔天数、检查间隔天数、药品间隔天数等子标签中的一个或者多个。
48.例如，住院费用维度下的子标签主要用于反映用户此次住院各类费用的花费情况，具体可包括但不限于住院总费用、平均每日住院费用、各主要类别(检查、手术操作、药品、、耗材)总费用和费用占比等子标签中的一个或者多个。
49.例如，特殊医疗项目维度下的子标签主要挑选各地医保局通报案例中常见的几种检查、中医理疗相关项目，便于发现用户是否存在过度检查的潜在可能，具体的项目可包括但不限于ct、mri、彩超、针灸、推拿、中医理疗和中医康复等中的一个或者多个，具体指标包括项目总费用、项目频度、项目次数等，对应的子标签包括ct总费用、mri总费用、彩超总费用、针灸总费用、推拿总费用、中医理疗总费用和中医康复总费用等中的一个或者多个，ct频度、mri频度、彩超频度，ct次数、mri次数、彩超次数、针灸次数、推拿次数、中医理疗次数和中医康复次数等中的一个或者多个。
50.例如，病情信息维度下的子标签主要根据医生审核时重点关注的病历内容进行制定，能够反映用户此次住院的病情情况和诊疗情况。该部分为文本数据，需通过信息抽取工具获取。具体可包括但不限于主要诊断、次要诊断、主要手术、次要手术、病因、症状、检查、检查结果、检验、检验结果、、药品等子标签等中的一个或者多个。
51.例如，病情危重等级维度对应的病情危重等级子标签是基于前5个维度的信息利用卷积神经网络进行预测的，可分为3个等级，如分别用1、2、3来表示，严重程度逐级递增。
52.对应地，如图3所示，上述根据病历数据和医保结算数据，生成用户的用户画像的步骤可包括如下步骤201至205。
53.201，根据病历数据和医保结算数据确定用户的基本信息、住院行为信息、住院费用信息和特殊医疗项目信息。
54.用户的基本信息、住院行为信息、住院费用信息、特殊医疗项目信息均由至少一个子标签和子标签对应的特征数据构成，根据病历数据和医保结算数据确定用户的基本信息中的各子标签所对应的特征数据、住院行为信息中的各子标签对应的特征数据、住院费用
信息中的各子标签所对应的特征数据以及特殊医疗项目信息中的各子标签所对应的特征数据。其中，用户的基本信息、住院行为信息、住院费用信息和特殊医疗项目信息分别对应基本信息维度、住院行为信息维度、住院费用信息维度和特殊医疗项目维度。
55.202，对病历数据进行实体识别，以确定用户的病情信息。
56.用户的病情信息也由至少一个子标签和子标签对应的特征数据构成，病情信息根据病历数据确定，而病历数据是文本数据，该步骤中涉及对病历数据中的文本数据进行实体识别，以确定用户的病情信息。
57.例如，将病历数据进行实体识别处理，得到病历数据中对应的至少一个实体子标签和实体子标签对应的实体特征数据，根据实体子标签和对应的实体特征数据，得到用户的病情信息。其中，用户的病情信息对应病情信息维度。
58.其中，实体子标签即上文中病情信息维度中提到的子标签，分别为诊断(diagnosis)、手术(operation)、病因(reason)、症状(symptom)、持续时间(duration)、检查(examination)、检查结果(eresult)、检验(inspection)、检验结果(iresult)、(therapy)和药品(medicine)等子标签中的一个或者多个。
59.在一实施例中，可采用信息抽取模型/实体识别模型来进行实体识别处理，信息抽取模型/实体识别模型可采用双向长短期记忆+条件随机场模型(bi-directional long short-term memory-conditional random field，bilstm-crf模型)，还可以是其他的实体识别模型，例如，基于transformer模型的双向编码表征(bidirectional encoder representations from transformers，bert)模型、bert+crf模型、bert-bilstm-crf模型等。
60.对应地，上述将病历数据进行实体识别处理，得到病历数据中对应的至少一个实体子标签和实体子标签对应的实体特征数据的步骤，包括：获取表征病情信息的多个实体子标签；将病历数据中的每个文字输入至实体识别模型中，利用实体识别模型中的词嵌入模块进行词向量映射处理，以得到每个文字所对应的词嵌入向量；利用实体识别模型中的第一网络模块对词嵌入向量进行文本标签标注处理，以得到每个文字对应于每个实体子标签的第一概率；利用实体识别模型中的第二网络模块对第一概率进行标签依赖约束处理，得到各实体子标签序列的第二概率；确定第二概率最大的实体子标签序列中的每个实体子标签所对应的实体特征数据，即可得到病历数据中对应的至少一个实体子标签和实体子标签对应的实体特征数据。
61.如图4所示，为本技术采用bilstm-crf模型来进行实体识别处理的示意图。在bilstm-crf模型的网络架构中，至少包括look-up layer层或者embedding层(图中未示出)、bilstm层和crf层。其中，w0、w1、w2、w3、w4分别为病历数据中的每个文字。将病历数据中的每个文字输入至bilstm-crf模型中的词嵌入模块如look-up layer层中或者对应的embedding层中(图中未示出)，利用词嵌入模块进行词向量映射处理，以得到每个文字所对应的词嵌入向量。将词嵌入向量输入至实体识别模型中的第一网络模块中，该第一网络模块可以为bilstm层，利用bilstm层对词嵌入向量进行文本标签标注处理，以得到每个文字对应于每个实体子标签的第一概率。将每个文字对应于每个实体子标签的第一概率输入至实体识别模型中的第二网络模块中，即将bilstm层的所有输出作为第二网络模块的输入，该第二网络模块可以为crf层，利用crf层对第一概率进行标签依赖约束处理，得到各实体
子标签序列的第二概率，其中，利用crf网络模块学习各实体子标签之间的顺序依赖信息，得到的各实体子标签序列的第二概率如图4所示，当前显示出了三个实体子标签序列的第二概率，分别为0.3、0.9、0.1，将第二概率最大的实体子标签序列，即第二概率为0.9的实体子标签序列作为bilstm-crf模型的处理结果。确定处理结果中的实体子标签序列中的每个实体子标签所对应的实体特征数据。例如，b-诊断所对应的实体特征数据为肺，i-诊断所对应的实体特征数据为炎症。
62.如图5所示，为病历数据中的一部分数据所对应的实体子标签和实体子标签所对应的实体特征数据的结果示例，其中，病历数据中的部分数据为：
63.患者主因“头晕、恶心1天”入院。既往“脑梗死、高血压2级”病史7年”，平素规律口服“阿司匹林肠溶片、辛伐他汀片、脑心通胶囊”，血压控制理想。
64.对应地，实体识别处理后得到的实体子标签和对应的实体特征数据如下：
65.患者主因“头晕(症状)、恶心(症状)1天(持续时间)”入院。既往“脑梗死(诊断)、高血压2级(诊断)”病史7年(持续时间)，平素规律口服“阿司匹林肠溶片(药品)、辛伐他汀片(药品)、脑心通胶囊(药品)”，血压控制理想。
66.其中，括号内的即为实体子标签，括号前的内容即为实体子标签对应的实体特征数据。
67.其中，在使用实体识别模型之前，还可以对实体识别模型进行训练，具体地，获取多个不同用户的训练病历数据，对训练病历数据中的每个文字进行标注，可使用bio序列标注法进行标注，以得到标注子标签和标注子标签所对应的文本内容，其中，b(beginning)代表一个实体的开始，i(inside)代表一个实体的中间部分，o(outside)代表非实体。将标注后的训练病历数据按照8：2的比例随机划分为训练集和测试集。其中，训练集和测试集中的每个样本数据包括对应的训练病历数据、标注子标签和对应的文本内容。
68.获取初始实体识别模型，将训练集中的样本数据输入至初始实体识别模型中，进行实体识别处理，以得到样本数据中的训练病历数据所对应的至少一个训练实体子标签和训练实体子标签对应的训练实体特征数据，具体地，将训练病历数据中的每个文字输入至实体识别模型中的词嵌入模块进行词向量映射处理，以得到每个文字所对应的训练词嵌入向量，利用实体识别模型中的第一网络模块对训练词嵌入向量进行文本标签标注处理，以得到每个文字对应于每个训练实体子标签的训练第一概率，利用实体识别模型中的第二网络模块对训练第一概率进行标签依赖约束处理，得到各训练实体子标签序列的训练第二概率；确定训练第二概率最大的训练实体子标签序列中的每个训练实体子标签所对应的训练实体特征数据。
69.将训练病历数据所对应的训练实体子标签和对应的训练实体特征数据与样本数据中的标注子标签和对应的文本内容进行比对，以得到比对结果，根据比对结果来更新初始实体识别模型中的参数，直至样本数据中经过实体识别处理得到的训练实体子标签和对应的训练实体特征数据与对应样本数据中的标注子标签和标注子标签对应的文本内容相同的比例达到第一预设比例，如80％，则停止训练，得到实体识别模型。
70.得到实体识别模型后，利用测试集对实体识别模型进行测试，以确定实体识别模型的准确率。
71.203，根据用户的基本信息、住院行为信息、住院费用信息、特殊医疗项目信息和病
情信息，预测用户的病情危重等级。
72.即根据得到的五个维度分别对应的基本信息、住院行为信息、住院费用信息、特殊医疗项目信息和病情信息来预测用户的病情危重等级，以得到病情危重等级维度。
73.在一实施例中，如图6所示，步骤203包括如下步骤301至304。
74.301，将用户的基本信息、住院行为信息、住院费用信息和特殊医疗项目信息中的数值型的特征数据进行数据格式标准化处理，以得到数值化特征。
75.如当前的用户的基本信息中的年龄、住院行为信息中的所有子标签的特征数据、住院费用中的所有子标签的特征数据、特殊医疗项目信息中的所有子标签的特征数据都属于数值型的特征数据，因此将这些数值型的特征数据进行数据格式标准化处理，如统一保留相同的小数位，如保留两位小数，如转换为整数，在一些情况下，还可以进行归一化等处理，以得到数值化特征。
76.302，将用户的基本信息、住院行为信息、住院费用信息和特殊医疗项目信息中的字符型的特征数据进行词向量处理，以得到词向量特征。
77.由于当前住院行为信息、住院费用信息和特殊医疗项目信息中未涉及字符型的特征数据，因此只需将用户的基本信息中的字符型的特征数据进行词向量处理，以将字符型的特征数据转换为词向量，得到词向量特征。需要说明的是，在其他实施例中，住院行为信息、住院费用信息和特殊医疗项目信息还可以包括字符型的特征数据。
78.303，将病情信息中的特征数据利用第一神经网络模型进行句向量处理，得到句向量特征。
79.在一实施例中，第一神经网络模型可以是bilstm神经网络模型，还可以是其他的神经网络模型。
80.在一实施例中，上述将病情信息中的特征数据利用第一神经网络模型进行句向量处理，得到句向量特征的步骤，包括：将病情信息中的特征数据所对应的文本进行分词处理，以得到分词处理结果，其中，可以使用jieba分词工具来进行分词处理，还可以通过其他方式来进行分词处理，得到分词处理结果后，将分词处理结果进行词向量映射处理，以得到分词处理结果的词向量，例如，可使用word2vec工具将分词处理结果中的每个词进行词向量映射处理，还可以通过其他方式来进行词向量映射处理，得到词向量后，将词向量输入至第一神经网络模型中进行句向量处理，以得到句向量特征。
81.如图7所示，为第一神经网络模型处理的示意图，其中，v(wi)表示经word2vec转化的词向量，hc表示bilstm模型的输出，即对应的句向量特征。
82.304，将数值化特征、词向量特征和句向量特征输入至第二神经网络模型中进行病情危重等级预测处理，以得到用户的病情危重等级。
83.具体地，将数值化特征、词向量特征和句向量特征进行融合处理，以得到第一融合特征，其中，融合处理可以是拼接处理，即将数值化特征、词向量特征和句向量特征进行拼接处理，以得到第一融合特征。将第一融合特征输入至第二神经网络模型中进行病情危重等级预测处理，以得到用户的病情危重等级。
84.其中，第二神经网络模型可以是卷积神经网络模型，该第二神经网络模型可包括输入层、卷积层、激活函数层、池化层、全连接层。输入层用于接收输入信息并对输入信息进行一些处理，在一实施例中，输入信息包括数值化特征、词向量特征和句向量特征，输入层
得到数值化特征、词向量特征和句向量特征之后，对数值化特征、词向量特征和句向量特征进行融合处理，以得到第一融合特征。本技术实施例以该种情况为例进行说明。
85.需要注意的是，在其他一些实施例中，输入层输入的是用户的基本信息、住院行为信息、住院费用信息和特殊医疗项目信息，输入层得到用户的基本信息、住院行为信息、住院费用信息和特殊医疗项目信息之后，执行上述步骤301至303的内容。
86.得到第一融合特征之后，将第一融合特征输入至卷积层进行卷积处理，卷积层由多个卷积单元组成。在获取第一融合特征后，卷积层利用规定好的卷积核对第一融合特征进行卷积运算，从而提取卷积特征。其中，输出的卷积特征的规格计算公式如下公式(1)所示：
[0087][0088]
其中，s代表输入数据的尺寸，f则为卷积核的尺寸，step则代表步幅，p代表所扩充的层数。本提案采用的卷积核尺寸(f)为3
×
3，步幅(step)为2。
[0089]
得到卷积特征后，将卷积特征输入至激活函数层，以加入非线性特征。激活函数是用来引入非线性因素的，具有非线性、单调性和处处可导等特点。常见的激活函数有sigmoid、tanh和relu。本提案采用relu函数，其公式如下：
[0090]
f(x)＝max(0,x)
ꢀꢀꢀꢀꢀꢀꢀ
(2)
[0091]
将经过激活函数层处理后的特征输入至池化层，以进行池化处理，得到池化后的特征。其中，池化层的作用为了避免产生过拟合的问题，池化处理包括最大池化处理和平均池化处理等，本技术实施例中采用最大池化处理的方案，其中，设置池化的窗口大小为2。
[0092]
得到池化后的特征后，将池化后的特征输入至全连接层，利用全连接池来作为输出层，得到最后的分类结果，其中，全连接池的公式如公式(3)所示：
[0093]
y＝softmax(wx+b)
ꢀꢀꢀꢀꢀꢀꢀ
(3)
[0094]
其中，softmax函数可以如下公式(4)所示：
[0095][0096]
其中，x上一层池化层输出的池化后的向量，w为全连接层的权值矩阵，b是偏置向量，y为全连接层的结果，该结果即为用户的病情危重等级。l为输出节点的个数，即分类的类别数量，yi为第i个节点的输出值。将全连接池的多个不同概率中的最大概率作为用户的病情危重等级。该病情危重等级可以用1、2、3等数字来表示，还可以用其他的来表示，如高、中、低等。
[0097]
其中，第二神经网络模型可以通过预先训练得到，其中，在训练的过程中，所对应的损失函数可使用交叉熵函数。
[0098]
该实施例中根据用户的基本信息、住院行为信息、住院费用信息、特殊医疗项目信息来预测用户的病情危重等级。
[0099]
预测得到用户的病情危重等级后，如此，以得到用户的六个维度的信息，根据该六个维度的信息，如根据基本信息、住院行为信息、住院费用信息、特殊医疗项目信息、病情信息和病情危重等级构建用户的用户画像。
[0100]
在一实施例中，在得到用户的基本信息、住院行为信息、住院费用信息、特殊医疗
项目信息、病情信息和病情危重等级之后，还可以包括如下步骤204-205。
[0101]
204，将用户的基本信息、住院行为信息、住院费用信息、特殊医疗项目信息和病情信息下的多个子标签的特征数据进行标准化处理。
[0102]
其中，在实际应用中发现，用户的基本信息、住院行为信息、住院费用信息、特殊医疗项目信息和病情信息表现形式各异，难以实际应用，例如不同医院的科室名称会存在差异，有的医院会将内科具体划分为内一科、内二科，有的医院则直接写为内科等。因此，需要将用户的基本信息、住院行为信息、住院费用信息、特殊医疗项目信息和病情信息下的多个子标签的特征数据进行标准化处理。
[0103]
例如，将基本信息、住院行为信息、住院费用信息、特殊医疗项目信息中的数值型的特征数据进行数据格式标准化处理；和/或将病情信息下的主要诊断子标签、次要诊断子标签、主要手术子标签和次要手术子标签对应的特征数据，利用icd编码表进行映射处理，以得到对应子标签标准化的特征数据；和/或，将病情信息下所涉及的症状子标签对应的特征数据，与症状标准化体系中的各个症状进行相似度处理，将相似度最高的症状作为症状子标签标准化的特征数据；和/或，将病情信息下所涉及的子标签对应的特征数据，利用标准化体系中的各个进行相似度处理，将相似度最高的作为子标签标准化的特征数据。
[0104]
其中，病情信息下的每个子标签所对应的特征数据都是根据用户所对应的病历数据提取到的，需要将其进行标准化。
[0105]
其中，icd编码表对应的是国际疾病分类表，即对于疾病、手术名称等，具体地，包括病情信息下的主要诊断子标签、次要诊断子标签、主要手术子标签和次要手术子标签对应的特征数据，将其映射到icd编码表上，以得到统一的标准化的特征数据。
[0106]
其中，症状标准化体系、标准化体系分别为现有的症状标准化分类表、标准化分类表。症状标准化分类表、标准化分类表可以提前制定，也可以使用现有的分类表。例如症状“泽异常”，我们设定该症状为一级标签，在二级标签下细化泽异常部位的描述如“面部泽异常”、“眼部泽异常”等，在三级标签下细化对具体泽的不同描述如“面黄”、“眼苍白”等以此类推，同时通过对病历数据的收集整理列出相关的同义词、复合词表达等。
[0107]
在根据病历数据得到症状子标签对应的特征数据后，将该特征数据与症状标准化体系中的各个症状进行相似度处理，将相似度最高的症状作为症状子标签标准化的特征数据。例如，将根据病历数据得到的症状“面苍白”标准化到症状标准化体系中的规范名称上。同理也进行类似的操作，以得到子标签标准化的特征数据。
[0108]
205，根据标准化处理后的基本信息、住院行为信息、住院费用信息、特殊医疗项目信息、病情信息和病情危重等级构建用户的用户画像。
[0109]
构建用户的用户画像时，使用的都是标准化处理后的信息，使得，每个用户的用户画像都采用标准化的信息来表达，提高了用户画像的可阅读性，同时方便基于用户画像进行进一步的处理。其中，以某一个用户为例，构建的用户画像如图8所示，图8中的只是示例了一部分的子标签。
[0110]
至此，得到用户的标准化的用户画像。对于每个用户的用户画像都进行相同的处理，以得到每个不同用户的用户画像。本技术实施例中的用户画像的构建使用了病历数据
以及医保结算数据，可直观清晰的反映出用户当次住院的费用情况和诊疗情况，使得用户画像的内容更加丰富具体。
[0111]
103，根据用户画像中的基本信息维度、病情信息维度和病情危重等级维度下对应的多个特征数据对用户进行聚类处理，以得到用户所属的类别。
[0112]
本技术实施例中可采用聚类模型/聚类方法对用户进行聚类处理，例如，可使用非监督学习中的k-means聚类方法，还可以使用其他的聚类方法。
[0113]
对用户进行聚类处理，以使得将病情与手段相仿的病人划分为一类，以提高特征数据异常检测的准确性和可靠性。
[0114]
在一实施例中，上述根据用户画像中的基本信息维度、病情信息维度和病情危重等级维度下对应的多个特征数据对用户进行聚类处理，以得到用户所属的类别的步骤，包括：根据用户画像中的基本信息维度下的特征数据和病情信息维度下的特征数据，将用户划分为目标组别；根据用户画像中的基本信息维度下的特征数据、病情危重等级和病情信息维度下的所有子标签对应的特征数据，对用户进行聚类处理，以得到用户在目标组别下的类别。
[0115]
具体地，根据用户画像中的基本信息维度下的医院等级子标签对应的特征数据，和病情信息维度中的主要诊断子标签对应的特征数据，将用户划分为目标组别；根据用户画像中的基本信息维度下的医院等级子标签、入院科室子标签和出院科室子标签对应的特征数据，病情危重等级以及病情信息维度下的所有子标签对应的特征数据，对用户进行聚类处理，以得到用户在目标组别下的类别，例如对于目标组别内的用户，提取医院等级子标签、入院科室子标签和出院科室子标签对应的特征数据，病情危重等级以及病情信息维度下的所有子标签对应的特征数据，根据上文中相同的处理方式得到对应的词向量特征和句向量特征，将词向量特征和句向量特征进行融合处理，如拼接后，得到第二融合特征，将第二融合特征输入至聚类模型/聚类方法中进行聚类处理，将距离最近的类别作为用户在目标组别下的类别。
[0116]
其中，需要预先确定所有组别下的所有类别。具体地，预先获取多个不同用户的用户画像，根据多个不同用户的用户画像中的基本信息维度下的医院等级子标签对应的特征数据，和病情信息维度中的主要诊断子标签对应的特征数据，将用户划分为多个不同组别，由于不同医院等级之间项目收费标准可能会不一致，因此，根据医院等级子标签和主要诊断子标签所对应的特征数据划分为不同组别，即将同一医院等级同一主要诊断的用户划分为一组；对于相同组别下用户画像中的基本信息维度下的医院等级子标签、入院科室子标签和出院科室子标签对应的特征数据，病情危重等级以及病情信息维度下的所有子标签对应的特征数据，根据上文中相同的处理方式得到对应的词向量特征和句向量特征，其中，若病情危重等级为数值型的特征数据，则将数值型的特征数据进行数值格式标准化处理，若病情危重等级为字符型的特征数据，则将字符型的特征数据进行词向量处理，以得到一部分的词向量特征。将词向量特征和句向量特征进行融合处理得到第二融合特征，将第二融合特征输入至聚类模型/聚类方法中对用户进行聚类处理，具体地，根据预先设定好的中心点数量对相同组别的特征数据进行聚类处理，例如，可设置中心点数量k＝3，如此，将相同组别下的特征数据分为三类，以分别得到相同组别下的所有类别。
[0117]
当有新的用户对应的用户画像时，提取相同特征数据，得到词向量特征和句向量
特征，将词向量特征和句向量特征进行融合处理后的第二融合特征输入至聚类模型/聚类方法中，以将该用户划分至距离最近的中心点中，并将距离最近的中心点所对应的类别作为用户在项目组别下的类别。
[0118]
先确定用户所在的目标组别，再确定用户在目标组别下的类别，以尽可能将相同的用户划分为同一类别。
[0119]
104，确定在类别下，用户画像中的住院行为维度、住院费用维度和特殊医疗项目维度下对应的多个特征数据所对应的异常程度。
[0120]
其中，异常程度也可以用异常总得分来确定，本技术实施例中以该种情况为例进行说明；异常程度来可以根据异常等级来确定等。
[0121]
在一实施例中，如图9所示，步骤104包括如下步骤401至403。
[0122]
401，获取在对应类别下，住院行为维度、住院费用维度和特殊医疗项目维度下的每个子标签的特征数据所对应的特征阈值。
[0123]
住院行为维度、住院费用维度和特殊医疗项目维度下的每个子标签的特征数据对应一个特征阈值，对应每个子标签的特征数据所对应的特征阈值预先确定。例如，对于上述多个不同用户的聚类结果，获取同一类别的用户的用户画像中的住院行为维度、住院费用维度和特殊医疗项目维度下的每个子标签的特征数据，使用统计学方法确定对应维度下的每个特征数据的特征阈值。其中，统计学方法包括k-sigma原则。
[0124]
例如，以住院总费用子标签对应的特征数据为例，获取对应类别下的所有用户住院总费用子标签对应的特征数据，以构成数据集，调整数据集中的特征数据为正态分布，当数据集中的特征数据服从正态分布时，若特征数据落在(μ-kσ,μ+kσ)之外时，可将对应的特征数据视为异常值，其中，本技术实施例中的k分别取值为3、4、5，如此来确定医院总费用的三个特征阈值和异常值范围。其他的每个子标签的特征数据都可按照相同的方式来确定对应的特征阈值和异常值范围。
[0125]
402，根据特征阈值，确定用户画像中住院行为维度、住院费用维度和特殊医疗项目维度下的每个子标签的特征数据的异常分数。
[0126]
其中，可采取百分制积分规则对用户画像中的住院行为维度、住院费用维度和特殊医疗项目维度下的每个子标签的特征数据进行打分，以确定每个子标签的特征数据的异常分数，以判定该用户的每个子标签的特征数据是否异常。
[0127]
例如，对于单次住院总费用(也可以直接是住院总费用)子标签对应的特征数据，具体评分规则可如下：三个特征阈值对应的分数分别为60，80，100，分别为第一特征阈值、第二特征阈值、第三特征阈值；将住院总费用子标签对应的特征数据小于第一特征阈值的视为正常范围，设置异常分数为0分；对特征数据处于第一特征阈值和第二特征阈值之间、或者第二特征阈值和第三特征阈值之间的，对其进行线性确定异常分数；对于超出第三特征阈值的特征数据，设置其异常分数为100分。
[0128]
例如，用户a住在某三级医院，出院主要诊断为“眼球疾患”，病情危重等级为3，通过聚类方法被划分到类别3中。该用户住院总费用为“26388.5”元，已超出同类用户住院总费用设定的第三特征阈值“25832”元，故该项指标的异常分数为100分，视为异常。其中，一个指标对应一个子标签。
[0129]
可按照相同的方式确定用户画像中的住院行为维度、住院费用维度和特殊医疗项
目维度下的每个子标签的特征数据的异常分数。
[0130]
403，根据异常分数确定异常总得分。
[0131]
由于疾病临床表现复杂多变，仅靠单项指标(一个指标对应一个子标签)异常并不能准确地反映出该用户是否存在医保欺诈的异常行为，但如果用户多项指标均异常便可以认为该患者存在潜在的医保欺诈行为。因此，本技术实施例中对病历数据进行多指标综合评分，根据每个指标即每个子标签的异常分数来确定异常总得分。利用多个指标/子标签的异常分数来确定异常总得分可以对异常行为进行一个全面的评估，有效降低用户因临床病情变化导致某一单项指标或少量指标异常造成的虚警问题。
[0132]
在一实施例中，将用户画像中的住院行为维度、住院费用维度和特殊医疗项目维度下的每个子标签的特征数据的异常分数进行相加，得到异常总得分。
[0133]
在一实施例中，每个子标签即每个指标所对应的重要性程度不同，因此，对上述各子标签对应的特征数据赋予权重，权重可设置为1-10不等，也可设置为0-1的数据。
[0134]
例如，对于两次住院时间间隔小于三天的很有可能出现分解住院嫌疑，因此将两次住院时间间隔指标/子标签的权重设为10，对于检查总费用指标/子标签权重设为1，因为仅依据检查总费用指标/子标签特征数据异常，出现医保欺诈嫌疑较小。
[0135]
对应地，上述根据异常分数确定异常总得分的步骤，包括：获取用户画像中住院行为维度、住院费用维度和特殊医疗项目维度下的每个子标签的特征数据的权重；根据每个子标签的特征数据的异常分数和对应特征数据的权重来确定异常总得分。即将每个子标签的特征数据的异常分数与对应特征数据的权重相乘之后再求和，以得到异常总得分。在一实施例中，在得到异常总得分之后，将异常总得分进行降序排列。
[0136]
该实施例中从用户住院行为、住院费用以及特殊医疗项目的花费和使用上等多角度挖掘潜在的医保欺诈行为。
[0137]
105，根据异常程度来确定医保结算数据的医保欺诈识别结果。
[0138]
当异常程度用异常总得分来表示时，得到异常总得分之后，可直接根据异常总得分来确定医保结算数据的医保欺诈识别结果。例如，若异常总得分小于异常分数阈值，则确定医保结算数据不存在医保欺诈行为；若异常总得分不小于异常分数阈值，即异常总得分大于或者等于异常分数阈值，则确定医保结算数据存在潜在的医保欺诈行为。
[0139]
其中，预设分数阈值，可以是根据多个存在医保欺诈行为的用户的单次住院的病历数据和医保结算数据按照上述方式计算得到的异常总得分的均值。
[0140]
在一实施例中，鉴于病情复杂程度不同以及数据问题缺失的情况，在判定是否存在潜在的医保欺诈行为时有特定的一些先验知识，可将这些先验知识进行整理形成对应的先验规则加入到数据后处理模块中，使医保欺诈行为的识别结果更合理和准确。其中，数据后处理模块也可理解为利用先验知识的先验规则来进行过滤处理的过滤模块。
[0141]
数据后处理模块中可加入如下的先验知识：
[0142]
1)参考当地医保审核实际情况，将特殊条件列入数据后处理模块。如不对肾透析患者进行医保审核；不对80岁以上患者进行医保审核，因其年龄过大，基础性疾病较多。
[0143]
2)结合临床经验，将常见情况列入数据后处理模块。如在判断患者住院次数异常可能存在分解住院时，需排除掉肿瘤、放化疗、脑病等影响住院次数的疾病等。
[0144]
3)结合医生专家团队的审核情况，将常见的通用问题列入后处理模块。如在判断
患者耗材费用占比异常时，需判断该患者是否因使用该疾病常用高价耗材导致的耗材费用占比过高。
[0145]
4)根据当地医保目录文件，将药品表与诊疗目录表内容列入后处理模块。
[0146]
数据后处理模块还可以包括其他的一些先验知识所对应的先验规则。
[0147]
对应地，在得到异常总得分之后，利用数据后处理模块中的先验知识所对应的先验规则对用户的病历数据和医保结算数据进行匹配，例如，匹配年龄是否大于80岁等，若未匹配成功，则意味着该用户的病历数据和医保结算数据不满足数据后处理模块中的先验规则，进一步地根据异常总得分来确定医保结算数据的医保欺诈识别结果。具体地，若异常总得分小于异常分数阈值，则确定医保结算数据不存在医保欺诈行为；若异常总得分不小于异常分数阈值，即异常总得分大于或者等于异常分数阈值，则确定医保结算数据存在潜在的医保欺诈行为。
[0148]
如图10所示，为本技术实施例提供的医保欺诈识别方法的简易示意图，其中，输入的是用户的病历数据和医保结算数据，接着构建用户画像，用户画像的构建包括了基于信息抽取模型的实体识别，基于卷积神经网络的推理预测，最后将数据进行标准化处理，并构建用户画像。其次，是评分模块，评分模块中首先基于k-means聚类方法进行聚类分析，接着基于统计学方法的异常分数的确定，最后基于多指标的综合评分，得到异常总分数，接着，是数据后处理模块，数据后处理模块中根据先验知识进行数据后处理，最后，输出用户的医保结算数据的医保审核结果。
[0149]
上述实施例中的医保欺诈识别方法，相对于当前大多借助医保结算数据进行大数据分析来识别医保异常行为，并未考虑用户的病情因素，且未涉及用户住院行为和各项费用异常的识别来说，本技术中同时使用用户的病历数据和医保结算数据进行处理，涉及多个不同的指标，可以对医保欺诈行为进行全面评估，使得医保审核结果更加准确和合理。
[0150]
上述所有的技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
[0151]
为便于更好的实施本技术实施例的医保欺诈识别方法，本技术实施例还提供一种医保欺诈识别装置。请参阅图11，图11为本技术实施例提供的医保欺诈识别装置的结构示意图。该医保欺诈识别装置可以包括获取模块501，画像构建模块502，类别确定模块503、异常确定模块504以及识别模块505。
[0152]
获取模块501，用于获取用户单次住院的病历数据，以及在所述单次住院期间的医保结算数据。
[0153]
画像构建模块502，用于根据所述病历数据和所述医保结算数据，生成所述用户的用户画像，所述用户画像包括所述用户的基本信息维度、住院行为维度、住院费用维度、特殊医疗项目维度、病情信息维度和所述用户的病情危重等级维度，所述用户画像的每个维度中包括至少一个子标签和所述子标签所对应的特征数据。
[0154]
在一实施例中，画像构建模块502包括第一确定单元、实体确定单元、病情等级确定单元和画像构建单元。其中，第一确定单元，用于根据所述病历数据和所述医保结算数据确定所述用户的基本信息、所述住院行为信息、所述住院费用信息和所述特殊医疗项目信息。实体确定单元，用于对所述病历数据进行实体识别，以确定所述用户的病情信息。病情等级确定单元，用于根据所述用户的基本信息、所述住院行为信息、所述住院费用信息、所
述特殊医疗项目信息和所述病情信息，预测所述用户的病情危重等级。画像构建单元，用于根据所述基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息、所述病情信息和所述病情危重等级构建所述用户的用户画像。
[0155]
其中，病情等级确定单元，具体用于将所述用户的基本信息、所述住院行为信息、所述住院费用信息和所述特殊医疗项目信息中的数值型的特征数据进行数据格式标准化处理，以得到数值化特征；将所述用户的基本信息、所述住院行为信息、所述住院费用信息和所述特殊医疗项目信息中的字符型的特征数据进行词向量处理，以得到词向量特征；将所述病情信息中的特征数据利用第一神经网络模型进行句向量处理，得到句向量特征；将所述数值化特征、所述词向量特征和所述句向量特征输入至第二神经网络模型中进行病情危重等级预测处理，以得到所述用户的病情危重等级。
[0156]
其中，病情等级确定单元，在用于执行所述将所述病情信息中的特征数据利用第一神经网络模型进行句向量处理，得到句向量特征时，具体用于将所述病情信息中的特征数据所对应的文本进行分词处理，得到分词处理结果；将所述分词处理结果进行词向量映射处理，以得到所述分词处理结果所对应的词向量；将所述词向量输入至第一神经网络模型中进行句向量处理，以得到句向量特征，所述第一神经网络模型包括双向长短时记忆网络模型。
[0157]
其中，病情等级确定单元，在用于将所述数值化特征、所述词向量特征和所述句向量特征输入至第二神经网络模型中进行病情危重等级预测处理，以得到所述用户的病情危重等级时，具体用于将所述数值化特征、词向量特征和所述句向量特征进行融合处理，以得到第一融合特征；将第一融合特征输入至第二神经网络模型中进行病情危重等级预测处理，以得到所述用户的病情危重等级。
[0158]
其中，实体确定单元，具体用于将所述病历数据进行实体识别处理，得到所述病历数据中对应的至少一个实体子标签和所述实体子标签对应的实体特征数据；根据所述实体子标签和所述实体特征数据，确定所述用户的病情信息。
[0159]
其中，实体确定单元，在用于执行所述将所述病历数据进行实体识别处理，得到所述病历数据中对应的至少一个实体子标签和所述实体子标签对应的实体特征数据时，具体用于获取表征所述病情信息的多个实体子标签；将所述病历数据中的每个文字输入至实体识别模型中，利用实体识别模型中的词嵌入模块进行词向量映射处理，以得到每个文字所对应的词嵌入向量；利用所述实体识别模型中的第一网络模块对所述词嵌入向量进行文本标签标注处理，以得到每个文字对应于每个实体子标签的第一概率；利用所述实体识别模型中的第二网络模块对所述第一概率进行标签依赖约束处理，得到各实体子标签序列的第二概率；确定所述第二概率最大的实体子标签序列中的每个实体子标签所对应的实体特征数据。
[0160]
其中，画像构建模块502还可以包括标准化单元，其中，标准化单元，用于将所述用户的所述基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息和所述病情信息下的多个子标签的特征数据进行标准化处理。对应地，画像构建单元，具体用于根据标准化处理后的所述基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息、所述病情信息和所述病情危重等级构建所述用户的用户画像。
[0161]
其中，标准化单元，具体用于将所述基本信息、所述住院行为信息、所述住院费用
信息、所述特殊医疗项目信息中的数值型的特征数据进行数据格式标准化处理；和/或，将所述病情信息下的主要诊断子标签、次要诊断子标签、主要手术子标签和次要手术子标签对应的特征数据，利用编码表进行映射处理，以得到对应子标签标准化的特征数据；和/或，将所述病情信息下所涉及的症状子标签对应的特征数据，与症状标准化体系中的各个症状进行相似度处理，将相似度最高的症状作为所述症状子标签标准化的特征数据；和/或，将所述病情信息下所涉及的子标签对应的特征数据，利用标准化体系中的各个进行相似度处理，将相似度最高的作为所述子标签标准化的特征数据。
[0162]
类别确定模块503，用于根据所述用户画像中的所述基本信息维度、所述病情信息维度和所述病情危重等级维度下对应的多个特征数据对所述用户进行聚类处理，以得到所述用户所属的类别。
[0163]
在一实施例中，类别确定模块503，包括组别确定单元、类别确定单元。其中，组别确定单元，用于根据所述用户画像中的基本信息维度下的特征数据和病情信息维度下的特征数据，将所述用户划分为目标组别。类别确定单元，用于根据所述用户画像中的基本信息维度下的特征数据、病情危重等级和病情信息维度下的所有子标签对应的特征数据，对所述用户进行聚类处理，以得到所述用户在所述目标组别下的类别。
[0164]
异常确定模块504，用于确定在所述类别下，所述用户画像中的所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下对应的多个特征数据所对应的异常程度。
[0165]
在一实施例中，异常确定模块504，具体用于获取在所述类别下，所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下的每个子标签的特征数据所对应的特征阈值；根据所述特征阈值，确定所述用户画像中所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下的每个子标签的特征数据的异常分数；根据所述异常分数确定异常总得分，并根据异常总得分确定异常程度。
[0166]
其中，异常确定模块504，在用于执行获取在所述类别下，所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下的每个子标签的特征数据所对应的特征阈值时，具体用于获取多个用户的用户画像；根据所述多个用户的用户画像中的所述基本信息维度、所述病情信息维度和所述病情危重等级维度下对应的多个特征数据对所述多个用户进行聚类处理，以得到所述多个用户所属的类别；对于所述类别下的所述用户画像中的所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下的每个子标签的特征数据，根据统计学方法来确定对应维度下的每个子标签的特征数据所对应的特征阈值。
[0167]
其中，异常确定模块504，在用于执行根据所述异常分数确定异常总得分时，具体用于获取所述用户画像中所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下的每个子标签的特征数据的权重；根据所述每个子标签的特征数据的异常分数和对应特征数据的权重来确定异常总得分。
[0168]
识别模块505，用于根据所述异常程度来确定所述医保结算数据的医保欺诈识别结果。
[0169]
在一实施例中，医保欺诈识别装置还可以包括数据后处理模块506，数据后处理模块506，用于利用数据后处理模块中的先验知识所对应的先验规则对所述用户的所述病历数据和所述医保结算数据进行匹配，并在未成功匹配的情况下，触发识别模块505。
diode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器601以确定触摸事件的类型，随后处理器601根据触摸事件的类型在显示面板上提供相应的视觉输出。在本技术实施例中，可以将触控面板与显示面板集成到触控显示屏603而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏603也可以作为输入单元606的一部分实现输入功能。
[0179]
在本技术实施例中，该触控显示屏603用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。
[0180]
射频电路604可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。
[0181]
音频电路605可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路605可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路605接收后转换为音频数据，再将音频数据输出处理器601处理后，经射频电路604以发送给比如另一计算机设备，或者将音频数据输出至存储器602以便进一步处理。音频电路605还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。
[0182]
输入单元606可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0183]
电源607用于给计算机设备600的各个部件供电。可选的，电源607可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源607还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0184]
尽管图12中未示出，计算机设备600还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。
[0185]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0186]
本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。
[0187]
为此，本技术实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本技术实施例所提供的任一种医保欺诈识别方法中的步骤。例如，该计算机程序可以执行如下步骤：
[0188]
获取用户单次住院的病历数据，以及在所述单次住院期间的医保结算数据；根据所述病历数据和所述医保结算数据，生成所述用户的用户画像，所述用户画像包括所述用户的基本信息维度、住院行为维度、住院费用维度、特殊医疗项目维度、病情信息维度和所述用户的病情危重等级维度，所述用户画像的每个维度中包括至少一个子标签和所述子标
签所对应的特征数据；根据所述用户画像中的所述基本信息维度、所述病情信息维度和所述病情危重等级维度下对应的多个特征数据对所述用户进行聚类处理，以得到所述用户所属的类别；确定在所述类别下，所述用户画像中的所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下对应的多个特征数据所对应的异常程度；根据所述异常程度来确定所述医保结算数据的医保欺诈识别结果。
[0189]
以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
[0190]
其中，该存储介质可以包括：只读存储器(rom，read only memory)、随机存取记忆体(ram，random access memory)、磁盘或光盘等。
[0191]
由于该存储介质中所存储的计算机程序，可以执行本技术实施例所提供的任一种医保欺诈识别方法中的步骤，因此，可以实现本技术实施例所提供的任一种医保欺诈识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。
[0192]
以上对本技术实施例所提供的一种医保欺诈识别方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

技术特征：

1.一种医保欺诈识别方法，其特征在于，包括：获取用户单次住院的病历数据，以及在所述单次住院期间的医保结算数据；根据所述病历数据和所述医保结算数据，生成所述用户的用户画像，所述用户画像包括所述用户的基本信息维度、住院行为维度、住院费用维度、特殊医疗项目维度、病情信息维度和所述用户的病情危重等级维度，所述用户画像的每个维度中包括至少一个子标签和所述子标签所对应的特征数据；根据所述用户画像中的所述基本信息维度、所述病情信息维度和所述病情危重等级维度下对应的多个特征数据对所述用户进行聚类处理，以得到所述用户所属的类别；确定在所述类别下，所述用户画像中的所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下对应的多个特征数据所对应的异常程度；根据所述异常程度来确定所述医保结算数据的医保欺诈识别结果。2.根据权利要求1所述的方法，其特征在于，所述根据所述病历数据和所述医保结算数据，生成所述用户的用户画像的步骤，包括：根据所述病历数据和所述医保结算数据确定所述用户的基本信息、所述住院行为信息、所述住院费用信息和所述特殊医疗项目信息；对所述病历数据进行实体识别，以确定所述用户的病情信息；根据所述用户的基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息和所述病情信息，预测所述用户的病情危重等级；根据所述基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息、所述病情信息和所述病情危重等级构建所述用户的用户画像。3.根据权利要求2所述的方法，其特征在于，所述根据所述用户的基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息和所述病情信息，预测所述用户的病情危重等级的步骤，包括：将所述用户的基本信息、所述住院行为信息、所述住院费用信息和所述特殊医疗项目信息中的数值型的特征数据进行数据格式标准化处理，以得到数值化特征；将所述用户的基本信息、所述住院行为信息、所述住院费用信息和所述特殊医疗项目信息中的字符型的特征数据进行词向量处理，以得到词向量特征；将所述病情信息中的特征数据利用第一神经网络模型进行句向量处理，得到句向量特征；将所述数值化特征、所述词向量特征和所述句向量特征输入至第二神经网络模型中进行病情危重等级预测处理，以得到所述用户的病情危重等级。4.根据权利要求3所述的方法，其特征在于，所述将所述病情信息中的特征数据利用第一神经网络模型进行句向量处理，得到句向量特征的步骤，包括：将所述病情信息中的特征数据所对应的文本进行分词处理，得到分词处理结果；将所述分词处理结果进行词向量映射处理，以得到所述分词处理结果所对应的词向量；将所述词向量输入至第一神经网络模型中进行句向量处理，以得到句向量特征，所述第一神经网络模型包括双向长短时记忆网络模型。5.根据权利要求3所述的方法，其特征在于，所述将所述数值化特征、词向量特征和所
述句向量特征输入至第二神经网络模型中进行病情危重等级预测处理，以得到所述用户的病情危重等级的步骤，包括：将所述数值化特征、词向量特征和所述句向量特征进行融合处理，以得到第一融合特征；将第一融合特征输入至第二神经网络模型中进行病情危重等级预测处理，以得到所述用户的病情危重等级，所述第二神经网络模型为卷积神经网络模型。6.根据权利要求2所述的方法，其特征在于，所述对所述病历数据进行实体识别，以确定所述用户的病情信息的步骤，包括：将所述病历数据进行实体识别处理，得到所述病历数据中对应的至少一个实体子标签和所述实体子标签对应的实体特征数据；根据所述实体子标签和所述实体特征数据，确定所述用户的病情信息。7.根据权利要求6所述的方法，其特征在于，所述将所述病历数据进行实体识别处理，得到所述病历数据中对应的至少一个实体子标签和所述实体子标签对应的实体特征数据的步骤，包括：获取表征所述病情信息的多个实体子标签；将所述病历数据中的每个文字输入至实体识别模型中，利用实体识别模型中的词嵌入模块进行词向量映射处理，以得到每个文字所对应的词嵌入向量；利用所述实体识别模型中的第一网络模块对所述词嵌入向量进行文本标签标注处理，以得到每个文字对应于每个实体子标签的第一概率；利用所述实体识别模型中的第二网络模块对所述第一概率进行标签依赖约束处理，得到各实体子标签序列的第二概率；确定所述第二概率中最大概率的实体子标签序列中的每个实体子标签所对应的实体特征数据。8.根据权利要求2所述的方法，其特征在于，在得到所述用户的所述基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息、所述病情信息之后，所述方法还包括：将所述用户的所述基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息和所述病情信息下的多个子标签的特征数据进行标准化处理；所述根据所述基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息、所述病情信息和所述病情危重等级构建所述用户的用户画像的步骤，包括：根据标准化处理后的所述基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息、所述病情信息和所述病情危重等级构建所述用户的用户画像。9.根据权利要求8所述的方法，其特征在于，所述将所述用户的所述基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息和所述病情信息下的多个子标签的特征数据进行标准化处理的步骤，包括：将所述基本信息、所述住院行为信息、所述住院费用信息、所述特殊医疗项目信息中的数值型的特征数据进行数据格式标准化处理；和/或，将所述病情信息下的主要诊断子标签、次要诊断子标签、主要手术子标签和次要手术子标签对应的特征数据，利用编码表进行映射处理，以得到对应子标签标准化的特征数据；
和/或，将所述病情信息下所涉及的症状子标签对应的特征数据，与症状标准化体系中的各个症状进行相似度处理，将相似度最高的症状作为所述症状子标签标准化的特征数据；和/或，将所述病情信息下所涉及的子标签对应的特征数据，利用标准化体系中的各个进行相似度处理，将相似度最高的作为所述子标签标准化的特征数据。10.根据权利要求1所述的方法，其特征在于，所述根据所述用户画像中的所述基本信息维度、所述病情信息维度和所述病情危重等级维度下对应的多个特征数据对所述用户进行聚类处理，以得到所述用户所属的类别的步骤，包括：根据所述用户画像中的基本信息维度下的特征数据和病情信息维度下的特征数据，将所述用户划分为目标组别；根据所述用户画像中的基本信息维度下的特征数据、病情危重等级和病情信息维度下的所有子标签对应的特征数据，对所述用户进行聚类处理，以得到所述用户在所述目标组别下的类别。11.根据权利要求1所述的方法，其特征在于，所述确定在所述类别下，所述用户画像中的所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下对应的多个特征数据所对应的异常程度的步骤，包括：获取在所述类别下，所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下的每个子标签的特征数据所对应的特征阈值；根据所述特征阈值，确定所述用户画像中所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下的每个子标签的特征数据的异常分数；根据所述异常分数确定异常总得分，并根据异常总得分确定异常程度。12.根据权利要求11所述的方法，其特征在于，所述获取在所述类别下，所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下的每个子标签的特征数据所对应的特征阈值的步骤，包括：获取多个用户的用户画像；根据所述多个用户的用户画像中的所述基本信息维度、所述病情信息维度和所述病情危重等级维度下对应的多个特征数据对所述多个用户进行聚类处理，以得到所述多个用户所属的类别；对于所述类别下的所述用户画像中的所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下的每个子标签的特征数据，根据统计学方法来确定对应维度下的每个子标签的特征数据所对应的特征阈值。13.根据权利要求11所述的方法，其特征在于，所述根据所述异常分数确定异常总得分的步骤，包括：获取所述用户画像中所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下的每个子标签的特征数据的权重；根据所述每个子标签的特征数据的异常分数和对应特征数据的权重来确定异常总得分。14.根据权利要求1所述的方法，其特征在于，所述异常程度包括异常总得分，在所述根
据所述异常程度来确定所述医保结算数据的医保欺诈识别结果的步骤之前，还包括：利用数据后处理模块中的先验知识所对应的先验规则对所述用户的所述病历数据和所述医保结算数据进行匹配；在未成功匹配的情况下，所述根据所述异常程度来确定所述医保结算数据的医保欺诈识别结果的步骤，包括：若异常总得分小于异常分数阈值，则确定所述医保结算数据不存在医保欺诈行为；若异常总得分大于或者等于异常分数阈值，则确定所述医保结算数据存在潜在的医保欺诈行为。15.一种医保欺诈识别装置，其特征在于，包括：获取模块，用于获取用户单次住院的病历数据，以及在所述单次住院期间的医保结算数据；画像构建模块，用于根据所述病历数据和所述医保结算数据，生成所述用户的用户画像，所述用户画像包括所述用户的基本信息维度、住院行为维度、住院费用维度、特殊医疗项目维度、病情信息维度和所述用户的病情危重等级维度，所述用户画像的每个维度中包括至少一个子标签和所述子标签所对应的特征数据；类别确定模块，用于根据所述用户画像中的所述基本信息维度、所述病情信息维度和所述病情危重等级维度下对应的多个特征数据对所述用户进行聚类处理，以得到所述用户所属的类别；异常确定模块，用于确定在所述类别下，所述用户画像中的所述住院行为维度、所述住院费用维度和所述特殊医疗项目维度下对应的多个特征数据所对应的异常程度；识别模块，用于根据所述异常程度来确定所述医保结算数据的医保欺诈识别结果。16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-14任一项所述的医保欺诈识别方法中的步骤。17.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如权利要求1-14任一项所述的医保欺诈识别方法中的步骤。

技术总结

本申请实施例公开了一种医保欺诈识别方法、装置、存储介质及设备。该方法包括：获取用户单次住院的病历数据以及医保结算数据，根据病历数据和医保结算数据，生成用户的用户画像，该用户画像中包括用户的基本信息维度、住院行为维度、住院费用维度、特殊医疗项目维度、病情信息维度和病情危重等级维度，根据基本信息维度、病情信息维度和病情危重等级维度下对应的多个特征数据对用户进行聚类处理，以得到用户所属的类别，确定在该类别下，住院行为维度、住院费用维度和特殊医疗项目维度下对应的多个特征数据所对应的异常程度，根据异常程度来确定医保结算数据的医保欺诈识别结果，以提高医保欺诈识别结果的准确性。高医保欺诈识别结果的准确性。高医保欺诈识别结果的准确性。