骗取留抵退税识别模型构建方法、装置、设备和存储介质

著录项
  • CN202210547647.0
  • 20220518
  • CN115271892A
  • 20221101
  • 北京中科闻歌科技股份有限公司
  • 郭建彬;董立峰;柳力多;黄泰文;赵菲菲;罗引;王磊
  • G06Q40/00
  • G06Q40/00 G06F16/2458 G06F16/2457 G06N3/04 G06N3/08 G06Q50/26

  • 北京市海淀区北四环西路9号楼7层717室
  • 北京(11)
  • 北京开阳星知识产权代理有限公司
  • 张通
摘要
本公开实施例提供了一种骗取留抵退税识别模型的构建方法、装置、设备和存储介质。骗取留抵退税识别模型构建方法包括获取多个样本退税申请数据序列和对应的实体标签;基于样本退税申请数据序列确定对应的第一特征向量;基于多个第一特征向量和对应的实体标签对预先构建的骗取留抵退税识别模型进行训练。骗取留抵退税识别模型构建方法能够直接挖掘样本退税申请数据的特征构建骗取留抵退税识别模型,而无需如现有专家评价指标体系的方法需要依靠专家经验设定评价指标、指标权重和指标阈值的问题。
权利要求

1.一种骗取留抵退税识别模型构建方法,其特征在于,包括:

获取多个样本退税申请数据序列和对应的实体标签,每个所述样本退税申请数据均包括连续多个周期的增值税留抵税额,所述实体标签为正常纳税实体标签或者骗取留抵退税实体标签;

基于所述样本退税申请数据序列确定对应的第一特征向量;

基于多个所述第一特征向量和对应的实体标签对预先构建的骗取留抵退税识别模型进行训练,得到训练后的所述骗取留抵退税识别模型。

2.根据权利要求1所述的方法,其特征在于,所述基于所述样本退税申请数据序列确定对应的第一特征向量包括:

根据预先设置的分箱规则确定各个所述增值税留抵税额匹配的编码标识;

基于所述编码标识确定各个所述样本退税申请数据序列对应的第一特征向量。

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述编码标识确定各个所述样本退税申请数据序列对应的第一特征向量,包括:

按照所述样本退税申请数据序列中的所述增值税留抵税额的排序顺序,对对应的所述编码标识进行排序,得到第二特征向量;

基于所述第二特征向量构建所述第一特征向量。

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

计算各个所述编码标识的出现概率;

在所述第二特征向量中的至少两个元素的共现概率大于对应的编码标识的出现概率的乘积的情况下,基于所述共现概率对应的元素生成融合特征元素;

所述基于所述第二特征向量确定所述第一特征向量,包括:

按照预设规则组合所述第二特征向量和对应的所述融合特征元素得到第三特征向量;

基于所述第三特征向量确定所述第一特征向量。

5.根据权利要求4所述的方法,其特征在于,所述在所述第二特征向量中的至少两个元素的共现概率大于对应的所述编码标识的出现概率的乘积的情况下,基于对应的所述编码标识生成融合特征元素,包括:

步骤A:基于所述第二特征向量中的第i-1个元素构建临时序列,i=1,2,……,m-1;

步骤B:确定所述临时序列的出现概率;

步骤C:判断所述临时序列与第i个元素的共现概率是否大于对应的所述出现概率的乘积;若是,执行步骤D;若否,步骤E;

步骤D:将所述第i个元素添加至所述临时序列中,使i=i+1,并重新执行步骤B;

步骤E:在临时序列中元素的数量多于一个的情况下,根据所述临时序列中的元素生成所述融合特征元素,以及存储所述临时序列。

6.根据权利要求5所述的方法,其特征在于,在将第i个元素添加至所述临时序列之前,所述步骤D还包括:

在所述临时序列中元素的数量多于一个的情况下,根据所述临时序列中的元素生成融合特征元素,以及存储所述临时序列。

7.根据权利要求4所述的方法,其特征在于,所述基于所述第三特征向量确定所述第一特征向量,包括:

计算所述第三特征向量中每个元素的词频-逆向文件频率;

按照所述第三特征向量中各个元素的排序顺序,对对应的词频-逆向文件频率进行排序,得到第四特征向量;

基于所述第四特征向量确定所述第一特征向量。

8.根据权利要求7所述的方法,其特征在于,所述基于所述第三特征向量确定所述第一特征向量,还包括:

根据各个第三特征向量对应的实体标签确定所述第三特征向量中各个元素的信息值,并存储所述信息值;

基于所述第三特征向量中各个元素对应的信息值构建第五特征向量;

所述基于所述第四特征向量确定所述第一特征向量,包括:

基于所述第四特征向量和所述第五特征向量确定所述第一特征向量。

9.根据权利要求8所述的方法,其特征在于,所述基于所述第四特征向量和所述第五特征向量确定所述第一特征向量,包括:

采用所述第四特征向量中各个元素与所述第五特征向量中对应的元素相乘,得到特征元素;

组合所述特征元素确定所述第一特征向量。

10.根据权利要求1或2所述的方法,其特征在于,所述骗取留抵退税识别模型为支持向量机模型或者深度学习模型,所述支持向量机模型和所述深度学习模型均为二分类模型;

所述基于多个所述第一特征向量和对应的实体标签对预先构建的骗取留抵退税识别模型进行训练,包括:

基于多个所述第一特征向量和对应的实体标签对所述支持向量机模型或者所述深度学习模型进行训练。

11.一种骗取留抵退税实体识别方法,其特征在于,包括:

获取待识别纳税实体的退税申请数据序列,所述退税申请数据序列包括连续多个周期的增值税留抵税额;

基于所述退税申请数据序列确定对应的第六特征向量;

将所述第六特征向量输入到骗取留抵退税识别模型中,确定所述待识别纳税实体是否为骗取留抵退税实体,所述骗取留抵退税识别模型采用如权利要求1-9任一项所述的方法构建。

12.根据权利要求11所述的方法,其特征在于,所述基于所述退税申请数据序列确定对应的第六特征向量,包括:

根据预先设置的分箱规则确定所述退税申请数据序列中各个所述增值税留抵税额匹配的编码标识;

基于所述编码标识确定各个所述样本退税申请数据序列对应的第六特征向量。

13.根据权利要求11或12所述的方法,其特征在于,所述基于所述编码标识确定各个所述样本退税申请数据序列对应的第六特征向量,包括:

按照所述退税申请数据序列中的所述增值税留抵税额的排序顺序,对对应的编码标识进行排序,得到第七特征向量;

基于所述第七特征向量构建所述第六特征向量。

14.根据权利要求13所述的方法,其特征在于,所述方法还包括:

判断所述第七特征向量中是否有临时序列,所述临时序列为在训练所述骗取留抵退税识别模型时存储的序列;

在所述第七特征向量中具有临时序列的情况下,获取所述临时序列对应的融合特征元素;

所述基于所述第七特征向量构建所述第六特征向量:

按照预设规则组合所述第七特征向量和所述融合特征元素,形成第八特征向量;

基于所述第八特征向量构建所述第六特征向量。

15.根据权利要求14所述的方法,其特征在于,所述基于所述第八特征向量构建所述第六特征向量,包括:

计算所述第八特征向量中每个元素的词频-逆向文件频率;

按照所述第八特征向量中各个元素的排序顺序,对对应的词频-逆向文件频率进行排序,得到第九特征向量;

基于所述第九特征向量确定所述第六特征向量。

16.根据权利要求15所述的方法,其特征在于,所述基于所述第八特征向量构建所述第六特征向量,还包括:

获取所述第八特征向量中各个元素对应的信息值;

基于所述第八特征量中各个元素对应的信息值构建第十特征向量;

所述基于所述第九特征向量确定所述第六特征向量,包括:

基于所述第九特征向量和所述第十特征向量确定所述第六特征向量。

17.根据权利要求16所述的方法,其特征在于,所述基于所述第九特征向量和所述第十特征向量确定所述第六特征向量,包括:

采用所述第九特征向量中各个元素与所述第十特征向量中对应的元素相乘,得到特征元素;

组合所述特征元素确定所述第六特征向量。

18.一种骗取留抵退税识别模型构建装置,其特征在于,包括:

样本数据获取单元,用于获取多个样本退税申请数据序列和对应的实体标签,每个所述样本退税申请数据均包括连续多个周期的增值税留抵税额,所述实体标签为正常纳税实体标签或者骗取留抵退税实体标签;

第一特征向量确定单元,用于基于所述样本退税申请数据序列确定对应的第一特征向量;

识别模型训练单元,用于基于多个所述第一特征向量和对应的实体标签对预先构建的骗取留抵退税识别模型进行训练,得到训练后的所述骗取留抵退税识别模型。

19.一种骗取留抵退税实体识别装置,其特征在于,包括:

待识别实体数据获取单元,用于获取所述待识别纳税实体的退税申请数据序列,所述退税申请数据序列包括连续多个周期的增值税留抵税额;

第六特征向量确定单元,用于基于所述退税申请数据序列确定对应的第六特征向量;

骗取留抵退税实体识别单元,用于将所述第六特征向量输入到骗取留抵退税识别模型中,确定所述待识别纳税实体是否为骗取留抵退税实体,所述骗取留抵退税识别模型采用如权利要求1-9任一项所述的方法构建。

20.一种计算设备,包括:

处理器;以及

存储程序的存储器,

其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-17中任一项所述的方法。

21.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-17中任一项所述的方法。

22.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-17中任一项所述的方法。

说明书
技术领域

本发明涉及数据处理技术领域,尤其涉及一种骗取留抵退税识别模型的构建方法、装置、设备和存储介质。

留抵退税是在进项税额大于销项税额时,在增值税抵扣完的税额退还给纳税人的行为。骗取留抵退税是指纳税人(也就是骗取留抵退税实体)通过购买富余发票虚构增值税留抵税额而骗取留抵税额退税的行为。

目前,监测骗取留抵退税实体骗取留抵退税行为的方法主要是基于专家评价指标体系的方法。因为评价指标的选取、指标权重和风险定性阈值的设定需要依赖税务专家的专家经验。并且基于专家评价指标体系的方法中指标阈值仅能对违法特征显著的骗税行为予以判定,难以实现对大部分企业骗取留抵退税行为的定性认定,导致对实际出现骗取留抵退税行为的召回率较低,也就是无法有效地发现一些骗取留抵退税实体骗取留抵退税的行为。

为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种骗取留抵退税识别模型的构建方法、装置、设备和存储介质。

第一方面,本公开实施例提供一种骗取留抵退税识别模型构建方法,包括:

获取多个样本退税申请数据序列和对应的实体标签,每个所述样本退税申请数据均包括连续多个周期的增值税留抵税额,所述实体标签为正常纳税实体标签或者骗取留抵退税实体标签;

基于所述样本退税申请数据序列确定对应的第一特征向量;

基于多个所述第一特征向量和对应的实体标签对预先构建的骗取留抵退税识别模型进行训练,得到训练后的所述骗取留抵退税识别模型。

可选的,所述基于所述样本退税申请数据序列确定对应的第一特征向量包括:

根据预先设置的分箱规则确定各个所述增值税留抵税额匹配的编码标识;

基于所述编码标识确定各个所述样本退税申请数据序列对应的第一特征向量。

可选的,所述基于所述编码标识确定各个所述样本退税申请数据序列对应的第一特征向量,包括:

按照所述样本退税申请数据序列中的所述增值税留抵税额的排序顺序,对对应的所述编码标识进行排序,得到第二特征向量;

基于所述第二特征向量构建所述第一特征向量。

可选的,所述方法还包括:

计算各个所述编码标识的出现概率;

在所述第二特征向量中的至少两个元素的共现概率大于对应的编码标识的出现概率的乘积的情况下,基于所述共现概率对应的元素生成融合特征元素;

所述基于所述第二特征向量确定所述第一特征向量,包括:

按照预设规则组合所述第二特征向量和对应的所述融合特征元素得到第三特征向量;

基于所述第三特征向量确定所述第一特征向量。

可选的,所述在所述第二特征向量中的至少两个元素的共现概率大于对应的所述编码标识的出现概率的乘积的情况下,基于对应的所述编码标识生成融合特征元素,包括:

步骤A:基于所述第二特征向量中的第i-1个元素构建临时序列,i=1,2,……,m-1;

步骤B:确定所述临时序列的出现概率;

步骤C:判断所述临时序列与第i个元素的共现概率是否大于对应的所述出现概率的乘积;若是,执行步骤D;若否,步骤E;

步骤D:将所述第i个元素添加至所述临时序列中,使i=i+1,并重新执行步骤B;

步骤E:在临时序列中元素的数量多于一个的情况下,根据所述临时序列中的元素生成所述融合特征元素,以及存储所述临时序列。

可选的,在将第i个元素添加至所述临时序列之前,所述步骤D还包括:

在所述临时序列中元素的数量多于一个的情况下,根据所述临时序列中的元素生成融合特征元素,以及存储所述临时序列。

可选的,所述基于所述第三特征向量确定所述第一特征向量,包括:

计算所述第三特征向量中每个元素的词频-逆向文件频率;

按照所述第三特征向量中各个元素的排序顺序,对对应的词频-逆向文件频率进行排序,得到第四特征向量;

基于所述第四特征向量确定所述第一特征向量。

可选的,所述基于所述第三特征向量确定所述第一特征向量,还包括:

根据各个第三特征向量对应的实体标签确定所述第三特征向量中各个元素的信息值,并存储所述信息值;

基于所述第三特征向量中各个元素对应的信息值构建第五特征向量;

所述基于所述第四特征向量确定所述第一特征向量,包括:

基于所述第四特征向量和所述第五特征向量确定所述第一特征向量。

可选的,所述基于所述第四特征向量和所述第五特征向量确定所述第一特征向量,包括:

采用所述第四特征向量中各个元素与所述第五特征向量中对应的元素相乘,得到特征元素;

组合所述特征元素确定所述第一特征向量。

可选的,所述骗取留抵退税识别模型为支持向量机模型或者深度学习模型,所述支持向量机模型和所述深度学习模型均为二分类模型;

所述基于多个所述第一特征向量和对应的实体标签对预先构建的骗取留抵退税识别模型进行训练,包括:

基于多个所述第一特征向量和对应的实体标签对所述支持向量机模型或者所述深度学习模型进行训练。

第二方面,本公开实施例提供一种骗取留抵退税实体识别方法,包括:

获取待识别纳税实体的退税申请数据序列,所述退税申请数据序列包括连续多个周期的增值税留抵税额;

基于所述退税申请数据序列确定对应的第六特征向量;

将所述第六特征向量输入到骗取留抵退税识别模型中,确定所述待识别纳税实体是否为骗取留抵退税实体,所述骗取留抵退税识别模型采用如权利要求1-9任一项所述的方法构建。

可选的,所述基于所述退税申请数据序列确定对应的第六特征向量,包括:

根据预先设置的分箱规则确定所述退税申请数据序列中各个所述增值税留抵税额匹配的编码标识;

基于所述编码标识确定各个所述样本退税申请数据序列对应的第六特征向量。

可选的,所述基于所述编码标识确定各个所述样本退税申请数据序列对应的第六特征向量,包括:

按照所述退税申请数据序列中的所述增值税留抵税额的排序顺序,对对应的编码标识进行排序,得到第七特征向量;

基于所述第七特征向量构建所述第六特征向量。

可选的,所述方法还包括:

判断所述第七特征向量中是否有临时序列,所述临时序列为在训练所述骗取留抵退税识别模型时存储的序列;

在所述第七特征向量中具有临时序列的情况下,获取所述临时序列对应的融合特征元素;

所述基于所述第七特征向量构建所述第六特征向量:

按照预设规则组合所述第七特征向量和所述融合特征元素,形成第八特征向量;

基于所述第八特征向量构建所述第六特征向量。

可选的,所述基于所述第八特征向量构建所述第六特征向量,包括:

计算所述第八特征向量中每个元素的词频-逆向文件频率;

按照所述第八特征向量中各个元素的排序顺序,对对应的词频-逆向文件频率进行排序,得到第九特征向量;

基于所述第九特征向量确定所述第六特征向量。

可选的,所述基于所述第八特征向量构建所述第六特征向量,还包括:

获取所述第八特征向量中各个元素对应的信息值;

基于所述第八特征量中各个元素对应的信息值构建第十特征向量;

所述基于所述第九特征向量确定所述第六特征向量,包括:

基于所述第九特征向量和所述第十特征向量确定所述第六特征向量。

可选的,所述基于所述第九特征向量和所述第十特征向量确定所述第六特征向量,包括:

采用所述第九特征向量中各个元素与所述第十特征向量中对应的元素相乘,得到特征元素;

组合所述特征元素确定所述第六特征向量。

第三方面,本公开实施例提供一种骗取留抵退税识别模型构建装置,包括:

样本数据获取单元,用于获取多个样本退税申请数据序列和对应的实体标签,每个所述样本退税申请数据均包括连续多个周期的增值税留抵税额,所述实体标签为正常纳税实体标签或者骗取留抵退税实体标签;

第一特征向量确定单元,用于基于所述样本退税申请数据序列确定对应的第一特征向量;

识别模型训练单元,用于基于多个所述第一特征向量和对应的实体标签对预先构建的骗取留抵退税识别模型进行训练,得到训练后的所述骗取留抵退税识别模型。

第三方面,本公开实施例提供一种骗取留抵退税实体识别装置,包括:

待识别实体数据获取单元,用于获取所述待识别纳税实体的退税申请数据序列,所述退税申请数据序列包括连续多个周期的增值税留抵税额;

第六特征向量确定单元,用于基于所述退税申请数据序列确定对应的第六特征向量;

骗取留抵退税实体识别单元,用于将所述第六特征向量输入到骗取留抵退税识别模型中,确定所述待识别纳税实体是否为骗取留抵退税实体,所述骗取留抵退税识别模型采用如前的骗取留抵退税识别模型构建方法构建。

第五方面,本公开实施例提供一种计算设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据前文中所述的方法。

第六方面,本公开实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前文所述的方法。

第七方面,本公开实施例提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现如前所述的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点:

采用本公开实施例提供的方案,骗取留抵退税识别模型构建方法能够直接挖掘样本退税申请数据的特征,进而构建骗取留抵退税识别模型,而无需如现有专家评价指标体系的方法需要依靠专家经验设定评价指标、指标权重和指标阈值的问题,能够方便地地实现骗取留抵退税识别模型的构建。另外,本公开实施例提供的骗取留抵退税实体识别方法能够基于样本数据充分地挖掘数据特征,辨别出违法特征并不显著的骗税行为,因此识别骗取留抵退税实体的能力强于现有基于专家指标体系的方法。

在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:

图1是本公开一些实施例提供的骗取留抵退税识别模型的构建方法流程图;

图2是本公开另一些实施例提供的骗取留抵退税识别模型的构建方法流程图;

图3是本公开一些实施例中基于编码标识确定第一特征向量的方法流程图;

图4是本公开一些实施例生成融合特征元素的方法示意图;

图5是本公开一些实施例提供的基于第三特征向量确定第一特征向量的方法流程图;

图6是本公开实施例提供的骗取留抵退税实体识别方法流程图;

图7是本公开一些实施例提供的骗取留抵退税实体识别方法流程图;

图8是本公开一些实施例基于编码标识确定第六特征向量的方法流程图;

图9是本公开一些实施例提供的基于第八特征向量确定第六特征向量的方法流程图;

图10是本公开实施例提供的骗取留抵退税识别模型的构建装置结构示意图;

图11是本公开实施例提供的骗取留抵退税实体识别装置结构示意图;

图12是本公开实施例提供的计算设备的结构示意图。

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/ 或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

图1是本公开一些实施例提供的骗取留抵退税识别模型的构建方法流程图。如图1所示,本公开实施例提供的骗取留抵退税识别模型构建方法包括步骤S110-S130。应当注意的是,本公开实施例提供的骗取留抵退税识别模型构建方法可以由各种计算设备执行,计算设备可以是服务器,也可以是各种终端设备。

S110:获取多个样本退税申请数据序列和对应的实体标签。

样本退税申请数据序列是采用纳税实体发起的退税申请数据构建的数据序列,样本退税申请数据序列中包括连续多个周期的增值税留抵税额。也就是说,样本退税申请数据序列中的数据是纳税实体在连续的多个周期的增值税留抵税额构建的序列。

具体实施例中,可以根据税务数据平台获取纳税实体在设定时间期限内设定周期的增值税留抵税额,并对增值税留抵税额做标准化处理,构建样本退税申请数据序列。

实体标签是用于表征与样本退税申请数据序列对应的纳税实体类型的标签,实体标签可以为正常纳税实体标签或者骗取留抵退税实体标签。正常纳税实体标签表征纳税实体为正常纳税、尚未发现有骗取留抵退税行为的实体。骗税实标签表征纳税实体有骗取留抵退税的行为,也就是其对应的样本退税申请数据序列中的数据有包括骗取留抵退税数据的部分。应当注意的是,前述骗取留抵退税数据的部分可能是融入到样本推书数据序列中的部分数据中,并不一定指的是样本退税申请数据序列中的某些数据本身就是骗取留抵退税的数额。

例如,在本公开一些实施例中,样本退税申请数据序列采用其中表示第i家企业第m个月的增值税留抵税额。

S120:基于样本退税申请数据序列确定对应的第一特征向量。

第一特征向量是用于表征样本退税申请数据序列特征的向量。

在本公开的一些实施例中,可以直接将样本退税申请数据序列作为第一特征向量。在本公开的其他实施例中,也可以基于样本退税申请数据序列进行处理得到第一特征向量。具体可以如何基于样本退税申请数据序列确定对应的第一特征向量在后文中再做分析。

步骤S130:基于多个第一特征向量和对应的实体标签对预先构建的骗取留抵退税识别模型进行训练,得到训练后的骗取留抵退税识别模型。

骗取留抵退税识别模型是用于判定纳税实体是否为骗取留抵退税实体的模型,骗取留抵退税识别模型是一个二分类模型。

在本公开的一些实施例中,骗取留抵退税识别模型可以是支持向量机模型。支持向量机模型通过在空间中到能够将所有第一特征向量做二分类划分的超平面,并使得多个样本退税申请数据序列到超平面的距离最短,进而能够用于后续辨别纳税实体是否为骗取留抵退税实体。支持向量机模型在训练过程中同时考虑了经验风险和结构风险最小化,因此具有稳定性。在一些具体应用中,支持向量机模型采用教练损失函数作为代理损失。因为教练损失函数的取值特点,支持向量机模型具有稀疏性,即其决策边界仅由支持向量决定,其余的样本不参与经验风险最小化。在使用核方法的非线性学习中,支持向量机模型的稳健性和稀疏性确保了可靠求解结果的同时能够降低核矩阵的计算量和存储开销。

在本公开的另外一些实施例中,骗取留抵退税识别模型还可以是深度学习模型。采用步骤S130对骗取留抵退税识别模型进行训练,即是在训练过程中使得骗取留抵退税识别模型具有隐式地学习样本退税申请数据序列中数据特征,进而能够具有判别纳税实体是否为骗取留抵退税实体的能力。

采用本公开实施例提供的纳税识别模型构建方法,采用样本退税申请数据序列构建第一特征向量后,随后利用第一特征向量和对应的实体标签对骗取留抵退税识别模型进行训练,使得骗取留抵退税识别模型具有识别纳税实体是否为骗取留抵退税实体的能力。

采用本公开实施例提供的模型构建方法,能够直接挖掘样本退税申请数据的特征,进而构建骗取留抵退税识别模型,而无需如现有专家评价指标体系的方法需要依靠专家经验设定评价指标、指标权重和指标阈值的问题,能够方便地地实现骗取留抵退税识别模型的构建。另外,本公开实施例提供的方法能够基于样本数据充分地挖掘数据特征,辨别出违法特征并不显著的骗税行为,因此识别骗取留抵退税实体的能力强于现有基于专家指标体系的方法。

图2是本公开另一些实施例提供的骗取留抵退税识别模型的构建方法流程图。如图2 所示,在本公开的另外一些实施例中,骗取留抵退税识别模型的构建方法包括步骤S210-S240。

步骤S210:获取多个样本退税申请数据序列和对应的实体标签。

每个样本退税申请数据均包括连续多个周期的增值税留抵税额,实体标签为正常纳税实体标签或者骗取留抵退税实体标签。

步骤S220:根据预先设置的分箱规则确定各个增值税留抵税额匹配的编码标识。

步骤S230:基于编码标识确定各个样本退税申请数据序列对应的第一特征向量。

步骤S240:基于多个第一特征向量和对应的实体标签对预先构建的骗取留抵退税识别模型进行训练,得到训练后的骗取留抵退税识别模型。

本公开实施例中,步骤S210与前述实施例步骤S110相同,步骤S240与前述实施例步骤S130相同。

与前文实施例不同的是,本公开实施例中,并不是直接将样本退税申请数据序列作为第一特征向量,而是对样本退税申请数据序列进行处理后,基于处理后的数据确定第一特征向量。实际应用中,纳税实体提供的退税申请数据是各种可能的随机数据(应当注意的是,随机数据的具体随机程度可能根据货币体系采用的最小计量单位确定),使得样本退税申请数据中的数据种类过多,不便于后续步骤处理(具体为不便于后续步骤挖掘数据包含的特征),为此本公开实施例中预先设置了分箱规则,以根据分箱规则将样本退税申请序列中的各个增值税留底税额转换为匹配的编码标识。

具体的,分箱规则可以设置各个分箱对应的数据区段和编码标识。在获得一个增值税留抵税额后,判定此留抵税额被划分至那个分箱中,并采用此分箱的编码标识作为增值税留抵税额匹配的编码标识。

在本公开的一些实施例中,前述的分箱规则可以是离散化规则。在获得增值税留抵税额后,可以基于离散化规则确定增值税留抵税额对应的离散化数值,并采用对应的离散数值作为对应的编码标识。也就是说,采用离散化数值作为前述分箱规则中各个分箱的编码标识。

采用本公开实施例提供的先别识别模型的构建方法,通过采用分箱规则确定样本退税申请数据序列中各个增值税留抵税额对应的编码标识后,利用编码标识确定样本退税申请数据序列对应的第一特征向量,可以降低所有样本退税申请数据序列中的数据元素的类型数量,进而使得降低后续模型训练过程中的数据处理量和存储量,并降低模型的训练难度。

图3是本公开一些实施例中基于编码标识确定第一特征向量的方法流程图。如图3所示,基于编码标识确定第一特征向量的方法可以包括步骤S231-S232。

步骤S231:按照样本退税申请数据序列中的增值税留抵税额的排序顺序,对对应的编码标识进行排序,得到第二特征向量。

步骤S232:基于第二特征向量构建第一特征向量。

通过对大量纳税实体在较长时间提交的增税税留抵税额申请数据发现,增值税留抵税额的大小和企业的购产销具有一定的关联关系,即样本退税申请数据序列中各个增值税留抵税额的排序具有特定的排序特征。为了充分利用此特征,并能够使得在模型训练中充分地挖掘此特征,本公开实施例中按照样本退税申请数据序列中的增值税留抵税额的排序顺序对编码标识进行排序,进而得到第二特征向量。

在得到第二特征向量后,可以基于第二特征向量构建第一特征向量。在本公开的一些实施例中,可以直接将第二特征向量作为第一特征向量使用。

在另外一些实施例中,基于编码标识确定第一特征向量的方法除了可以包括前述的步骤S231-S232外,还可以包括步骤S233-S234。

步骤S233:计算各个编码标识的出现概率。

本公开实施例中,计算各个编码标识的出现概率可以是统计各个编码标识的出现频率和所有编码标识出现的频率和,随后基于各个编码标识的出现频率和所有编码标识出现的频率和计算出现概率。也就是说,前述的出现概率实际采用此编码标识的出现频率表示。

步骤S234:在第二特征向量中的至少两个元素的共现概率大于对应的编码标识的出现概率的乘积的情况下,基于共现概率对应的元素生成融合特征元素。

本公开实施例中,共现概率是至少两个元素同时出现的概率。前述的两个元素指的是位置特定的两个元素,也就是说是按照特定顺序排列的至少两个编码标识出现的概率。具体的,可以将前述按照特定顺序排列的至少两个编码标识当做一个整体计算其出现频率,并计算前述整体出现频率和其他编码标识出现频率和,最后基于整体出现频率和前述出现频率和计算得到共现概率。

如果两个元素的共现概率大于对应的编码标识的出现概率的乘积,则表明两个元素的组合大概率能够更好地表征样本退税申请数据序列中的隐含特征,因此可以基于对应的元素生成融合特征元素。

本公开实施例中,基于对应的元素生成融合特征元素,可以是将前述的元素相乘或者相加的结果作为融合特征元素,也可以为前述的元素的组合分配一个新的编码标识,并将新的编码标识作为融合特征元素。此外,融合特征元素除了具有前述的数据特征外,还可以具有位置特征。位置特征指的是不同的融合特征元素之间虽然数值相同,但是因为其标称的元素不同,但是其实质上不同的。融合特征元素的位置特征在后续组合第一特征向量过程中被体现。

图4是本公开一些实施例生成融合特征元素的方法示意图。如图4所示,在一些实施例中生成融合特征元素的方法包括步骤S2341-S2345。

步骤S2341:基于第二特征向量中的第i-1个元素构建临时序列,i=1,2,……,m-1。

应当注意的是本公开实施例中第二特征向量中包括m-1个元素,分别为y1,y2,……,ym-1,前述的i=1,2,……,m-1表明第i个元素应当是第二特征向量中第一个元素值之后的元素。

步骤S2341中基于第i-1个元素构建临时序列,是将第i-1个元素中第二特征向量中选出,并基于第i-1个元素构建一个临时序列。应当注意的是,在步骤S2341中临时序列中元素的数量为一个,随后根据执行过程临时序列中元素的数量可能增加,也可能并不增加。

步骤S2342:确定临时序列的出现概率。

本公开实施例中,确定临时序列的出现概率可能包括如下情况:(1)在临时序列仅包括一个元素的情况下,出现概率即是前述一个元素的出现概率;(2)在临时序列包括多个元素的情况下,出现概率是前述多个元素的共现概率。

步骤S2343:判断临时序列与第i个元素的共现概率是否大于对应的出现概率的乘积;若是,执行步骤S2434;若否,执行步骤S2435。

根据前文的表述,判断临时序列与第i个元素的共现概率是将临时序列和第i个元素组合成一个整体,求取此整体的出现概率。基于前述出现概率的两种情况,计算对应的出现概率的乘积同样可能出现两种情况:(1)在临时序列仅包括一个元素的情况下,计算出现概率的乘积,是直接求取两个元素的出现概率的乘积;(2)在临时序列包括多个元素的情况下,计算出现概率的乘积是求取临时序列的共现概率与第i个元素的出现概率的乘积。

步骤S2344:将第i个元素添加至临时序列中,使i=i+1,并重新执行步骤2342-S2435。

将第i个元素添加至临时序列中,是将第i个元素添加至临时序列的末尾中,形成新的临时序列。随后使得i=i+1是为了使得重新执行步骤S2343时,能够判定新第i个元素是否能与在前的临时序列的共现概率是否大于对应出现概率的乘积。

步骤S2345:在临时序列中元素的数量多于一个的情况下,根据临时序列中的元素生成融合特征元素,以及存储临时序列。

在实际计算中,临时序列中可能仅有一个元素,因此无需也无法实现元素的融合生成融合特征元素。而在临时序列中有至少两个元素的情况下,则可以将临时序列中的元素进行融合。

本公开实施例中,通过存储临时序列,可以用于后续基于骗取留抵退税识别模型进行骗取留抵退税实体识别时使用。

在前述实施例中实施过程中,是根据最终确定的最长的临时序列生成融合特征元素。在本公开的其他实施例中,在前述步骤S2344将第i个元素添加至临时序列之前,还可以执行步骤S2344A。

步骤S2344A:在临时序列中元素的数量多于一个的情况下,根据临时序列中的元素生成融合特征元素,以及存储临时序列。

为了能够较为形象的表述,以下通过举例的方式说明下步骤S2344A和步骤S2345的区别。结合当前临时序列为{z1,z2,z3},在执行步骤S2433后,确定z4与{z1,z2,z3}的共现概率大于对应的出现概率的乘积,此时并不执行步骤S2435,而是执行步骤S2434,根据{z1,z2,z3}生成联合特征元素,并存储临时序列{z1,z2,z3}。随后步骤S2434将z4 添加至临时序列中形成新的临时序列{z1,z2,z3,z4}。如果在下一循环中,{z1,z2,z3, z4}与随后的元素z5的共现概率小于对应的出现概率的乘积,则在执行步骤S2435时是基于临时序列{z1,z2,z3,z4}计算融合特征元素,并存储临时序列{z1,z2,z3,z4}。

在执行前述的步骤S233和S234的情况下,前述的步骤S232基于第二特征向量构建第一特征向量具体可以包括步骤S2321和S2322。

步骤S2321:按照预设规则组合第二特征向量和对应的融合特征元素得到第三特征向量。

与第二特征向量对应的融合特征元素是此第二特征向量包括的临时序列对应的融合特征元素。按照预设规则组合第二特征向量和对应的融合特征元素得到第三特征向量,是对第二特征向量按照基于步骤S233和S234确定的融合特征元素的数量进行扩容,并确定各个融合特征向量对应的扩容位置,并将此第二特征向量对应的融合特征元素写入到对应的扩容位置处,并在其他扩容位置处填写0。经过以上处理后可以得到第三特征向量。

步骤S2322:基于第三特征向量确定第一特征向量。

在得到第三特征向量后,可以基于第三特征向量确定第一特征向量。在本公开的一些实施例中,可以将第三特征向量直接作为第一特征向量。

在实际应用中,本申请发明人经过试验测试确定直接采用样本退税申请数据序列构建第一特征向量,因为样本退税申请数据序列包含的有效信息较少,使得其体现的特征并不丰富,基于第二特征向量训练得到的骗取留抵退税识别模型的识别准确度并不高。而通过基于共现概率对第二特征向量中具有可能内在相关性的元素进行组合得到融合特征元素,并利用融合特征元素和第二特征向量组合形成第一特征向量,可以利用融合特征元素体现第二特征向量中元素的可能内在相关性,进而使得训练得到的骗取留抵退税识别模型的准确性提高。

在前述的实施例中,在基于共现概率确定融合特征元素时,是判断相邻元素的共现概率,并基于相邻元素的共现概率确定融合特征向量。在本公开的其他实施例中,还可以计算并不相邻元素的共现概率,例如计算间隔之间间隔一个元素的两个元素的共现概率,并基于共现概率和两个元素的出现概率的乘积确定对应的融合特征元素。

在前文实施例中提及,在一些实施例中可以将第三特征向量直接作为第一特征向量。在本公开的其他实施例中,还可以采用其他方法基于第三特征向量确定第一特征向量。

图5是本公开一些实施例提供的基于第三特征向量确定第一特征向量的方法流程图。如图5所示,基于第三特征向量确定第一特征向量的方法流程图包括步骤S310-S330。

步骤S310:计算第三特征向量中每个元素的词频-逆向文件频率。

计算第三特征向量中各个元素的词频-逆向文件频率,可以按照如下的步骤:(1)计算各个元素第三特征向量中出现的词频,此词频可以是归一化的词频,也可以不是归一化的词频,本公开实施例并不做特别地限定;(2)计算各个元素对应的逆向文件频率。如果某一元素的出现次数越少,则确定基于此元素对特征进行区分的能力越好,因此对应的逆向文件频率越高;(3)在得到词频和逆向文件频率后,将词频和逆向文件频率相乘可以得到各个元素的词频-逆向文件频率。

步骤S320:按照第三特征向量中各个元素的排序顺序,对对应的词频-逆向文件频率进行排序,得到第四特征向量。

步骤S330:基于第四特征向量确定第一特征向量。

本公开实施例中,基于第四特征向量确定第一特征向量,可以是直接将第四特征向量作为第一特征向量。

通过计算第三特征向量中么给元素的词频-逆向文件频率,利用词频-逆向文件频率表征各个元素在第三特征向量中的重要程度,构建第一特征向量,使得后续训练骗取留抵退税识别模型时更方便地挖掘重要的区分特征,进而提高骗取留抵退税识别模型的有效性。

前述实施例中,是基于第四特征向量确定第一特征向量,在本公开其他实施例中基于第三特征向量确定第一特征向量的方法还可以包括步骤S340-S350。

步骤S340:根据各个第三特征向量对应的实体标签确定第三特征向量中各个元素的信息值,并存储信息值。

本公开实施例中,信息值是表那个第三特征向量中各个元素与判定实体标签为正常纳税实体标签还是骗取留抵退税实体标签关联性的数值。信息值IV可以采用其中n为第三特征向量的维度,Pi+表征包含第i个元素并且对应的实体标签为正常纳税实体标签的第三特征向量的数量,Pi-表征包含第i个元素并且对应的实体标签为骗税标签的第三特征向量的数量。

本公开实施例中,存储信息值是为了在后续使用骗取留抵退税识别模型时使用,具体如何使用信息值请参见后文表述。

步骤S350:基于第三特征向量中各个元素对应的信息值构建第五特征向量。

在一些实施例中,基于第三特征向量中个元素对应的信息值构建第五特征向量,可以是直接将各个元素对应的信息值按照元素在第三特征向量的位置进行排序,确定第五特征向量。在另外一些实施例中,还可以将对应的信息值求取对数,以得到区分度指数,再将各个元素对应的区分度指数按照元素在第三特征向量中的位置进行排序。

在执行前述步骤S340-S350的情况下,前述的步骤S330基于第四特征向量确定第一特征向量具体可以包括步骤S331。

步骤S331:基于第四特征向量和第五特征向量确定第一特征向量。

在一些实施例中,基于第四特征向量和第五特征向量确定第一特征向量,可以是将第四特征向量和第五条特征向量中对应的元素相乘得到相乘元素,再利用相乘元素组合得到第一特征向量。在另外一些实施例中,基于第四特征向量和第五特征向量确定第一特征向量,可以是将第四特征向量和第五条特征向量中对应的元素相加得到相加元素,再利用相加元素组合得到第一特征向量。

采用本公开实施例提供的构建第一特征向量的方法,不仅利用词频-逆向文件频率表征各个元素在第三特征向量中的重要程度构建第一特征向量,还使用信息值表征各个元素在第三特征向量中对分类的重要程度构建第一特征向量,使得利用第一特征向量训练的骗税试题识别模型的准确性更高。

前述实施例中,利用第四特征向量和第五特征向量确定第一特征向量,在本公开的其他实施例中还可以直接将第五特征向量作为第一特征向量。

除了提供前述的骗取留抵退税识别模型构建方法外,本公开实施例还提供一种骗取留抵退税实体识别方法。

图6是本公开实施例提供的骗取留抵退税实体识别方法流程图。如图6所示,本公开实施例提供的骗税识别方法包括步骤S410-S430。

步骤S410:获取待识别纳税实体的退税申请数据序列,退税申请数据序列包括连续多个周期的增值税留抵税额。

待识别纳税实体是待判定其是否具有骗取留抵退税行为的实体。本公开实施例中,可以根据税务数据平台在设定时间内采集的待识别纳税实体在设定周期的增值税留抵税额,并对增值税留抵税额做标准化处理,构建退税申请数据序列。

步骤S420:基于退税申请数据序列确定对应的第六特征向量。

步骤S430:将第六特征向量输入到骗取留抵退税识别模型中,确定待识别纳税实体是否为骗取留抵退税实体。

在本公开的一些实施例中,可以直接将退税申请数据序列作为第六特征向量。在本公开的其他实施例中,也可以基于退税申请数据序列进行处理得到第六特征向量。

骗取留抵退税识别模型采用前述的骗取留抵退税识别模型构建方法构建的模型。

应当注意的是,如何基于退税申请数据序列确定第六特征向量应当与前述的骗取留抵退税识别模型构建方法中确定第一特征向量的步骤匹配,也就是说需要基于前述骗取留抵退税识别模型确定第一特征向量中的步骤确定第六特征向量。

采用本公开实施例提供的骗取留抵退税实体识别方法,在基于待识别纳税实体的退税申请数据序列构建第六特征向量后,将第六特征向量输入到骗取留抵退税识别模型中就可以确定待识别纳税实体是否为骗取留抵退税实体。因为骗取留抵退税识别模型能够基于样本数据充分地挖掘数据特征,辨别出违法特征并不显著的骗税行为,所以对识别骗取留抵退税实体的能力强于现有基于专家指标体系的方法。

图7是本公开一些实施例提供的骗取留抵退税实体识别方法流程图。如图7所示,在本公开的一些实施例中,骗税识别方法包括步骤S510-S540。

步骤S510:获取待识别纳税实体的退税申请数据序列,退税申请数据序列包括连续多个周期的增值税留抵税额。

步骤S520:根据预先设置的分箱规则确定退税申请数据序列中各个增值税留抵税额匹配的编码标识。

步骤S530:基于编码标识确定各个样本退税申请数据序列对应的第六特征向量。

步骤S540:将第六特征向量输入到骗取留抵退税识别模型中,确定待识别纳税实体是否为骗取留抵退税实体。

与前文实施例不同的是,本公开实施例中,并不是直接将退税申请数据序列作为第六特征向量,而是对退税申请数据序列进行处理后,基于处理后的数据确定第六特征向量。实际应用中,纳税实体提供的退税申请数据是各种可能的随机数据(应当注意的是,随机数据的具体随机程度可能根据货币体系采用的最小计量单位确定),使得样本退税申请数据中的数据种类过多,不便于后续步骤处理(具体为不便于后续步骤挖掘数据包含的特征),为此本公开实施例中预先设置了分箱规则,以根据分箱规则将样本退税申请序列中的各个增值税留底税额转换为匹配的编码标识。

具体的,分箱规则可以设置各个分箱对应的数据区段和编码标识。在获得一个增值税留抵税额后,判定此留抵税额被划分至那个分箱中,并采用此分箱的编码标识作为增值税留抵税额匹配的编码标识。

在本公开的一些实施例中,前述的分箱规则可以是离散化规则。在获得增值税留抵税额后,可以基于离散化规则确定增值税留抵税额对应的离散化数值,并采用对应的离散数值作为对应的编码标识。也就是说,采用离散化数值作为前述分箱规则中各个分箱的编码标识。

采用本公开实施例提供的先别识别模型的构建方法,通过采用分箱规则确定退税申请数据序列中各个增值税留抵税额对应的编码标识后,利用编码标识确定退税申请数据序列对应的第六特征向量,可以降低所有样本退税申请数据序列中的数据元素的类型数量,进而更容易地利用对应的骗取留抵退税识别模型确定待识别纳税实体是否为骗取留抵退税实体。

图8是本公开一些实施例基于编码标识确定第六特征向量的方法流程图。如图8所示,在本公开的一些实施例中,基于编码标识确定第六特征向量可以包括步骤S531-S532。

步骤S531:按照退税申请数据序列中的增值税留抵税额的排序顺序,对对应的编码标识进行排序,得到第七特征向量。

步骤S532:基于第七特征向量构建第六特征向量。

通过对大量纳税实体在较长时间提交的增税税留抵税额申请数据发现,增值税留抵税额的大小和企业的购产销具有一定的关联关系,即退税申请数据序列中各个增值税留抵税额的排序具有特定的排序特征。为了充分利用此特征,本公开实施例中按照退税申请数据序列中的增值税留抵税额的排序顺序对编码标识进行排序,进而得到第七特征向量。

在得到第七特征向量后,可以基于第七特征向量构建第六特征向量。在本公开的一些实施例中,可以直接将第七特征向量作为第六特征向量使用。

在另外一些实施例中,基于编码标识确定第七特征向量的方法除了可以包括前述的步骤S531-S532外,还可以包括步骤S533-S534。

步骤S533:判断第七特征向量中是否有临时序列。

临时序列是前述骗取留抵退税识别模型训练方法确定的序列。判断第七特征向量中是否有临时序列,是判定第七特征向量中是否有与临时序列中元素排序相同的子序列。如果第七特征向量中具有与临时序列中元素排序相同的子序列,则确定第七特征向量中有临时序列。

步骤S534:在第七特征向量中具有临时序列的情况下,获取临时序列对应的融合特征元素。

步骤S535:按照预设规则组合第七特征向量和融合特征元素,形成第八特征向量。

按照预设规则组合第七特征向量和对应的融合特征元素得到第八特征向量,是对第七特征向量按照基于步骤S534确定的融合特征元素的数量进行扩容,并确定各个融合特征向量对应的扩容位置,并将此第七特征向量对应的融合特征元素写入到对应的扩容位置处,并在其他扩容位置处填写0。经过以上处理后可以得到第八特征向量。

步骤S536:基于第八特征向量构建第六特征向量。

在得到第八特征向量后,可以基于第八特征向量确定第六特征向量。在本公开的一些实施例中,可以将第八特征向量直接作为第六特征向量。

通过判定第七特征向量中是否有临时序列,在第七特征向量中具有临时序列的情况下获取对应的融合特征元素,并利用融合特征元素和第七特征向量组合形成第六特征向量,可以利用融合特征元素体现第七特征向量中元素的可能内在相关性,进而使得训练得到的骗取留抵退税识别模型的准确性提高。

图9是本公开一些实施例提供的基于第八特征向量确定第六特征向量的方法流程图。如图9所示,基于第八特征向量确定第六特征向量的方法流程图包括步骤S610-S630。

步骤S610:确定第八特征向量中每个元素的词频-逆向文件频率。

确定第八特征向量中各个元素的词频-逆向文件频率,可以直接将骗取留抵退税识别模型中确定的各个元素的词频-逆向文件频率作为此处第八特征向量中各个元素的词频-逆向文件频率,也可以基于第八特征向量中各个元素与前述模型训练过程中元素的数量确定词频-逆向文件频率。

步骤S620:按照第八特征向量中各个元素的排序顺序,对对应的词频-逆向文件频率进行排序,得到第九特征向量。

步骤S630:基于第九特征向量确定第六特征向量。

本公开实施例中,基于第九特征向量确定第六特征向量,可以是直接将第九特征向量作为第六特征向量。

通过计算第八特征向量中么给元素的词频-逆向文件频率,利用词频-逆向文件频率表征各个元素在第八特征向量中的重要程度,构建第六特征向量,使得第六特征向量具有更显著的特征,进而便于后续利用骗谁识别模型确定待识别纳税实体的类型。

前述实施例中,是基于第四特征向量确定第一特征向量,在本公开其他实施例中基于第三特征向量确定第一特征向量的方法还可以包括步骤S640-S650。

步骤S640:根据各个第八特征向量对应的实体标签确定第八特征向量中各个元素的信息值。

本公开实施例中,可以将前述模型训练的信息值直接确定各个元素的信息值。

步骤S650:基于第八特征向量中各个元素对应的信息值构建第十特征向量。

在一些实施例中,基于第八特征向量中个元素对应的信息值构建第十特征向量,可以是直接将各个元素对应的信息值按照元素在第八特征向量的位置进行排序,确定第十特征向量。在另外一些实施例中,还可以将对应的信息值求取对数,以得到区分度指数,再将各个元素对应的区分度指数按照元素在第八特征向量中的位置进行排序。

在执行前述步骤S640-S650的情况下,前述的步骤S630基于第九特征向量确定第六特征向量具体可以包括步骤S631。

步骤S631:基于第九特征向量和第十特征向量确定第六特征向量。

在一些实施例中,基于第九特征向量和第十特征向量确定第六特征向量,可以是将第九特征向量和第十条特征向量中对应的元素相乘得到相乘元素,再利用相乘元素组合得到第六特征向量。在另外一些实施例中,基于第九特征向量和第十特征向量确定第六特征向量,可以是将第九特征向量和第十条特征向量中对应的元素相加得到相加元素,再利用相加元素组合得到第六特征向量。

采用本公开实施例提供的构建第六特征向量的方法,不仅利用词频-逆向文件频率表征各个元素在第八特征向量中的重要程度构建第六特征向量,还使用信息值表征各个元素在第八特征向量中对分类的重要程度构建第六特征向量,使得利用第六特征向量有更显著的特征,进而便于后续利用骗谁识别模型确定待识别纳税实体的类型。

前述实施例中,利用第九特征向量和第十特征向量确定第六特征向量,在本公开的其他实施例中还可以直接将第十特征向量作为第六特征向量。

本公开实施例还提供一种骗取留抵退税识别模型的构建装置。图10是本公开实施例提供的骗取留抵退税识别模型构建装置结构示意图。如图10所示,本公开实施例提供的骗取留抵退税识别模型构建装置1000包括样本数据获取单元1001、第一特征向量确定单元1002 和识别模型训练单元1003。

样本数据获取单元1001用于获取多个样本退税申请数据序列和对应的实体标签,每个样本退税申请数据均包括连续多个周期的增值税留抵税额,实体标签为正常纳税实体标签或者骗取留抵退税实体标签。

第一特征向量确定单元1002用于基于样本退税申请数据序列确定对应的第一特征向量。

识别模型训练单元1003用于基于多个第一特征向量和对应的实体标签对预先构建的骗取留抵退税识别模型进行训练,得到训练后的骗取留抵退税识别模型。

在本公开的一些实施例中,第一特征向量确定单元1002包括编码标识确定子单元和第一特征向量确定子单元。编码标识确定子单元用于根据预先设置的分箱规则确定各个增值税留抵税额匹配的编码标识;第一特征向量子单元用于基于编码标识确定各个样本退税申请数据序列对应的第一特征向量。

在本公开的一些实施例中,第一特征向量确定子单元包括第二特征向量确定模块和第一特征向量模型确定模块。第二特征向量确定模块用于按照样本退税申请数据序列中的增值税留抵税额的排序顺序,对对应的编码标识进行排序,得到第二特征向量。第一特征向量模型确定模块用于基于第二特征向量构建第一特征向量。

在本公开的一些实施例汇中,第一特征向量确定子单元包括出现概率确定模块、融合特征元素生成模块。出现概率确定模块用于计算各个编码标识的出现概率。融合特征元素生成模块用于在第二特征向量中的至少两个元素的共现概率大于对应的编码标识的出现概率的乘积的情况下,基于共现概率对应的元素生成融合特征元素。第一特征向量模型确定模块包括第三特征向量确定子模块和第一特征向量确定子模块。第三特征向量确定子模块用于按照预设规则组合第二特征向量和对应的融合特征元素得到第三特征向量。第一特征向量确定子模块用于基于第三特征向量确定第一特征向量。

在本公开的一些实施例中,融合特征元素生成模块按照如下的步骤生成融合特征元素:步骤A:基于第二特征向量中的第i-1个元素构建临时序列,i=1,2,……,m-1;步骤B:确定临时序列的出现概率;步骤C:判断临时序列与第i个元素的共现概率是否大于对应的出现概率的乘积;若是,执行步骤D;若否,步骤E;步骤D:将第i个元素添加至临时序列中,使i=i+1,并重新执行步骤B;步骤E:在临时序列中元素的数量多于一个的情况下,根据临时序列中的元素生成融合特征元素,以及存储临时序列。

在本公开的一些实施例中,在执行步骤D之前,,第一特征向量确定子模块还用于在临时序列中元素的数量多于一个的情况下,根据临时序列中的元素生成融合特征元素,以及存储临时序列。

在本公开的一些实施例中,第一特征向量确定子模块按照如下方法确定第一特征向量:计算第三特征向量中每个元素的词频-逆向文件频率;按照第三特征向量中各个元素的排序顺序,对对应的词频-逆向文件频率进行排序,得到第四特征向量;基于第四特征向量确定第一特征向量。

在本公开的一些实施例中,基于第三特征向量确定第一特征向量,还包括:根据各个第三特征向量对应的实体标签确定第三特征向量中各个元素的信息值,并存储信息值;基于第三特征向量中各个元素对应的信息值构建第五特征向量。基于基于第四特征向量确定第一特征向量,包括:基于第四特征向量和第五特征向量确定第一特征向量。

在本公开的一些实施例中,基于第四特征向量和第五特征向量确定第一特征向量,包括:采用第四特征向量中各个元素与第五特征向量中对应的元素相乘,得到特征元素;组合特征元素确定第一特征向量。

在本公开的一些实施例中,骗取留抵退税识别模型为支持向量机模型或者深度学习模型,支持向量机模型和深度学习模型均为二分类模型;识别模型训练单元1003基于多个第一特征向量和对应的实体标签对支持向量机模型或者深度学习模型进行训练。

本公开实施例还提供一种骗取留抵退税实体识别装置。图11是本公开实施例提供的骗取留抵退税实体识别装置结构示意图。如图11所示,本公开实施例中,骗取留抵退税实体识别装置1100包括待识别数据获取单元1101、第六特征向量确定单元1102和骗取留抵退税实体确定单元1103。

待识别数据获取单元1101用于获取待识别纳税实体的退税申请数据序列,退税申请数据序列包括连续多个周期的增值税留抵税额。第六特征向量确定单元1102用于基于退税申请数据序列确定对应的第六特征向量。骗取留抵退税实体确定单元1103将第六特征向量输入到骗取留抵退税识别模型中,确定待识别纳税实体是否为骗取留抵退税实体,骗取留抵退税识别模型采用如前的骗取留抵退税识别模型构建方法构建。

在本公开的一些实施例中,第六特征向量确定单元1102包括编码标识确定子单元和第六特征向量确定子单元。编码标识确定子单元用于根据预先设置的分箱规则确定退税申请数据序列中各个增值税留抵税额匹配的编码标识。第六特征向量确定子单元用于基于编码标识确定各个样本退税申请数据序列对应的第六特征向量。

在本公开的一些实施例中,第六特征向量确定子单元包括第七特征向量确定模块和第六特征向量确定模块。第七特征向量确定模块按照退税申请数据序列中的增值税留抵税额的排序顺序,对对应的编码标识进行排序,得到第七特征向量。第六特征向量确定模块用于基于第七特征向量构建第六特征向量。

在本公开的一些实施例中,第六特征向量确定单元1102还包括临时序列确定子单元和融合特征元素确定子单元。临时序列确定子单元用于判断第七特征向量中是否有临时序列,临时序列为在训练骗取留抵退税识别模型时存储的序列。融合特征元素确定子单元用于在第七特征向量中具有临时序列的情况下,获取临时序列对应的融合特征元素。第六特征向量确定模块用于按照预设规则组合第七特征向量和融合特征元素,形成第八特征向量;以及基于第八特征向量构建第六特征向量。

在本公开的一些实施例中,第六特征向量确定模块计算第八特征向量中每个元素的词频-逆向文件频率;按照第八特征向量中各个元素的排序顺序,对对应的词频-逆向文件频率进行排序,得到第九特征向量;基于第九特征向量确定第六特征向量

在本公开的一些实施例中,第六特征向量确定模块还用于:获取第八特征向量中各个元素对应的信息值;基于第八特征量中各个元素对应的信息值构建第十特征向量。对应的,基于第九特征向量确定第六特征向量,包括:基于第九特征向量和第十特征向量确定第六特征向量。

在本公开的一些实施例中,基于第九特征向量和第十特征向量确定第六特征向量,包括:采用第九特征向量中各个元素与第十特征向量中对应的元素相乘,得到特征元素;组合特征元素确定第六特征向量。

本公开示例性实施例还提供一种计算设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述计算设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

图12是本公开实施例提供的计算设备的结构示意图。如图12所示,计算设备1200包括计算单元1201,其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序,来执行各种适当的动作和处理。在RAM 1203中,还可存储设备1200操作所需的各种程序和数据。计算单元1201、 ROM1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

计算设备1200中的多个部件连接至I/O接口1205,包括:输入单元1206、输出单元1207、存储单元1208以及通信单元1209。输入单元1206可以是能向计算设备1200输入信息的任何类型的设备,输入单元1206可以接收输入的数字或字符信息,以及产生与计算设备的用户设置和/或功能控制有关的键信号输入。输出单元1207可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1204可以包括但不限于磁盘、光盘。通信单元1209允许计算设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、 WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元 1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理。例如,在一些实施例中,动作识别模型的训练方法或者暗光视频的动作识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到计算设备1200上。在一些实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行动作识别模型的训练方法或者暗光视频的动作识别方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本文发布于:2024-09-25 08:26:12,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/86222.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议