一种基于多视图深度度量学习的混合属性数据转换方法



1.本发明涉及混合属性数据转换的人工智能技术领域,尤其涉及一种基于多视图深度度量学习的混合属性数据转换方法。


背景技术:



2.随着信息技术的迅猛发展,在医药卫生、社交媒体等行业的大数据系统或云服务系统中存在着大量的包含数值属性和分类属性的结构化数据的混合属性数据。此外,数据挖掘领域中很多公开实验数据集也是混合属性数据。比如,在著名的美国加州大学irvine分校(uci)数据库中混合属性数据集约占1/3,kaggle数据库中的混合属性数据集也广泛存在。混合属性数据中的分类属性不同于数值属性,其不能直接进行代数运算(如数学上的四则运算),致使很多基于数值输入的机器学习算法(如神经网络、聚类、逻辑回归等)不能分析/挖掘这些数据。因此,将混合属性数据转换为单一的数值属性数据,即将混合属性数据中的分类属性转换为数值属性数据后,再与混合属性数据中原有的数值属性数据拼接,是解决上述问题的常用技巧。
3.目前,国内外已有多种转换混合属性数据的方法,然而,当面对具有复杂耦合关系的混合属性数据时,这些方法却难以将这些分类属性数据转换为高质量的数值数据,因此,急需人们探究一种高性能的混合属性数据转换方法,以提高后续阶段(即数据挖掘或机器学习阶段)的性能和可靠性。
4.混合属性数据转换为单一的数值属性数据的核心是如何将混合属性数据中分类属性数据转换为高质量的数值数据。最近新兴起的分类表示学习是将分类数据转换/嵌入/表示为高质量数值数据的热门技术之一。该技术通过揭露分类属性数据中分类值、属性和样本三者之间多种复杂耦合关系,并融合这些异构耦合关系后将分类值表示为一个数值向量。人工智能领域普遍认为:一个好的表示学习方法是能够从分类属性数据的多种复杂耦合关系中挖掘数据的本质特征。在现有的表示学习方法中,本技术发明人发现大多数方法只挖掘了某一种耦合关系,例如:基于onehot编码的算法只考虑了属性内分类值之间的耦合关系(如专利cn109740680a、us20190164083a1等),基于条件概率的差异差度量及变体只考虑了分类属性与分类属性之间的耦合关系(如专利cn110502552a等)。由于这些方法只考虑了一种耦合关系,因此它们可能会导致不能全面挖掘分类数据的本质特征。近年来新提出的一些表示学习方法能从多种耦合关系中提取数据特征,但在数据融合过程中大多数是采用基于核方法的浅层学习模型(如专利cn114139629a),由于核方法和浅层结构的特点,这些表示方法可能存在时间/空间复杂度较高、空间结构不易扩展、最优核函数不易确定等问题。
5.本技术发明人通过广泛的文献综合总结和实证探究发现,基于深度度量学习的表示方法在表示图像、文本、网络等方面表现出杰出的潜力,并且可以缓解上述这些问题。然而,现有的深度度量学习表示方法在数据转换过程忽略了数据之间的耦合关系和特征(如值语义、距离/相似性、属性交互、分布特征等),无法全面挖掘分类属性数据的本质特征,无
法将分类属性数据转换为高质量的数值数据。


技术实现要素:



6.本发明旨在至少解决现有技术中无法全面挖掘分类属性数据的本质特征,无法将分类属性数据转换为高质量的数值数据的技术问题,提供一种基于多视图深度度量学习的混合属性数据转换方法。
7.为了实现本发明的上述目的,本发明提供了一种基于多视图深度度量学习的混合属性数据转换方法,包括:获取包括至少一个待转换样本的待转换样本集,待转换样本包括数值属性数据和分类属性数据;将待转换样本集输入预先训练好的多视图深度度量学习模型获得待转换样本集的转换结果,所述多视图深度度量学习模型包括:多视图信息提取模块,基于待转换样本集的分类属性数据提取待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图;深度度量模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图分别映射为相应的数值向量;融合模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图映射的数值向量与待转换样本集的数值属性数据融合,将融合结果作为待转换样本集的转换结果。
8.上述技术方案:本发明通过属性内耦合视图、属性间耦合视图和属性对类耦合视图对分类属性数据之间的复杂耦合关系进行捕获,全面挖掘分类属性数据的本质特征,借助基于深层神经网络的深度学习子模型的强大学习能力,将分类属性数据转换为高质量的数值数据并与待转换样本集中的数值属性数据融合获得转换结果,便于后继数据挖掘和机器学习分类的处理,此外,本发明提供的混合属性的数据转换方法还具有以下有益技术效果:
9.可靠性:能保持数据转换前后的数据分布一致,可将混合属性数据上的分类属性数据无损地表示为高质量的数值向量,保证人工智能任务的可靠性;
10.高性能:转换后的数值数据作用于下一阶段的分类模型时,能取得高性能的分类指标(如准确率、召回率、f得分等);
11.高效性:转换后的数值向量具有低维度的特点,因此需要较少的运行时间;
12.便捷性:需要预设的参数提供了有效的参考范围,为用户设置参数提供指导,有利于实际的应用场景;
13.普适性:一种基于数据驱动的转换/表示/嵌入方法,可自适应于不同领域的混合属性数据集。
附图说明
14.图1是本发明实施例1中多视图深度度量学习模型的结构示意图;
15.图2是本发明实施例1一种应用场景中多视图深度度量学习模型的迭代学习流程示意图;
16.图3是本发明实施例1另一种应用场景中具体实施流程示意图;
17.图4是本发明实施例2中分类系统的结构示意图。
具体实施方式
18.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
19.在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
20.在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
21.实施例1
22.本实施例公开了一种基于多视图深度度量学习的混合属性数据转换方法,包括:获取包括至少一个待转换样本的待转换样本集,待转换样本包括数值属性数据和分类属性数据;将待转换样本集输入预先训练好的多视图深度度量学习模型获得待转换样本集的转换结果。待转换样本集中可以仅包括一个待转换样本也可包括多个待转换样本,当包括多个待转换样本时本发明进行批量处理,批量转换待转换样本集中的分类属性数据。
23.在本实施例中,数值属性数据具有数值属性,即连续属性,是可度量的量,用整数或者实数等数值表示,比如图3所示的年龄、肿瘤大小、受侵淋巴结数量等,又如公开号为cn108369674a的中国专利公开的家庭大小、年龄和收入水平等是数值属性数据示例。分类属性数据具有分类属性,即离散属性,比如学生成绩的属性优、良、差;又如图3所示的绝经年龄段、有无结节帽、肿瘤恶性程度、肿块位置等,又如公开号为cn108369674a的中国专利公开的教育、种族和性别等均属于分类属性数据示例。
24.在本实施例中,多视图深度度量学习模型的结构示意图如图1所示,包括:
25.多视图信息提取模块,基于待转换样本集的分类属性数据提取待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图。如图1所示,多视图信息提取模块包括属性内耦合视图生成单元、属性间耦合视图生成单元和属性对类耦合视图生成单元,通过耦合学习对混合属性的待转换样本集数据上的分类数据从属性内、属性间、属性对类三个角度分别获取它们的三个视图信息,为分类表示提供信息来源和做准备,从不同角度多视图来尽可能全面的对分类属性数据进行本质特征表达。
26.深度度量模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图分别映射为相应的数值向量。深度度量模块包括三个深度学习子模型,三个深度学习子模型分别用于将属性内耦合视图、属性间耦合视图和属性对类耦合视图映射为各自对应的数值向量,一个视图对应一个深度学习子模型。三个深度学习子模型均采用深层神经网络,深层神经网络优选但不限于为全连接神经网络或卷积神经网络,利用其强大学习能力进行视图到数值向量的准确映射。
27.多视图深度度量学习模型还包括融合模块(图1中未图示),用于将待转换样本集
的属性内耦合视图、属性间耦合视图和属性对类耦合视图映射的数值向量与待转换样本集的数值属性数据融合,将融合结果作为待转换样本集的转换结果。融合方式优选但不限于采用拼接的方式。
28.在本实施例中,为便于后续数据转换和提高转换质量,优选地,在获取待转换样本集之后,还包括对待转换样本集进行预处理的步骤,预处理优选但不限于包括数据清洗、数据集成、数据变换和数据规约等。预处理将杂乱的原始数据预处理为结构化数据,可通过python中的软件包进行操作,在此不再赘述。优选地,将预处理后的待转换样本集数据存储在数据库中,以便后续转换程序调用。
29.在本实施例中,优选地,多视图信息提取模块通过待转换样本集分类属性数据中分类属性的分类值的后验频率和onehot编码共同提取属性内耦合视图,分类属性的分类值的后验频率可事先获取,如在多视图深度度量学习模型训练学期期间通过训练样本集计算获得。多视图信息提取模块通过待转换样本集分类属性数据中不同分类属性之间的条件交互信息提取属性间耦合视图;多视图信息提取模块通过待转换样本集分类属性数据中属性与类标签的相互作用提取属性对类耦合视图。当本发明转换后的数值数据输入分类模型分类时,分类模型输出类标签。多视图信息提取模块为混合属性数据中的分类属性数据提取不同视图的耦合信息。
30.在本实施例中,优选地,待转换样本集的属性内耦合视图表示为:
31.其中,n
(o)
表示待转换样本集中待转换样本的数量;n
(a)
表示待转换样本集的分类属性维数,j表示分类属性索引,j∈[1,n
(a)
],表示第j维分类属性下包含的分类值数量;表示第j维分类属性的属性内耦合扩展矩阵表示待转换样本集中第j维分类属性的分类值集合,表示第j维分类属性的属性内耦合扩展向量集合;设i

表示第j维分类属性下分类值的索引,则第j维分类属性下第i

个分类值x
j,i

的属性内耦合扩展向量为:p
post
(x
j,i

)表示第j维分类属性下第i

个分类值x
j,i

的后验频率,p
post
(x
j,i

)可预先获取。
[0032]
在本实施例中,优选地,待转换样本集的属性间耦合视图表示为:
[0033][0034]
其中,n
(o)
表示待转换样本集中待转换样本的数量;n
(a)
表示待转换样本集的分类属性维数,j表示分类属性索引,j∈[1,n
(a)
],表示表示第k维分类属性下包含的分类值数量,k∈[1,n
(a)
],j≠k,表示第j维分类属性之外的所有分类属性包含的分类值总数量;表示第j维分类属性的属性间耦合扩展矩阵:表示第j维分类属性的属性间耦合扩展矩阵:表示待转换样本集中第j维分类属性的分类值集合,表示第j维分类属性的属性间耦合扩展向量集合;设i

表示第j维分类属性下分类值的索引,则第j维分类属性下第i

个分类值x
j,i

的属性间耦合扩展向量为:
ak
表示第k维属性下
的分类值集合,p(x
j,i

|x
k,i

)表示x
j,i

在第k维属性的第i

个分类值为x
k,i

的条件下的条件概率,p(x
j,i

|x
k,i

)可预先设置和获取。
[0035]
在本实施例中,优选地,待转换样本集的属性对类耦合视图表示为:
[0036][0037]
其中,n
(o)
表示待转换样本集中待转换样本的数量;n
(a)
表示待转换样本集的分类属性维数,j表示分类属性索引,j∈[1,n
(a)
],n
(c)
表示分类标签数量;表示第j维分类属性的属性对类耦合扩展矩阵:表示待转换样本集中第j维分类属性的分类值集合,表示第j维分类属性的属性对类耦合扩展向量集合,设i

表示第j维分类属性下分类值的索引,则第j维分类属性下第i

个分类值x
j,i

的属性对类耦合扩展向量为:i
″′
∈[1,n
(c)
],p(ci″′
|x
j,i

)表示第i
″′
个类标签ci″′
在x
j,i

条件下的条件概率,p(ci″′
|x
j,i

)可预先设置和获取。
[0038]
在本实施例中,优选地,多视图深度度量学习模型的建立过程包括:
[0039]
步骤s1,获取混合属性的训练样本集,训练样本包括数值属性数据和分类属性数据;优选地,还为每个训练样本标记分类标签,如图3所示,分类标签可以是复发和不复发,还可以是其他领域的分类标签,如公开号为cn108369674a的中国专利中公开的客户细分类别名称。
[0040]
步骤s2,包括:
[0041]
步骤s21,构建多视图深度度量学习模型的多视图信息提取模块和深度度量模块。多视图信息提取模块基于训练样本集的分类属性数据获取训练样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图,上述视图提取过程与提取待转换样本集的三个视图类似,具体的:
[0042]
属性内耦合视图v
ia
是通过属性内分类值的后验频率和onehot编码共同提取这种耦合信息,将第j维分类属性的第i

个分类值x
j,i

表示为一个维的向量:其中,后验频率n
(o)

表示训练样本集中训练样本数量,x
ij
表示训练样本集中第i个训练样本的第j维分类属性分类值,i∈[1,n
(o)

],表示统计训练样本集中第j维分类属性分类值等于x
j,i

的训练样本数量;向量f
ia
(x
j,i

)中的第2到维是onehot编码。为此,第j维属性扩展为矩阵对于具有n
(a)
个分类属性的训练样本集,它的属性内耦合视图为:
[0043]
属性间耦合视图v
ie
是通过不同属性的分类值之间的条件交互信息
[0044]
来提取这种耦合信息,将分类值x
j,i

表示为一个维的向量:f
ie
(x
j,i

)=[

,p(x
j,i

|ak),

],k≠j,其中,p(x
j,i

|ak)=[

,p(x
j,i

|x
k,i

),

]为由第k维属性值x
k,*
∈ak对x
j,i

的条件概率组成。为此,第j维属性扩展为矩阵对于具有n
(a)
个分类属性的训练样本集,它的属性间耦合视图为:
[0045]
属性对类耦合视图v
ac
是通过属性与类标签之间的交互作用来提取这种耦合信息,将分类值x
j,i

表示为一个n
(c)
维的向量:i
″′
∈[1,n
(c)
],p(ci″′
|x
j,i

)表示第i
″′
个类标签ci″′
在x
j,i

条件下的条件概率。为此,第j维属性扩展为矩阵对于具有n
(a)
个分类属性的训练样本集,它的属性对类耦合视图为:
[0046]
深度度量模块包括三个深度学习子模型,三个深度学习子模型分别用于将属性内耦合视图、属性间耦合视图和属性对类耦合视图映射为各自对应的数值向量。
[0047]
为每一个耦合视图搭建一个深层神经网络作为深度学习子模型。记是一个视图数据(即x
(v)
∈{v
ia
,v
ie
,v
ac
}),其中是视图x
(v)
下具有d维的第i个样本,i∈[1,n
(o)

]。假设这个深层神经网络有l+1层(其中第0层、第1到l-1层、第l层分别为输入层、隐藏层、输出层),含有p
(l)
个神经元的第l层的输出为h
(l)
(其中l=1,2,...,l。对于给定的输入样本x∈rd,类似于传统的神经网络,前一层的输出是后一层的输入,则第l层的输入为h
(l-1)
(记第1层的输入h
(0)
为x),该层的输出为其中分别是连接第l-1到第l层的权重和置偏,s(.)是非线性激活函数。如此,x传输到网络最顶层时的输出(即数值向量)为:
[0048]
p
(l)
表示输出层的神经元个数。
[0049]
步骤s22,构建度量学习模块,度量学习模块用于为深度学习子模型设置损失函数并优化深度学习子模型的网络参数。
[0050]
为每一个视图设计一个损失函数,学习深层神经网络中的参数使得同类样本之间的距离小于异类样本之间的距离,且让它们的间隔最大化。
[0051]
设f1、f2、f3分别表示属性内耦合视图、属性间耦合视图、属性对类耦合视图对应的深度学习子模型的映射函数,设第v个深度学习子模型的映射函数为fv,v=1,2,3,设第v个深度学习子模型有l+1层,l=1,2,...,l,深度学习子模型fv的网络参数为表示连接第l-1层到第l层的权重参数,表示第l层的偏置参数;第v个深度学习子模型的损失函数为:
[0052][0053]
其中,n
(o)

表示训练样本集中训练样本数量,i表示训练样本索引,i∈[1,n
(o)

],第
i个训练样本表示为表示第i个训练样本的分类属性数据,表示第i个训练样本的数值属性数据;n
(p)
表示代理点数量,j

表示代理点索引,j

∈[1,n
(p)
],第j

个代理点表示为点表示为表示第j

个代理点的分类属性数据,表示第j

个代理点的数值属性数据;定义函数β=1,当β=1时为softplus激活函数;表示第一参数,当xi与pj′
同类时,即xi与pj′
的分类标签相同,当xi与pj′
不同类时,即xi与pj′
的分类标签不相同,τ表示在映射函数fv生成的空间中每对正、负样本之间距离的间隔;表示xi与pj′
的分类属性数据之间的距离;表示xi与pj′
的数值属性数据之间的距离;λ1表示第一正则化参数;表示连接第l-1到l层神经元权重的f范数平方;表示第l层神经元偏置的2范数平方。
[0054]
步骤s23,构建多视图融合学习模块,多视图融合学习模块用于建立目标损失函数,基于hisc依赖准则对三个深度学习子模型进行多视图学习并优化深度学习子模型的网络参数。使用基于hsic(hilbert-schmidt independence criterion,希尔伯特
·
施密特独立性准则)的依赖准则对三个深度度量学习子模型进行多视图学习。
[0055]
步骤s3,利用训练样本数据集联合度量学习模块和多视图融合学习模块对多视图深度度量学习模型进行迭代学习直到达到迭代停止条件。优选地,步骤s3包括:
[0056]
步骤s31,将训练样本集输入多视图信息提取模块获得训练样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图。
[0057]
步骤s32,将训练样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图分别输入对应的深度学习子模型映射成对应的数值向量。
[0058]
步骤s33,度量学习模块计算每个深度学习子模型的损失函数并优化深度学习子模型的网络参数;第v个深度学习子模型的损失函数为:
[0059][0060]
步骤s34,多视图融合学习模块计算目标损失函数;按照如下公式计算目标损失函数:
[0061]
其中,αv表示第v个视图的非负权重参数,多视图权重向量α=[α1,α2,α3],||α||2表示向量α的模的平方;jv表示第v个视图的损失函数;λ2表示衡量视图间信息一致性的权衡因子;λ3表示第二正则化参数;k

=1,2,3,v≠k

;x
(v)
表示属性内耦合视图或属性间耦合视图或属性对类耦合视图;x
(k

)
表示属性内耦合视图或属性间耦合视图或属性对类耦合视图,x
(v)
≠x
(k

)
;1表示元素都是1的向量;hisc(,)表示希尔伯特.施密特独立性准则函数,hisc(x
(k

)
,x
(v)
)=(n
o-1)-2
tr(kk′
hkvh),其中,no是训练样本集中的样本个数,kk′
,kv均是gram矩阵,kk′
=fk′
(x
(k

)
)
tfk

(x
(k

)
),fk′
(x
(k

)
)表示视图x
(k

)
对应的深度学习子模型输出的数值向量,kv
=fv(x
(v)
)
tfv
(x
(v)
),fv(x
(v)
)表示视图x
(v)
对应的深度学习子模型输出的数值向量,矩阵h中元素tr(.)是矩阵的迹。
[0062]
步骤s35,更新多视图权重向量和深度学习子模型的网络参数。
[0063]
步骤s36,判断是否满足迭代停止条件,若满足迭代停止条件,迭代学习结束,若不满足迭代停止条件返回执行步骤s32到步骤s36。
[0064]
更新多视图权重向量和深度学习子模型的网络参数的过程为:
[0065]
按照如下公式更新多视图权重向量中的元素αv:
[0066][0067]
按照如下公式更新第v个深度学习子模型的网络参数:
[0068][0069][0070][0071][0072][0073]
其中,η表示学习率;no表示训练集中样本个数,no=n
(o)



表示向量的点积运算,z
(l,v)
表示在第v个视图对应的深度学习子模型中第l层神经元的输出,s

(
·
)表示激活函数的导数,表示在第v个视图对应的深度学习子模型中第l层神经元中来自第i个样本的权重更新量,i∈[1,no],λ1表示第一正则化参数,表示由第v个视图对应的深度学习子模型中第l-1层神经元的输出所构成的矩阵。
[0074]
在步骤s36中,迭代停止条件优选但不限于为目标损失函数的函数值稳定或者迭代学习次数达到预设次数阈值。目标损失函数值是否达到稳定状态,如果目标损失函数值处于下降状态,梯度下降优化是有效的,返回执行步骤s32到步骤s36,继续优化模型参数;否则,终止迭代学习过程,退出程序,输出模型;此外,为防止优化过程进入死循环,优化次数限制在预设的次数以内。
[0075]
在本实施例的一种应用场景中,多视图深度度量学习模型的迭代学习流程示意图如图2所示,包括:
[0076]
步骤201,多视图信息提取步骤,为混合属性数据中的分类数据提取不同视图的耦合信息,主要包括属性内、属性间、属性对类三个耦合视图。
[0077]
步骤202,深度学习步骤,为每一个耦合视图搭建一个深层神经网络。
[0078]
步骤203,度量学习步骤,包括为每一个视图设计一个损失函数,学习深层神经网络中的参数,使得同类样本之间的距离小于异类样本之间的距离,且让它们的间隔最大化。
[0079]
步骤204,多视图学习步骤,使用基于hsic(hilbert-schmidt independence criterion)的依赖准则对三个深度学习子模型进行多视图学习。
[0080]
步骤205,条件判断步骤,网络参数和多视图权重向量α更新后目标损失函数值是否达到稳定状态,如果目标损失函数值处于下降状态,梯度下降优化是有效的,转到深度学习202,继续优化模型参数;否则终止学习过程,退出程序;此外,为防止优化过程进入死循环,优化次数限制在预设的次数以内。
[0081]
在本实施例的另一种应用场景中,进行了具体的数据转换,其具体实施流程示意图如图3所示。
[0082]
采用多视图深度度量学习模型可以将混合属性数据集中的分类数据转换为数值数据,下面以乳腺癌预测数据集为例说明。该乳腺癌预测数据集来源于贵州省某三甲医院的乳腺科,在2018年共收集了286条数据记录,每条记录由3个数值属性和5个分类属性构成的混合属性数据。该混合属性数据集如302中的样例所示。
[0083]
操作步骤如下:
[0084]
step1:数据准备模块经过数据采集、数据预处理及数据存储等一系列操作后,得到处理后的混合属性数据集301;
[0085]
step2:在混合属性数据集301中将3个数值属性和5个分类属性分离,接下来对分类属性进行表示学习;
[0086]
step3:通过多视图深度度量学习模型302转换/嵌入/表示分类属性,例如:在“肿瘤恶性程度”属性中,分类值“3级”表示为数值向量[0.47,0.52,...],分类值“2级”表示为数值向量[0.52,0.81,...]等;
[0087]
step4:在step3中表示的数值向量与混合属性数据中原有的数值数据进行拼接,实现混合属性数据转换为单一数值属性数据的目的,并将转换后的数值数据保存到数据库303中。
[0088]
实施例2
[0089]
本实施例提供了一种混合属性数据分类系统,该系统结构如图4所示,包括依次连接的数据准备模块101、多视图深度度量学习模型模块102和分类模型103。数据准备模块101用于采集混合属性数据、数据预处理,以及将数据中的数值属性数据和分类属性数据分离。通过多视图深度度量学习模型模块102将混合属性数据转换为单一的数值数据。分类模型103接收上一个阶段的数值数据,并将这些数据输送给到一个分类模型(分类模型是基于数值输入的分类器,如支持向量机、神经网络等;或者是基于距离度量的分类器,如k近邻等)中,然后进行分类预测、评估和决策。
[0090]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0091]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

技术特征:


1.一种基于多视图深度度量学习的混合属性数据转换方法,其特征在于,包括:获取包括至少一个待转换样本的待转换样本集,待转换样本包括数值属性数据和分类属性数据;将待转换样本集输入预先训练好的多视图深度度量学习模型获得待转换样本集的转换结果,所述多视图深度度量学习模型包括:多视图信息提取模块,基于待转换样本集的分类属性数据提取待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图;深度度量模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图分别映射为相应的数值向量;融合模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图映射的数值向量与待转换样本集的数值属性数据融合,将融合结果作为待转换样本集的转换结果。2.如权利要求1所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,获取待转换样本集之后,还包括对待转换样本集进行预处理的步骤。3.如权利要求1所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,所述多视图信息提取模块通过待转换样本集分类属性数据中分类属性的分类值的后验频率和onehot编码共同提取属性内耦合视图;所述多视图信息提取模块通过待转换样本集分类属性数据中不同分类属性之间的条件交互信息提取属性间耦合视图;所述多视图信息提取模块通过待转换样本集分类属性数据中属性与类标签的相互作用提取属性对类耦合视图。4.如权利要求1或2或3所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,待转换样本集的属性内耦合视图表示为:其中,n
(o)
表示待转换样本集中待转换样本的数量;n(a)表示待转换样本集的分类属性维数,j表示分类属性索引,j∈[1,n
(a)
],表示第j维分类属性下包含的分类值数量;表示第j维分类属性的属性内耦合扩展矩阵表示第j维分类属性的属性内耦合扩展矩阵表示待转换样本集中第j维分类属性的分类值集合,f
ia
(x
j,*
)表示第j维分类属性的属性内耦合扩展向量集合;设i

表示第j维分类属性下分类值的索引,则第j维分类属性下第i

个分类值x
j,i

的属性内耦合扩展向量为:p
post
(x
j,i

)表示第j维分类属性下第i

个分类值x
j,i

的后验频率。5.如权利要求1或2或3所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,待转换样本集的属性间耦合视图表示为:其中,n
(o)
表示待转换样本集中待转换样本的数量;n
(a)
表示待转换样本集的分类属性
维数,j表示分类属性索引,j∈[1,n
(a)
],表示表示第k维分类属性下包含的分类值数量,k∈[1,n
(a)
],j≠k,表示第j维分类属性之外的所有分类属性包含的分类值总数量;表示第j维分类属性的属性间耦合扩展矩阵:表示第j维分类属性的属性间耦合扩展矩阵:表示待转换样本集中第j维分类属性的分类值集合,f
ie
(x
j,*
)表示第j维分类属性的属性间耦合扩展向量集合;设i

表示第j维分类属性下分类值的索引,则第j维分类属性下第i

个分类值x
j,i

的属性间耦合扩展向量为:a
k
表示第k维属性下的分类值集合,x
k,i

∈a
k
,p(x
j,i

|x
k,i

)表示x
j,i

在第k维属性的第i

个分类值为x
k,i

的条件下的条件概率。6.如权利要求1或2或3所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,待转换样本集的属性对类耦合视图表示为:其中,n
(o)
表示待转换样本集中待转换样本的数量;n
(a)
表示待转换样本集的分类属性维数,j表示分类属性索引,j∈[1,n
(a)
],n
(c)
表示分类标签数量;表示第j维分类属性的属性对类耦合扩展矩阵:属性对类耦合扩展矩阵:表示待转换样本集中第j维分类属性的分类值集合,f
ac
(x
j,*
)表示第j维分类属性的属性对类耦合扩展向量集合,设i

表示第j维分类属性下分类值的索引,则第j维分类属性下第i

个分类值x
j,i

的属性对类耦合扩展向量为:p(c
i

|x
j,i

)表示第i
″′
个类标签c
i
″′
在x
j,i

条件下的条件概率。7.如权利要求1或2或3所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,所述多视图深度度量学习模型的建立过程包括:步骤s1,获取混合属性的训练样本集,训练样本包括数值属性数据和分类属性数据;步骤s2,构建多视图深度度量学习模型的多视图信息提取模块和深度度量模块,多视图信息提取模块基于训练样本集的分类属性数据获取训练样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图,所述深度度量模块包括三个深度学习子模型,三个深度学习子模型分别用于将属性内耦合视图、属性间耦合视图和属性对类耦合视图映射为各自对应的数值向量;构建度量学习模块,用于为深度学习子模型设置损失函数并优化深度学习子模型的网络参数;构建多视图融合学习模块,用于建立目标损失函数,基于hisc依赖准则对三个深度学习子模型进行多视图学习并优化深度学习子模型的网络参数;步骤s3,利用训练样本数据集联合度量学习模块和多视图融合学习模块对多视图深度度量学习模型进行迭代学习直到达到迭代停止条件。8.如权利要求7所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,所述步骤s3包括:步骤s31,将训练样本集输入多视图信息提取模块获得训练样本集的属性内耦合视图、
属性间耦合视图和属性对类耦合视图;步骤s32,将训练样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图分别输入对应的深度学习子模型映射成对应的数值向量;步骤s33,度量学习模块计算每个深度学习子模型的损失函数并优化深度学习子模型的网络参数;步骤s34,多视图融合学习模块计算目标损失函数;步骤s35,更新多视图权重向量和深度学习子模型的网络参数;步骤s36,判断是否满足迭代停止条件,若满足迭代停止条件,迭代学习结束,若不满足迭代停止条件返回执行步骤s32到步骤s36。9.如权利要求8所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,在步骤s33中,设f1、f2、f3分别表示属性内耦合视图、属性间耦合视图、属性对类耦合视图对应的深度学习子模型的映射函数,设第v个深度学习子模型的映射函数为f
v
,v=1,2,3,设第v个深度学习子模型有l+1层,l=1,2,...,l,深度学习子模型f
v
的网络参数为的网络参数为表示连接第l-1层到第l层的权重参数,表示第l层的偏置参数;第v个深度学习子模型的损失函数为:其中,n
(o)

表示训练样本集中训练样本数量,i表示训练样本索引,i∈[1,n
(o)

],第i个训练样本表示为训练样本表示为表示第i个训练样本的分类属性数据,表示第i个训练样本的数值属性数据;n
(p)
表示代理点数量,j

表示代理点索引,j

∈[1,n
(p)
],第j

个代理点表示为示为表示第j

个代理点的分类属性数据,表示第j

个代理点的数值属性数据;定义函数性数据;定义函数表示第一参数,当x
i
与p
j

同类时,当x
i
与p
j

不同类时,τ表示在映射函数f
v
下每对正、负样本之间距离的间隔;表示x
i
与p
j

的分类属性数据之间的距离,表示x
i
与p
j

的数值属性数据之间的距离;λ1表示第一正则化参数,表示连接第l-1到l层神经元权重的f范数平方,表示第l层神经元偏置的2范数平方。和/或,在步骤s34中,按照如下公式计算目标函数:s.t.1
t
α=1,α
v
≥0,λ2≥0其中,α
v
表示第v个视图的非负权重参数,多视图权重向量α=[α1,α2,α3],||α||2表示向量α的模的平方;j
v
表示第v个视图的损失函数;λ2表示衡量视图间信息一致性的权衡因子;λ3表示第二正则化参数;k

=1,2,3,v≠k

;x
(v)
表示属性内耦合视图或属性间耦合视图或属性对类耦合视图;x
(k

)
表示属性内耦合视图或属性间耦合视图或属性对类耦合视图,x
(v)
≠x
(k

)
;1表示元素都是1的向量;hisc(,)表示希尔伯特.施密特独立性准则函数。10.如权利要求9所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在
于,在步骤s36中,更新多视图权重向量和深度学习子模型的网络参数的过程为:按照如下公式更新多视图权重向量中的元素α
v
:按照如下公式更新第v个深度学习子模型的网络参数:按照如下公式更新第v个深度学习子模型的网络参数:其中,η表示学习率。

技术总结


本发明提供了一种基于多视图深度度量学习的混合属性数据转换方法,包括:获取包括至少一个待转换样本的待转换样本集,将待转换样本集输入预先训练好的多视图深度度量学习模型获得待转换样本集的转换结果,多视图深度度量学习模型包括:多视图信息提取模块,提取待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图;深度度量模块,将属性内耦合视图、属性间耦合视图和属性对类耦合视图映射为相应的数值向量;融合模块,将多个视图的数值向量与待转换样本集的数值属性数据融合。能全面挖掘分类属性数据的本质特征,保持数据转换前后数据分布一致,将混合属性数据上的分类属性数据无损地表示为高质量的数值向量。量。量。


技术研发人员:

李秋德 吉胜芬 余洋 胡思贵 熊庆宇

受保护的技术使用者:

贵州医科大学

技术研发日:

2022.09.26

技术公布日:

2022/12/30

本文发布于:2024-09-21 12:22:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/50722.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:属性   视图   样本   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议