一种面向基因自动测序批次偏差的公平聚类方法



1.本发明属于数据挖掘聚类分析领域,具体包括一种面向基因自动测序批次偏差的公平聚类方法。


背景技术:



2.聚类在基因自动测序中扮演着重要的角,并被运用到多个实际场景中,比如:疾病诊断和生物学分析。然而传统聚类算法直接应用到单细胞rna序列聚类中会依据测序技术来划分数据,而不是细胞种类,因为不同测序技术、批次观测的细胞表现层次不同,而传统聚类方法无法区分这种批次偏差和语义信息差异。因此,公平聚类应运而生,并成为近几年的热点任务。给定一组数据,如细胞测序结果,公平聚类旨在将数据划分成不相交的集合,同时缓解甚至消除敏感属性对聚类结果的影响。
3.结合深度神经网络的深度公平聚类方法最近才开始受到关注,旨在利用神经网络学习一个低维空间,在这个空间内,有类似语义信息的样本相互靠近,即使敏感属性不同,反之远离。
4.当前基于深度神经网络的深度公平聚类方法取得了可观的聚类效果。尽管如此,他们的实现部分依赖于一些繁琐的技巧,比如对抗学习、预聚类、数据增广和伪标签。如果基于对抗学习,则会对参数和数据敏感并最终收敛到效果不理想的局部最优解。如果基于预聚类和伪标签,则会因为错误累积而难以优化。因为上述操作的结果不保证正确,用来指导网络会导致神经网络模型的性能将严重退化。除此以外,大部分工作都是启发式的设计,缺乏理论解释与支撑。而实际应用中也希望方法结果是可解释的,有理论依据的,从而进一步提升其应用性能和稳定性。由于公平聚类在应用过程中并没有人工标注的监督信号,这就对算法鲁棒性和稳定性有着更高要求。因此亟需设计一套有理论支撑的,鲁棒的,稳定的公平聚类算法,用于缓解甚至消除敏感属性对聚类结果的影响。


技术实现要素:



5.针对现有技术中的上述不足,本发明提供的一种面向基因自动测序批次偏差的公平聚类方法解决了现有技术鲁棒性和稳定性不足的问题。
6.为了达到上述发明目的,本发明采用的技术方案为:一种面向基因自动测序批次偏差的公平聚类方法,包括以下步骤:
7.s1、获取给定的基因测序数据集和该基因测序数据集包含的批次偏差敏感属性;
8.s2、构建auto-encoder神经网络并使用步骤s1得到的数据训练auto-encoder神经网络得到公平聚类模型;
9.s3、使用公平聚类模型对待检测的基因测序数据集进行检测得到对基因自动测序批次偏差鲁棒的聚类结果。
10.进一步地,基因测序数据集用x表示,x={x1,x2,

,xn}∈rn×d;基因测序数据集包含的敏感属性用g表示,g={g1,g2,...gn};指派c={c1,c2,

,cn}将基因测序数据集x划分
成k个互不相交的集合;其中,n为细胞个数,d为每个细胞的测序特征维度。
11.进一步地,所述auto-encoder神经网络包括共享编码器和多支解码器;共享编码器的输出端和多支解码器的输入端相连接;
12.auto-encoder神经网络的共享编码器包括6层全连接层网络;
13.auto-encoder神经网络的多支解码器包括6层全连接层网络。
14.进一步地,步骤s2的具体实现方式如下:
15.s2-1、根据公式:
16.l
rec
=||x-φ(θ(x))||217.得到用于训练auto-encoder神经网络的重构损失函数l
rec
;其中,θ是auto-encoder神经网络的共享编码器,φ是auto-encoder神经网络的多支解码器;φ由t个敏感属性专用解码器组成,θi是第i个敏感属性专用解码器;x是基因测序数据集;
18.s2-2、使用预热过的auto-encoder神经网络的共享编码器将各个敏感属性数据编码成为一个公共空间中的特征hj=θ(xj);在特征hj上用k-means算法对其进行聚类,获取聚类中心u={u1,u2,

uk};xj表示第j个数据样本;uk表示第k个聚类中心;
19.s2-3、根据公式:
[0020][0021][0022]
得到第m个特征和第v个聚类中心的指派函数c
mv
;将指派函数的最大值对应的类别记为聚类结果c;其中,s
mv
表示hm和uv的余弦相似度;exp表示自然常数e为底的指数函数,τ是敏感系数;(
·
)
t
表示矩阵的转置;
[0023]
s2-4、根据公式:
[0024][0025][0026]
得到互信息最大化的结果l
clu
;其中,表示第n个聚类的样本的边缘密度,i(x;c)表示基因测序数据集和聚类结果之间的互信息,log的底数是2;c
qn
是第q个特征到第n个聚类中心的指派函数;h(c)是聚类结果c的熵值;h(c|x)是聚类结果c在给定数据集x情况下的条件熵;
[0027]
s2-5、根据公式:
[0028][0029][0030]
[0031]
得到互信息最小化的结果l
fair
;其中,是敏感属性的边缘密度,是聚类和敏感属性的联合概率密度,c
rs
是第r个特征和第s个聚类中心的指派函数;是一个指示函数,如果则取1,否则取0,i(g;c)表示敏感属性和聚类结果之间的互信息,表示第r个聚类中心;g
t
表示第t个敏感属性;
[0032]
s2-6、根据公式:
[0033]
l=l
rec
+αl
clu
+βl
fair
[0034]
得到公平聚类后的损失函数l;其中,α为超参数表示l
clu
的权重,β为超参数表示l
fair
的权重;根据损失函数和梯度下降法,更新auto-encoder神经网络参数;
[0035]
s2-7、重复步骤s2-2至步骤s2-6直到auto-encoder神经网络收敛,得到公平聚类模型。
[0036]
5.根据权利要求4所述的一种面向基因自动测序批次偏差的公平聚类方法,步骤s3的具体实现方法如下:
[0037]
根据s2-2和s2-3相同的方法得到对基因自动测序批次偏差鲁棒的聚类结果。
[0038]
本发明的有益效果为:本发明具有较强的鲁棒性和稳定性,使用互信息的方法减少了敏感属性对聚类结果的影响,提升了深度神经网络对基于序列语义信息的感知能力,最终得到了更好的聚类效果。
附图说明
[0039]
图1为整体流程图;
[0040]
图2为训练过程流程图。
具体实施方式
[0041]
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0042]
如图1所示,一种面向基因自动测序批次偏差的公平聚类方法,包括以下步骤:
[0043]
s1、获取给定的基因测序数据集和该基因测序数据集包含的批次偏差敏感属性;
[0044]
s2、构建auto-encoder神经网络并使用步骤s1得到的数据训练auto-encoder神经网络得到公平聚类模型;
[0045]
s3、使用公平聚类模型对待检测的基因测序数据集进行检测得到对基因自动测序批次偏差鲁棒的聚类结果。
[0046]
基因测序数据集用x表示,x={x1,x2,

,xn}∈rn×d;基因测序数据集包含的敏感属性用g表示,g={g1,g2,...gn};指派c={c1,c2,

,cn}将基因测序数据集x划分成k个互不相交的集合;其中,n为细胞个数,d为每个细胞的测序特征维度。
[0047]
auto-encoder神经网络包括共享编码器和多支解码器;共享编码器的输出端和多支解码器的输入端相连接;
[0048]
auto-encoder神经网络的共享编码器包括6层全连接层网络;
[0049]
auto-encoder神经网络的多支解码器包括6层全连接层网络。
[0050]
如图2所示,步骤s2的具体实现方式如下:
[0051]
s2-1、根据公式:
[0052]
l
rec
=||x-φ(θ(x))||2[0053]
得到用于训练auto-encoder神经网络的重构损失函数l
rec
;其中,θ是auto-encoder神经网络的共享编码器,φ是auto-encoder神经网络的多支解码器;φ由t个敏感属性专用解码器组成,θi是第i个敏感属性专用解码器;x是基因测序数据集;
[0054]
s2-2、使用预热过的auto-encoder神经网络的共享编码器将各个敏感属性数据编码成为一个公共空间中的特征hj=θ(xj);在特征hj上用k-means算法对其进行聚类,获取聚类中心u={u1,u2,

uk};xj表示第j个数据样本;uk表示第k个聚类中心;
[0055]
s2-3、根据公式:
[0056][0057][0058]
得到第m个特征和第v个聚类中心的指派函数c
mv
;将指派函数的最大值对应的类别记为聚类结果c;其中,s
mv
表示hm和uv的余弦相似度;exp表示自然常数e为底的指数函数,τ是敏感系数;(
·
)
t
表示矩阵的转置;
[0059]
s2-4、根据公式:
[0060][0061][0062]
得到互信息最大化的结果l
clu
;其中,表示第n个聚类的样本的边缘密度,i(x;c)表示基因测序数据集和聚类结果之间的互信息,log的底数是2;c
qn
是第q个特征到第n个聚类中心的指派函数;h(c)是聚类结果c的熵值;h(c|x)是聚类结果c在给定数据集x情况下的条件熵;
[0063]
s2-5、根据公式:
[0064][0065][0066][0067]
得到互信息最小化的结果l
fair
;其中,是敏感属性的边缘密度,是聚类和敏感属性的联合概率密度,c
rs
是第r个特征和第s个聚类中心的指派函数;是一个指
示函数,如果则取1,否则取0,i(g;c)表示敏感属性和聚类结果之间的互信息,表示第r个聚类中心;g
t
表示第t个敏感属性;
[0068]
s2-6、根据公式:
[0069]
l=l
rec
+αl
clu
+βl
fair
[0070]
得到公平聚类后的损失函数l;其中,α为超参数表示l
clu
的权重,β为超参数表示l
fair
的权重;根据损失函数和梯度下降法,更新auto-encoder神经网络参数;
[0071]
s2-7、重复步骤s2-2至步骤s2-6直到auto-encoder神经网络收敛,得到公平聚类模型。
[0072]
5.根据权利要求4所述的一种面向基因自动测序批次偏差的公平聚类方法,步骤s3的具体实现方法如下:
[0073]
根据s2-2和s2-3相同的方法得到对基因自动测序批次偏差鲁棒的聚类结果。
[0074]
在本发明的一个实施例中,对不同来源的数据使用不同的方法进行评估;采用acc,nmi,balance,mnce,f
β
作为衡量指标,其中,acc和nmi衡量聚类效果优劣,balance和mnce衡量公平程度,f
β
同时衡量两个特性;五个指标的数值越大,该方法的效果越好;最好的和次优的结果分别被加粗和加下划线;具体结果如表1、表2所示:
[0075]
表1:本方法在人类行为识别数据集上的效果。其中敏感属性为行为者身份,语义信息为行为类别。
[0076][0077]
表2:本方法在office,mtfl和mouseatlas三个数据集上的效果。其中office是网购商品图片数据集,商品类别作为语义信息,商品图片来源作为敏感属性;mtfl是人脸识别数据集,我们将图片中人物性别作为语义信息,是否佩戴眼镜作为敏感属性;mouseatlas是小鼠基因测序数据,我们以细胞类别作为语义信息,测序批次作为敏感属性。
[0078][0079]
本发明具有较强的鲁棒性和稳定性,使用互信息的方法减少了敏感属性对聚类结果的影响,提升了深度神经网络对基于序列语义信息的感知能力,最终得到了更好的聚类效果。

技术特征:


1.一种面向基因自动测序批次偏差的公平聚类方法,其特征在于,包括以下步骤:s1、获取给定的基因测序数据集和该基因测序数据集包含的批次偏差敏感属性;s2、构建auto-encoder神经网络并使用步骤s1得到的数据训练auto-encoder神经网络得到公平聚类模型;s3、使用公平聚类模型对待检测的基因测序数据集进行检测得到对基因自动测序批次偏差鲁棒的聚类结果。2.根据权利要求1所述的一种面向基因自动测序批次偏差的公平聚类方法,其特征在于,基因测序数据集用x表示,x={x1,x2,

,x
n
}∈r
n
×
d
;基因测序数据集包含的敏感属性用g表示,g={g1,g2,...g
n
};指派c={c1,c2,

,c
n
}将基因测序数据集x划分成k个互不相交的集合;其中,n为细胞个数,d为每个细胞的测序特征维度。3.根据权利要求1所述的一种面向基因自动测序批次偏差的公平聚类方法,其特征在于,所述auto-encoder神经网络包括共享编码器和多支解码器;共享编码器的输出端和多支解码器的输入端相连接;auto-encoder神经网络的共享编码器包括6层全连接层网络;auto-encoder神经网络的多支解码器包括6层全连接层网络。4.根据权利要求3所述的一种面向基因自动测序批次偏差的公平聚类方法,其特征在于,步骤s2的具体实现方式如下:s2-1、根据公式:l
rec
=||x-φ(θ(x))||2得到用于训练auto-encoder神经网络的重构损失函数l
rec
,使用auto-encoder神经网络重构损失函数进行模型预热,;其中,θ是auto-encoder神经网络的共享编码器,φ是auto-encoder神经网络的多支解码器;φ由t个敏感属性专用解码器组成,θ
i
是第i个敏感属性专用解码器;x是基因测序数据集;s2-2、使用预热过的auto-encoder神经网络的共享编码器将各个敏感属性数据编码成为一个公共空间中的特征h
j
=θ(x
j
);在特征h
j
上用k-means算法对其进行聚类,获取聚类中心u={u1,u2,

u
k
};x
j
表示第j个数据样本;u
k
表示第k个聚类中心;s2-3、根据公式:3、根据公式:得到第m个特征和第v个聚类中心的指派函数c
mv
;将指派函数的最大值对应的类别记为聚类结果c;其中,s
mv
表示h
m
和u
v
的余弦相似度;exp表示自然常数e为底的指数函数,τ是敏感系数;(
·
)
t
表示矩阵的转置;s2-4、根据公式:4、根据公式:
得到互信息最大化的结果l
clu
;其中,表示第n个聚类的样本的边缘密度,i(x;c)表示基因测序数据集和聚类结果之间的互信息,log的底数是2;c
qn
是第q个特征到第n个聚类中心的指派函数;h(c)是聚类结果c的熵值;h(c|x)是聚类结果c在给定数据集x情况下的条件熵;s2-5、根据公式:5、根据公式:5、根据公式:得到互信息最小化的结果l
fair
;其中,是敏感属性的边缘密度,是聚类和敏感属性的联合概率密度,c
rs
是第r个特征和第s个聚类中心的指派函数;是一个指示函数,如果则取1,否则取0,i(g;c)表示敏感属性和聚类结果之间的互信息,表示第r个聚类中心;g
t
表示第t个敏感属性;s2-6、根据公式:l=l
rec
+αl
clu
+βl
fair
得到公平聚类后的损失函数l;其中,α为超参数表示l
clu
的权重,β为超参数表示l
fair
的权重;根据损失函数和梯度下降法,更新auto-encoder神经网络参数;s2-7、重复步骤s2-2至步骤s2-6直到auto-encoder神经网络收敛,得到公平聚类模型。5.根据权利要求4所述的一种面向基因自动测序批次偏差的公平聚类方法,其特征在于,步骤s3的具体实现方法如下:根据s2-2和s2-3相同的方法得到对基因自动测序批次偏差鲁棒的聚类结果。

技术总结


本发明公开了一种面向基因自动测序批次偏差的公平聚类方法,包括以下步骤:S1、获取给定的基因测序数据集和该基因测序数据集包含的批次偏差敏感属性;S2、构建auto-encoder神经网络并使用步骤S1得到的数据训练auto-encoder神经网络得到公平聚类模型;S3、使用公平聚类模型对待检测的基因测序数据集进行检测得到对基因自动测序批次偏差鲁棒的聚类结果。与现有技术相比,本发明具有较强的鲁棒性和稳定性,使用互信息的方法减少了敏感属性对聚类结果的影响,提升了深度神经网络对基因序列语义信息的感知能力,最终得到了更好的聚类效果。效果。效果。


技术研发人员:

彭玺 曾鹏鑫 李云帆 杨筱宇

受保护的技术使用者:

四川大学

技术研发日:

2022.08.15

技术公布日:

2022/12/1

本文发布于:2024-09-23 10:29:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/26391.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:神经网络   基因   序数   敏感
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议