机器学习思考题目——15自编码器(Autoencoders)

堆栈式
机器学习思考题⽬——15⾃编码器(Autoencoders)
本⽂直译⾃《hands on ML》课后题。(有改动的以【】表⽰)。
太阳能整体浴室1.⾃动编码器的主要任务是什么?
镁碳砖(a)特征提取(feature extraction)。内外牙
(b)⽆监督预训练(unsupervised pretraining)。
(c)降维
(d)⽣成模型(Generative models)
(e)异常检测(Anomaly detection,an autoencoder is generally bad at reconstructing outliers)
2.假设有⼤量⽆标签训练数据,只有⼏千有标签样本,如果要训练⼀个分类器,⾃编码器能帮什么忙?该怎么操作?
⾸先可以在整个数据集上(有标签+⽆标签)训练⼀个深度⾃编码器,然后复⽤它的下半部分(即从输⼊层到coding layer(含))当做分类器,⽤有标签的数据来训练分类器。如果有标签数据很少,训练分类
器的时候可以冻结(freeze)复⽤层。
3.如果⾃编码器完美重建了输⼊,那么它⼀定是⼀个很好的⾃编码器么?该怎么评价⾃编码器的性能?
性引诱
(1)⾃编码器完美重建了输⼊并不能说明它是⼀个好的编码器;可能只是⼀个过完备(overcomplete)的⾃编码器——把输⼊拷贝到编码层然后拷贝到输出层。事实上,即使编码层只有⼀个神经元,深度⾃编码器仍有可能把每个训练样本映射成不同的编码(例如第⼀个样本映射成0.001,第⼆个映射成0.002,第三个映射成0.003,以此类推),它可能‘记住了’(learn “by heart”)并对每个编码重建训练样本。它可以在没有学到数据的任何pattern的情况下完美重建输⼊。实际中,这种映射不太可能发⽣,但是它说明完美重建输⼊并不能保证⾃编码器学到了有⽤的东西。当然,如果它重建效果很差,基本保证了它是个很差的⾃编码器。
(2)为了评价⾃编码器的性能,⼀个⽅法是衡量重建误差(reconstruction loss,例如计算MSE,输出减去输⼊的平⽅的均值)。⼤的重建误差表明⾃编码器很差,但是⼀个⼩的重建误差不能保证⾃编码器很好。也可以根据⾃编码器的⽤途来衡量它,例如如果把它⽤来作为⼀个分类器的⽆标签预训练,可以通过衡量分类器的效果来衡量⾃编码器。
4.什么是⽋完备(undercomplete)和过完备(overcomplete)⾃编码器?⼀个过度⽋完备的⾃编码器
有什么风险?⼀个过完备的⾃编码器的风险是什么?
如果编码层⽐输⼊和输出层⼩,则是⽋完备⾃编码器;如果编码层⽐输⼊和输出⼤,则是过完备⾃编码器。过度⽋完备的⾃编码器可能会⽆法重建输⼊。过完备的⾃编码器可能会把输⼊拷贝到输出,没有学到任何有⽤的特征。
6.堆栈式⾃编码器(stacked autoencoder)低层特征可视化的常⽤技术是什么?⾼层特征可视化呢?
低层特征可视化的常⽤技术是把权重向量形状改变成输⼊图⽚的形状,然后画出每个神经元的weight(例如,对MNIST数据集,把[784]维的weight向量转化成[28,28]的图⽚)。
要可视化⾼层的特征,⼀种技术是展⽰最能激活每个神经元的训练样本。
7. 什么是⽣成模型(generative model)?能否举出⼀个⽣成模型的例⼦?
⼀个⽣成模型是可以随机⽣成类似于训练集的输出的模型。例如,在MNIST数据集上训练完成之后,⼀个⽣成模型可以⽤来随机⽣成数字的图⽚。输出的分布⼀般和训练数据相近。例如,由于MNIST数据集包含同⼀个数字的很多图⽚,⽣成模型也会⽣成差不多相同数⽬的该数字。有些⽣成模型可以被参数化(can be parametrized),例如只⽣成某种类型的输出。⽣成模型的⼀个例⼦是变分⾃编码器。
保健牙刷

本文发布于:2024-09-21 13:47:10,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/338224.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:编码器   训练   数据   输出   标签   例如   分类器   完备
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议