首页 > 专利学习

基于变分自动编码器的零样本图像分类方法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201710843425.2(22)申请日 2017.09.18

(71)申请人天津大学

地址 300072 天津市南开区卫津路92号(72)发明人冀中　孙裕鑫　于云龙　

(74)专利代理机构天津市北洋有限责任专利代

理事务所 12201

代理人刘国威(51)Int.Cl.

G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)

(54)发明名称

基于变分自动编码器的零样本图像分类方法

(57)摘要

本发明涉及一种面向计算机视觉领域的零样本分类技术，为提出零样本图像分类方法，拟合类别的语义特征和视觉特征在语义空间中的映射之间的分布，建立更加有效地视觉特征和类别语义之间的语义关联。本发明，基于变分自动编码器的零样本图像分类方法，利用变分自动编码器由视觉特征生成嵌入语义特征，变分自动编码器认为存在隐变量

将隐变量作为嵌入语

义特征，对于零样本图像分类任务，对于类别未知样本的视觉特征x j ，利用在可见类上训练好的变分自动编码器的编码网络，计算编码生成的隐变量

将

作为嵌入语义特征，计算与每个未

见类的语义特征

的余弦距离，最终，将距

离最小的类别认定为该视觉样本的类别。本发明

主要应用于视频分类场合。

权利要求书2页说明书6页附图2页

CN 107679556 A 2018.02.09

C N 107679556

1.一种基于变分自动编码器的零样本图像分类方法，其特征是，利用变分自动编码器

由视觉特征生成嵌入语义特征，变分自动编码器认为存在隐变量该变量服从n维高斯分布：

其中，该分布均值为方差为I是由N(0，1)分布中采样得到的特征矩阵，隐变量表示为：

变量和由两个全连接神经网络h1(；)和h2(；)依照视觉特征计算得到，即：

变分编码器的输出为生成视觉特征该特征由隐变量经由全连接神经网络计算得到，即：

为了将变分自动编码器应用于零样本图像分类任务，将隐变量作为嵌入语义特征，该特征服从真实语义特征的概率分布，为了训练差分自动编码器，定义损失函数：

该损失函数由视觉损失和语义损失两个部分构成，其中，视觉损失是

为了缩小生成视觉特征与真实视觉特征x i之间的差距，语义损失函数是为了提高对语义特征的预测准确率；

对于零样本图像分类任务，对于类别未知样本的视觉特征x j，利用在可见类上训练好的

变分自动编码器的编码网络，计算编码生成的隐变量将作为嵌入语义特征，计算与每

个未见类的语义特征的余弦距离，最终，将距离最小的类别认定为该视觉样本的类别，以此实现零样本分类任务。

2.如权利要求1所述的基于变分自动编码器的零样本图像分类方法，其特征是，训练具体步骤如下，为可见类的视觉特征，为可见类的真实语义特征，n为可见类样本的个数，d为视觉特征的维度，u为语义特征的维度；

1)从可见类数据集合中抽取视觉特征x i和其对应的语义特征z i作为训练模型的输入；

2)视觉特征x i经过两个神经网络分别计算嵌入语义特征的均值和标准差这两个神经网络均为两层全连接神经网络，第一层神经元个数为d，第二层神经元个数为u；

3)从N(0，1)分布中采样得到特征矩阵由嵌入语义特征的均值标准差和特

征矩阵I依照公式(2)计算嵌入语义特征

4)嵌入语义特征经过一个神经网络计算得到生成的视觉特征该神经网络由两层全连接神经网络构成，第一层神经元个数为由u，第二层神经元个数d；

5)由视觉特征x i和生成视觉特征依照公式(7)计算得到视觉损失由真实语义特

征z i和嵌入语义特征依照公式(8)计算语义损失将视觉损失和语义损失

依照公式(6)得到总体损失利用反向传播算法根据总体损失优化模型中神经网络的参数；

6)重复训练步骤1-5直至总体损失函数收敛。

3.如权利要求1所述的基于变分自动编码器的零样本图像分类方法，其特征是，测试具体步骤是，为未见类的视觉特征，m为未见类中视觉特征样本的个数，为未见类的真实语义特征，t为未见类的类别个数，则：

1)将待测试样本的视觉特征x j输入训练好的模型，依照训练过程的步骤2、3得到嵌入语

义特征

2)由嵌入语义特征与未见类中的每个类别的真实语义特征zτ分别计算距离

公式如下：

3)选取真实语义特征与嵌入语义特征距离最小的类别作为视觉特征x j的类别公式如下：

基于变分自动编码器的零样本图像分类方法

技术领域

[0001]本发明涉及一种面向计算机视觉领域的零样本分类技术，特别是涉及基于变分自动编码器的零样本图像分类技术。具体讲，涉及基于变分自动编码器的零样本图像分类方法。

背景技术

[0002]随着深度学习在图像处理领域的大量应用，对于训练数据的需求也在不断扩大，然而，获得标注样本需要耗费大量的人力。因此标注数据的匮乏成了制约深度学习发展的瓶颈之一。零样本问题旨

在通过模型的知识迁移，实现对未参与训练类别的图像分类。与传统的图像分类问题不同，零样本问题将图像数据参与训练的类别定义为可见类，与之相对应的图像数据不参与训练的类别被定义为未见类，可见类别和未见类别的语义特征成为迁移的“知识”。例如，利用马的图像数据训练零样本模型，同时将“斑马为有条纹的马”这一语义关系赋予零样本模型，则该模型可以对斑马的图像进行分类。

[0003]当前解决零样本图像分类的模型框架是，在训练阶段中，利用可见类的视觉特征和语义特征训练一个语义嵌入模型，该模型能够实现由视觉空间到语义空间的映射。在测试阶段，将测试样本的视觉特征利用已训练的语义嵌入模型计算语义空间上的映射特征，即为嵌入语义特征，通过度量未见类各类别的语义特征与嵌入语义特征的距离，将距离最小的类别认定为该测试样本的类别，从而实现零样本图像分类任务。

[0004]目前，图像的语义描述大多针对的是每个类别，例如，对斑马的属性的语义描述为：“陆生、食草、黑、白、有尾巴等等”。同时，不同的类别间也会具有相同语义，例如，马和狗都具有“尾巴”这一属性。然而，在视觉上，马和狗的尾巴是不同的，不同马的尾巴也会存在差异。因此，我们认为视觉特征具有某一属性语义应为符合一定的概率分布。[0005]自动编码器作为一种常用的无监督学习方式，在结构上由三层神经网络组成，第一层与第三层神经元的个数与输入数据维度一致，第二层神经元个数为编码的位数，层与层之间为全连接。自动编码器实现对输入数据编码、解码的过程，利用反向传播算法能够实现对网络的训练。变分自动编码器认为编码的结果为隐变量，该变量应符合高

斯分布。隐变量的分布可由均值和标准差确定。在结构上，变分自动编码器的编码网络由两个并行的全连接神经网络构成，网络输出的结果作为隐变量的均值和标准差，通过计算得到的隐变量经由解码网络生成输入数据。

发明内容

[0006]为克服现有技术的不足，本发明旨在提出零样本图像分类方法，拟合类别的语义特征和视觉特征在语义空间中的映射之间的分布，建立更加有效地视觉特征和类别语义之间的语义关联。本发明采用的技术方案是，基于变分自动编码器的零样本图像分类方法，利

用变分自动编码器由视觉特征生成嵌入语义特征，变分自动编码器认为存在隐变量该变量服从n维高斯分布：

[0007]

[0008]其中，该分布均值为方差为I是由N(0，1)分布中采样得到的特征矩阵，

隐变量表示为：

[0009]

[0010]变量和由两个全连接神经网络h1(；)和h2(；)依照视觉特征计算得到，即：

[0011]

[0012]

[0013]变分编码器的输出为生成视觉特征该特征由隐变量经由全连接神经网络计算得到，即：

[0014]

[0015]为了将变分自动编码器应用于零样本图像分类任务，将隐变量作为嵌入语义特征，该特征服从真实语义特征的概率分布，为了训练差分自动编码器，定义损失函数：

[0016]

[0017]

[0018]

[0019]该损失函数由视觉损失和语义损失两个部分构成，其中，视觉损失

是为了缩小生成视觉特征与真实视觉特征x i之间的差距，语义损失函数是为了提高对语义特征的预测准确率；

[0020]对于零样本图像分类任务，对于类别未知样本的视觉特征x j，利用在可见类上训

练好的变分自动编码器的编码网络，计算编码生成的隐变量将作为嵌入语义特征，计

算与每个未见类的语义特征的余弦距离，最终，将距离最小的类别认定为该视觉样本的类别，以此实现零样本分类任务。

[0021]训练具体步骤如下，为可见类的视觉特征，

为可见类的真实语义特征，n为可见类样本的个数，d为视觉特征的维度，u为语义特征的维度；

[0022]1)从可见类数据集合中抽取视觉特征x i和其对应的语义特征z i作为训练模型的输入；

[0023]2)视觉特征x i经过两个神经网络分别计算嵌入语义特征的均值和标准差，这两个神经网络均为两层全连接神经网络，第一层神经元个数为d，第二层神经元个数为u；

[0024]3)从N(0，1)分布中采样得到特征矩阵由嵌入语义特征的均值标准差

和特征矩阵I依照公式(2)计算嵌入语义特征

[0025]4)嵌入语义特征经过一个神经网络计算得到生成的视觉特征该神经网络由

本文发布于:2024-09-23 18:32:13，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/402908.html

上一篇：基于回归变分自编码器的零样本图像分类方法[发明专利]

下一篇：专利分析与专利检索有什么区别呢?

标签：特征语义视觉

留言与评论（共有 0 条评论）