基于少量样本的内含多种归一化处理的风格字符生成方法

著录项
  • CN201910933634.5
  • 20190929
  • CN111753493A
  • 20201009
  • 西交利物浦大学
  • 黄开竹;江浩川;杨关禹;程飞
  • G06F40/109
  • G06F40/109 G06F40/106 G06N3/04 G06N3/08

  • 江苏省苏州市工业园区仁爱路111号
  • 江苏(32)
  • 苏州创元专利商标事务所有限公司
  • 马明渡;王健
摘要
本发明公开一种基于少量样本的内含多种归一化处理的风格字符生成方法,以若干种风格字符组成风格参考字符数据集,以及多种内容相同的标准字体字符作为字符内容原型数据源,使用基于深度生成对抗网络的包含混合器和多种归一化方式的图像翻译模型,训练中使用本专利提出的对抗损失函数,最终可以训练出一个用于字符风格迁移的内含多种归一化处理的字符生成模型;充分训练的模型能够通过少量或者甚至一个带有同一风格的字符作为风格参考样板,生成带有同种书写或印刷风格的任意字符,生成字符的内容则由输入的带有标准风格的内容原型来决定。
权利要求

1.一种基于少量样本的内含多种归一化处理的风格字符生成方法,其特征在于:以若干种风格字符组成风格参考字符数据集,以及多种内容相同的标准字体字符作为字符内容原型数据源,使用基于深度生成对抗网络的包含混合器和多种归一化方式的图像翻译模型,训练中使用本专利提出的对抗损失函数,最终可以训练出一个用于字符风格迁移的内含多种归一化处理的字符生成模型;充分训练的模型能够通过少量或者甚至一个带有同一风格的字符作为风格参考样板,生成带有同种书写或印刷风格的任意字符,生成字符的内容则由输入的带有标准风格的内容原型来决定;

所述字符生成模型由内容原型编码器Content Prototype Encoder(Encp),风格参考编码器Style Reference Encoder(Encr)混合器Mixer和解码器Decoder(Dec)所组成;其中,在Encp、Mixer和Dec中都引入了不同的归一化处理,该方法可以提高模型训练中的收敛速度;在模型训练中,引入了新的生成对抗损失函数,可以让模型最终生成的字符的风格与输入风格更加相似;

所述内容原型编码器Content Prototype Encoder,Encp,输入数据为K个带有标准风格且内容相同的字符表示成长宽为64*64,值域在[0,255]之间的K个灰度图片,输出为经过各级卷积特征;该内容原型编码器由连续的间隔步幅值为2的卷积运算及归一化过程所组成,用于提取所输入的标准字符从低级到高级的各级特征,其中,第一级特种为K个输入字符的融合信息,其维度为32*32*64,之后每级特征较之其上一级特征,特征长宽减半,厚度翻倍但不超过512,其所得到的标准字符的最高级特征,长宽均为1;

所述风格参考编码器Style Reference Encoder,Encr,其输入为带有某一种风格N个不同字符风格用i来表示),同样表示成长宽为64*64,值域在[0,255]之间的N个灰度图片,输出为经过平均运算或最大值/最小值运算后,对应的各级卷积特征;该风格参考编码器基本结构与Encp相似,但第一级特征未将N个输入字符的信息融合,其维度为N*32*32*64,因此相较于内容原型编码器,风格参考编码器中每一层都保留了N个对应级卷积特征,而之后的信息传递过程中,为了处理一次性输入的多个(N个)带有某种书写风格字符(假设为第i个风格,)所对应的风格信息,首先需要对各级N个卷积特征进行平均运算,得到与内容原型编码器输出维度相同的各级特征,再送入混合器Mixer;在风格参考编码器(Encr)中省略归一化处理;

所述混合器Mixer的输入为内容原型编码器(Encp)和风格参考编码器(Encr)输出的各级特征,该混合器Mixer将对应的第一至六级特征进行混合运算处理后输入至解码器网络的对应层,其中所述混合运算处理为:对于第四至六级特征,先对内容原型编码器传递的特征进行归一化处理,再与风格参考编码器传递特征进行串联;对于第三级特征,先进行串联处理,再经过若干个(L个)包含归一化处理的深度神经网络单元(Deep Neural NetworksBlocks,DNN Blocks)运算;对于第一、二级特征,先对内容原型编码器传递的特征进行归一化处理,再分别进行L+4,L+2个包含归一化处理的深度神经网络单元运算,舍去风格参考编码器的传递内容;

所述包含归一化处理的深度神经网络单元DNN Blocks可选用Residual Block或DenseBlock两种模式,其中所包含的批归一化处理(Batch Normalization)可替换为其他相应的归一化处理;

对于混合器Mixer,其内容原型编码器Encp所传递特征采用以风格参考编码器Encr所传递特征为参照的自适应实例归一化Adapted Instance Normalization,AdaIN,其深度神经网络单元DNN Blocks采用改进型自适应实例归一化Modified Adapted InstanceNormalization,MAdaIN;

所述改进型自适应实例归一化处理MAdaIN包含以下过程:对风格参考编码器的各级输出进行若干次步长为1的卷积运算,得出与对应级输出的维度相同的卷积特征,以该卷积特征为参照,对对应的各级串联特征进行自适应实例归一化Adapted InstanceNormalization,AdaIN;

所述解码器Decoder,Dec,输入为混合器输出的第六级特征,即维度为1*1*1024的卷积特征,除输入层外,每一级特征向后传递前,与混合器Mixer传递的对应层特征进行串联操作,该解码器由连续的卷积间隔步幅值为2的反卷积运算及归一化处理所组成,即后一级特征的长宽是前一级特征的两倍,最终生成与输入的无风格标准字符长宽一致的具有特定风格的字符;对于解码器Dec均采用层归一化Layer Normalization,LN;

最终,所述内容原型编码器Encp、风格参考编码器Encr对各自输入数据进行特征提取,并将网络每层提取的信息通过混合器Mixer运算和部分串联后,输入解码器网络Dec的对应层,解码器网络对从混合器Mixer输入来的各级卷积特征进行恢复及重建,输出带有某一种的风格的生成字符亦表示为同样表示成长宽为64*64,值域在[0,255]之间的灰度图片;

该生成字符的内容来源于输入到Encp的标准字符风格来源于输入到Encr的N个带有第i个风格的字符

具体地,基于少量样本的内含多种归一化处理的风格字符生成方法包括以下步骤:

步骤1、训练开始之前,需要对字符生成模型的参数进行随机初始化,从而给定训练的开始状态;

步骤2、我们使用随机优化的训练策略来对该字符生成模型进行训练,训练目标即为最小化字符生成模型的训练误差LG;

步骤3、当LG的值不再继续下降后,停止训练,此时训练所得的模型参数即称为训练完成的字符生成模型;

步骤4、获取某个书写风格的任意若干个字符(假设为N个,一般N<=32,),并将此N个字依次输入到训练完成的字符生成模型的风格参考编码器Encr,得出N份各级卷积特征,对应N个不同的同风格字符;

步骤5、对由Encr计算得出的,对应于N个输入的带有同一种书写风格的字符的N份各级卷积特征进行平均计算或取最大值/最小值运算,得出N份各级卷积特征对应的一份有代表性的各级卷积体征;

步骤6、向内容原型编码器Encp输入欲生成字符对应的若干个标准字体字符(假设为K个,),计算出各级卷积特征;

步骤7、将Encr、Encp所提取的各级卷积特征,输入混合器Mixer中进行对应的混合运算处理;

步骤8、将Mixer运算处理结果传入解码器Dec中,从而生成欲生成的带有特定风格的任意字符,

2.根据权利要求1所述的基于少量样本的内含多种归一化处理的风格字符生成方法,其特征在于:所述步骤2具体包括以下步骤:

步骤2-1、我们从训练数据集中随机选取一批训练数据,一批数据的大小一般设置为16个数据,其中一个数据由一组内容原型相同的字符组成,包括K个标准字符和带有某一个特定风格的字符的真实样本

步骤2-2、此后,根据所选取的带有某一个特定风格的风格字符随机从同一个训练数据集中选取另外N个带有同样风格的不同内容原型的字符

步骤2-3、将输入Encp,输入Encr,从而获取两个编码器各级卷积特征;

步骤2-4、将上一步获得的两个编码器的各级卷积特征根据步骤七、步骤八所描述的关系送入混合器经过混合运算后再传入解码器,从而生成希望生成的带有某一个特定书写风格的字符样

步骤2-5、将上一步所生成的字符样本计算以下两个训练误差:

LD=αLadv-D+αGPLadv-GO+βLac

训练中引入“生成对抗网络”的的训练方法,即在训练所要得到的字符生成模型(G)之外,同时训练另外一个以卷积神经网络为基础的一个判别式模型(D),该模型的基本功能是用于判断输入模型的数据为真实数据还是生成数据,如果输入的数据是真实数据,则输出为1;如果输入的数据为生成数据,则输出为零,当该判别式模型无法有效地区分真实数据和生成数据时,我们可以认为生成数据已经具有很高的质量,已经无法与真实数据相区分了;生成对抗网络的训练方法所对应的误差称为对抗损失,本专利中所提出的字符生成网络称为生成对抗网络中的生成模型(G);

在步骤2-5中,所述训练误差中:

(1)对抗误差Ladv-G、Ladv-D和梯度惩罚Ladv-GP分别为:

其中k′,n′分别为从[1,2,…,K]和[1,2,…,N]随机采样的结果;

(2)辅助分类器误差Lac为用判别式模型(D)所提特征进行分类任务时产生的分类误差,公式如下:

(3)生成样本与数据库中真实样本的1-范数误差Lpixel为:

(4)深度感知误差用于衡量生成字符与真实字符在深度特征上的差异,我们使用三个预先训练好的VGG-16网络,这三个VGG-16网络为基于卷积神经网络的深度学习模型,分别用于区分不同字符,风格和字体;此时,将与分别输入到该网络中,即可得到各自的逐级卷积特征,记为和则深度特征误差Lφ表示为:

用于衡量生成字符与真实字符深度特征间的均方误差散度和冯诺伊曼散度,其中当使用字符,风格和字体分类VGG-16网络时,φ分别对应φreal,φstyle和φcontent,在本专利中,我们选取VGG-16中Φ1-2,Φ2-2,Φ3-3,Φ4-3,Φ5-3五个卷积特征来计算高级特征误差;

(5)恒定误差和用于衡量生成字符和真实字符在内容原型编码器Encp、风格参考编码器Encr所提取最终层特征间的误差,其中:

步骤2-6、每一次迭代过程使用交替优化的策略,在每一个迭代过程中,首先根据最小化LG来优化网络G(字符生成模型),此后,根据最小化LD来优化网络D,每个迭代过程使用Adams优化方法交替地对G和D网络进行参数更新。

说明书
技术领域

本发明涉及一种风格字符生成方法,尤其涉及一种基于少量样本风格的手 写或印刷体字符生成方法。

字体,在各国文字与文化中都具有非常重要的地位和意义,尤其是在中国, 书法艺术源远流长,但是汉字因为单子数量众多,对计算机字体的制作产生了 巨大的挑战。

2016年,Z.H.Lian在SIGGRAPHASIA上发论文《Automatic generation of large-scale handwriting fonts via style learning》,提出了一种可以让用户提供266 个字符来生成27533个风格类似的字符。但是,该模型的训练需要提供大量的 标注数据,并且需要用户较为规范的输入才能得到预期的结果,在较少标注数 据的情况下的效果不好。而且模型的重点在于笔画风格的模仿,而不是汉字整 体风格的学习。

IsolaPhillip等的论文《Image-to-Image Translation with ConditionalAdversarial Networks》提出的pix2pix,受此启发,zi2zi被提出。并与2017年由 Z.H.Lian等发表《DCFont:an end-to-end deep chinese font generation system》则 提出了原本模型的改进方法:引入条件生成式对抗网络(cGAN),将学习笔画 轮廓替换为在标准字体(例如楷体)的基础上加入手写风格的特征。手写特征 提取则由生成器(encoder-decoder)和VGG-16深度卷积网络完成。

然而模型的问题仍然是无法处理很潦草的输入字符风格问题,并且需要较 多的训练样本。

H.Jiang等在ICONIP2018发表的论文《W-Net:One-Shot Arbitrary-StyleChinese Character Generation with Deep Neural Networks》提出了一种形状类似于“W”的风格迁移网络,通过对极少量字符的内容原型和风格参考信息的提取及融 合,最终重构出带有目标风格的指定内容字符。然而,该方法的训练速度缓慢, 需要连续训练数月才能得到有效的模型。

本发明的目的是提供一种基于少量样本的内含多种归一化处理的风格字符 生成方法,该风格字符生成方法实现了根据同一风格的少量(甚至一个)字符生成 相应风格的字体,包括手写体和印刷体。

为达到上述目的,本发明采用的技术方案是:一种基于少量样本的内含多 种归一化处理的风格字符生成方法,其特征在于:以若干种风格字符组成风格 参考字符数据集,以及多种内容相同的标准字体字符作为字符内容原型数据源, 使用基于深度生成对抗网络的包含混合器和多种归一化方式的图像翻译模型, 训练中使用本专利提出的对抗损失函数,最终可以训练出一个用于字符风格迁 移的内含多种归一化处理的字符生成模型;充分训练的模型能够通过少量或者 甚至一个带有同一风格的字符作为风格参考样板,生成带有同种书写或印刷风 格的任意字符,生成字符的内容则由输入的带有标准风格的内容原型来决定;

所述字符生成模型由内容原型编码器Content Prototype Encoder(Encp),风格参考编码器Style Reference Encoder(Encr)混合器Mixer和解码器Decoder(Dec) 所组成;其中,在Encp、Mixer和Dec中都引入了不同的归一化处理,该方法 可以提高模型训练中的收敛速度;在模型训练中,引入了新的生成对抗损失函 数,可以让模型最终生成的字符的风格与输入风格更加相似;

所述内容原型编码器Content Prototype Encoder,Encp,输入数据为K个带 有标准风格且内容相同的字符表示成长宽为64*64,值域 在[0,255]之间的K个灰度图片,输出为经过各级卷积特征;该内容原型编码器 由连续的间隔步幅值为2的卷积运算及归一化过程所组成,用于提取所输入的 标准字符从低级到高级的各级特征,其中,第一级特种为K 个输入字符的融合信息,其维度为32*32*64,之后每级特征较之其上一级特征, 特征长宽减半,厚度翻倍但不超过512,其所得到的标准字符的最高级特征,长 宽均为1;

所述风格参考编码器Style Reference Encoder,Encr,其输入为带有某一种 风格N个不同字符(风格用i来表示),同样表示成长宽为 64*64,值域在[0,255]之间的N个灰度图片,输出为经过平均运算或最大值/最小 值运算后,对应的各级卷积特征;该风格参考编码器基本结构与Encp相似,但 第一级特征未将N个输入字符的信息融合,其维度为N*32*32*64,因此相较于 内容原型编码器,风格参考编码器中每一层都保留了N个对应级卷积特征,而 之后的信息传递过程中,为了处理一次性输入的多个(N个)带有某种书写风 格字符(假设为第i个风格,)所对应的风格信息,首先需要对 各级N个卷积特征进行平均运算,得到与内容原型编码器输出维度相同的各级 特征,再送入混合器Mixer;在风格参考编码器(Encr)中省略归一化处理;

所述混合器Mixer的输入为内容原型编码器(Encp)和风格参考编码器(Encr) 输出的各级特征,该混合器Mixer将对应的第一至六级特征进行混合运算处理 后输入至解码器网络的对应层,其中所述混合运算处理为:对于第四至六级特 征,先对内容原型编码器传递的特征进行归一化处理,再与风格参考编码器传 递特征进行串联;对于第三级特征,先进行串联处理,再经过若干个(L个)包 含归一化处理的深度神经网络单元(Deep NeuralNetworks Blocks,DNN Blocks) 运算;对于第一、二级特征,先对内容原型编码器传递的特征进行归一化处理, 再分别进行L+4,L+2个包含归一化处理的深度神经网络单元运算,舍去风格参 考编码器的传递内容;

所述包含归一化处理的深度神经网络单元DNN Blocks可选用Residual Block或Dense Block两种模式,其中所包含的批归一化处理(Batch Normalization)可替换为其他相应的归一化处理;

对于混合器Mixer,其内容原型编码器Encp所传递特征采用以风格参考编 码器Encr所传递特征为参照的自适应实例归一化Adapted Instance Normalization,AdaIN,其深度神经网络单元DNN Blocks采用改进型自适应实 例归一化Modified AdaptedInstance Normalization,MAdaIN;

所述改进型自适应实例归一化处理MAdaIN包含以下过程:对风格参考编 码器的各级输出进行若干次步长为1的卷积运算,得出与对应级输出的维度相 同的卷积特征,以该卷积特征为参照,对对应的各级串联特征进行自适应实例 归一化Adapted InstanceNormalization,AdaIN;

所述解码器Decoder,Dec,输入为混合器输出的第六级特征,即维度为 1*1*1024的卷积特征,除输入层外,每一级特征向后传递前,与混合器Mixer 传递的对应层特征进行串联操作,该解码器由连续的卷积间隔步幅值为2的反 卷积运算及归一化处理所组成,即后一级特征的长宽是前一级特征的两倍,最 终生成与输入的无风格标准字符长宽一致的具有特定风格的字符;对于解码器 Dec均采用层归一化Layer Normalization,LN;

最终,所述内容原型编码器Encp、风格参考编码器Encr对各自输入数据进 行特征提取,并将网络每层提取的信息通过混合器Mixer运算和部分串联后, 输入解码器网络Dec的对应层,解码器网络对从混合器Mixer输入来的各级卷积 特征进行恢复及重建,输出带有某一种的风格的生成字符 亦表示为同样表示成长宽为64*64,值域 在[0,255]之间的灰度图片;

该生成字符的内容来源于输入到Encp的标准字符风 格来源于输入到Encr的N个带有第i个风格的字符

具体地,基于少量样本的内含多种归一化处理的风格字符生成方法包括以 下步骤:

步骤1、训练开始之前,需要对字符生成模型的参数进行随机初始化,从而 给定训练的开始状态;

步骤2、我们使用随机优化的训练策略来对该字符生成模型进行训练,训练 目标即为最小化字符生成模型的训练误差LG;

步骤3、当LG的值不再继续下降后,停止训练,此时训练所得的模型参数即 称为训练完成的字符生成模型;

步骤4、获取某个书写风格的任意若干个字符(假设为N个,一般N<=32,),并将此N个字依次输入到训练完成的字符生成模型的风格参 考编码器Encr,得出N份各级卷积特征,对应N个不同的同风格字符;

步骤5、对由Encr计算得出的,对应于N个输入的带有同一种书写风格的字 符的N份各级卷积特征进行平均计算或取最大值/最小值运算,得出N份各级卷 积特征对应的一份有代表性的各级卷积体征;

步骤6、向内容原型编码器Encp输入欲生成字符对应的若干个标准字体字 符(假设为K个,),计算出各级卷积特征;

步骤7、将Encr、Encp所提取的各级卷积特征,输入混合器Mixer中进行对 应的混合运算处理;

步骤8、将Mixer运算处理结果传入解码器Dec中,从而生成欲生成的带有 特定风格的任意字符,

上述技术方案中进一步改进的技术方案如下:

上述方案中,所述步骤2具体包括以下步骤:

步骤2-1、我们从训练数据集中随机选取一批训练数据,一批数据的大小一 般设置为16个数据,其中一个数据由一组内容原型相同的字符组成,包括K个 标准字符和带有某一个特定风格的字符的真实样本

步骤2-2、此后,根据所选取的带有某一个特定风格的风格字符随 机从同一个训练数据集中选取另外N个带有同样风格的不同内容原型的字符

步骤2-3、将输入Encp,输入Encr,从而获 取两个编码器各级卷积特征;

步骤2-4、将上一步获得的两个编码器的各级卷积特征根据步骤七、步骤八 所描述的关系送入混合器经过混合运算后再传入解码器,从而生成希望生成的 带有某一个特定书写风格的字符样

步骤2-5、将上一步所生成的字符样本计算以下两个训练误差:

训练中引入“生成对抗网络”的的训练方法,即在训练所要得到的字符生成模 型(G)之外,同时训练另外一个以卷积神经网络为基础的一个判别式模型(D), 该模型的基本功能是用于判断输入模型的数据为真实数据还是生成数据,如果 输入的数据是真实数据,则输出为1;如果输入的数据为生成数据,则输出为零, 当该判别式模型无法有效地区分真实数据和生成数据时,我们可以认为生成数 据已经具有很高的质量,已经无法与真实数据相区分了;生成对抗网络的训练 方法所对应的误差称为对抗损失,本专利中所提出的字符生成网络称为生成对 抗网络中的生成模型(G);

在步骤2-5中,所述训练误差中:

(1)对抗误差Ladv-G、Ladv-D和梯度惩罚Ladv-GP分别为:

其中k′,n′分别为从[1,2,…,K]和[1,2,…,N]随机采样的结果;

(2)辅助分类器误差Lac为用判别式模型(D)所提特征进行分类任务时产 生的分类误差,公式如下:

(3)生成样本与数据库中真实样本的1-范数误差Lpixel为:

(4)深度感知误差用 于衡量生成字符与真实字符在深度特征上的差异,我们使用三个预先训练好的VGG-16网络,这三个VGG-16网络为基于卷积神经网络的深度学习模型,分别 用于区分不同字符,风格和字体;此时,将与分别输入到该网络中,即可得到各自的逐级卷积特征,记为 和则深度特征误差Lφ表示为:

用于衡量生成字符与真实字符深度特征间的均方误差散度和冯诺伊曼散 度,其中当使用字符,风格和字体分类VGG-16网络时,φ分别对应φreal,φstyle和 φcontent,在本专利中,我们选取VGG-16中Φ1-2,Φ2-2,Φ3-3,Φ4-3,Φ5-3五个卷 积特征来计算高级特征误差;

(5)恒定误差和用于衡量生成字符和真实字符在内容原型编 码器Encp、风格参考编码器Encr所提取最终层特征间的误差,其中:

步骤2-6、每一次迭代过程使用交替优化的策略,在每一个迭代过程中,首 先根据最小化LG来优化网络G(字符生成模型),此后,根据最小化LD来优化网 络D,每个迭代过程使用Adams优化方法交替地对G和D网络进行参数更新。

由于上述技术方案的运用,本发明与现有技术相比具有下列优点:

本发明基于少量样本的内含多种归一化处理的风格字符生成方法,其基于 极少量的相同风格的字符样本,生成代用同样风格的其他字符。该方法可以使 用最少一个带有任意印刷体或者手写体风格的字符作为参考样本,生成其他任 意风格的字符,生成的字符的内容由输入的带有标准风格的内容原型决定,而 内容原型的语言种类不限,在生成对抗网络中使用了混合器和归一化处理,以 及提出了全新的损失函数,所以训练速度更快,最终生成的字符与输入的风格 更加接近。

附图1为本发明模型结构示意图;

附图2为本发明基于少两样本的内含多种归一化处理的风格字符生成方法 模型示意图;

附图3为附图2中特征带有归一化处理的混合器示意图;

附图4为附图2中带有AdaIN的混合器示意图;

附图5为由输入的一个带有某种印刷风格的字符所生成的其它带有同种印 刷风格的汉字;

附图6为为由输入的一个带有某种手写风格的字符所生成的其它带有同种 手写风格的汉字;

附图7为由输入的四个带有某种手写风格的字符所生成的其它带有同种手 写风格的汉字;

附图8为由输入的八个带有某种印刷风格的字符所生成的其它带有同种印 刷风格的汉字。

下面结合实施例对本发明作进一步描述:

实施例:一种基于少量样本的内含多种归一化处理的风格字符生成方法, 以若干种风格字符组成风格参考字符数据集,以及多种内容相同的标准字体字 符作为字符内容原型数据源,使用基于深度生成对抗网络的包含混合器和多种 归一化方式的图像翻译模型,训练中使用本专利提出的对抗损失函数,最终可 以训练出一个用于字符风格迁移的内含多种归一化处理的字符生成模型;充分 训练的模型能够通过少量或者甚至一个带有同一风格的字符作为风格参考样 板,生成带有同种书写或印刷风格的任意字符,生成字符的内容则由输入的带 有标准风格的内容原型来决定。

所述字符生成模型由内容原型编码器Content Prototype Encoder(Encp),风格参考编码器Style Reference Encoder(Encr)混合器Mixer和解码器Decoder(Dec) 所组成。其中,在Encp、Mixer和Dec中都引入了不同的归一化处理,该方法 可以提高模型训练中的收敛速度;在模型训练中,引入了新的生成对抗损失函 数,可以让模型最终生成的字符的风格与输入风格更加相似。

所述内容原型编码器Content Prototype Encoder,Encp,输入数据为K个带 有标准风格且内容相同的字符表示成长宽为64*64,值域 在[0,255]之间的K个灰度图片,输出为经过各级卷积特征;该内容原型编码器 由连续的间隔步幅值为2的卷积运算及归一化过程所组成,,用于提取所输入的 标准字符从低级到高级的各级特征,其中,第一级特种为K 个输入字符的融合信息,其维度为32*32*64,之后每级特征较之其上一级特征, 特征长宽减半,厚度翻倍但不超过512,其所得到的标准字符的最高级特征,长 宽均为1。在内容原型编码器(Encp)中采用的归一化方法为实例归一化Instance Normalization,IN。

所述风格参考编码器Style Reference Encoder,Encr,其输入为带有某一种 风格N个不同字符(风格用i来表示),,同样表示成长宽为 64*64,值域在[0,255]之间的N个灰度图片,输出为经过平均运算或最大值/最小 值运算后,对应的各级卷积特征;该风格参考编码器基本结构与Encp相似,但 第一级特征未将N个输入字符的信息融合,其维度为N*32*32*64,因此相较于 内容原型编码器,风格参考编码器中每一层都保留了N个对应级卷积特征,而 之后的信息传递过程中,为了处理一次性输入的多个(N个)带有某种书写风 格字符(假设为第i个风格,)所对应的风格信息,首先需要对 各级N个卷积特征进行平均运算,得到与内容原型编码器输出维度相同的各级 特征,再送入混合器Mixer;在风格参考编码器(Encr)中省略归一化处理。

所述混合器Mixer的输入为内容原型编码器(Encp)和风格参考编码器(Encr) 输出的各级特征,该混合器Mixer将对应的第一至六级特征进行混合运算处理 后输入至解码器网络的对应层,其中所述混合运算处理为:对于第四至六级特 征,先对内容原型编码器传递的特征进行归一化处理,再与风格参考编码器传 递特征进行串联;对于第三级特征,先进行串联处理,再经过若干个(L个)包 含归一化处理的深度神经网络单元(Deep NeuralNetworks Blocks,DNN Blocks) 运算;对于第一、二级特征,先对内容原型编码器传递的特征进行归一化处理, 再分别进行L+4,L+2个包含归一化处理的深度神经网络单元运算,舍去风格参 考编码器的传递内容。

所述包含归一化处理的深度神经网络单元DNN Blocks可选用Residual Block或Dense Block两种模式,其中所包含的批归一化处理(Batch Normalization)可替换为其他相应的归一化处理。

对于混合器Mixer,其内容原型编码器Encp所传递特征采用以风格参考编 码器Encr所传递特征为参照的自适应实例归一化Adapted Instance Normalization,AdaIN,其深度神经网络单元DNN Blocks采用改进型自适应实 例归一化Modified AdaptedInstance Normalization,MAdaIN。

所述改进型自适应实例归一化处理MAdaIN包含以下过程:对风格参考编 码器的各级输出进行若干次步长为1的卷积运算,得出与对应级输出的维度相 同的卷积特征,以该卷积特征为参照,对应的各级串联特征进行自适应实例归 一化Adapted InstanceNormalization,AdaIN,其结构如附图4所示。

所述解码器Decoder,Dec,输入为混合器输出的第六级特征,即维度为 1*1*1024的卷积特征,除输入层外,每一级特征向后传递前,与混合器Mixer 传递的对应层特征进行串联操作,该解码器由连续的卷积间隔步幅值为2的反 卷积运算及归一化处理所组成,即后一级特征的长宽是前一级特征的两倍,最 终生成与输入的无风格标准字符长宽一致的具有特定风格的字符;对于解码器Dec均采用层归一化Layer Normalization,LN。

最终,所述内容原型编码器Encp、风格参考编码器Encr对各自输入数据进 行特征提取,并将网络每层提取的信息通过混合器Mixer运算和部分串联后, 输入解码器网络Dec的对应层,解码器网络对从混合器Mixer输入来的各级卷积 特征进行恢复及重建,输出带有某一种的风格的生成字符 亦表示为同样表示成长宽为64*64,值域 在[0,255]之间的灰度图片;

该生成字符的内容来源于输入到Encp的标准字符风 格来源于输入到Encr的N个带有第i个风格的字符

具体地,基于少量样本的内含多种归一化处理的风格字符生成方法包括以 下步骤:

步骤1、训练开始之前,需要对字符生成模型的参数进行随机初始化,从而 给定训练的开始状态;

步骤2、我们使用随机优化的训练策略来对该字符生成模型进行训练,训练 目标即为最小化字符生成模型的训练误差LG;

步骤3、当LG的值不再继续下降后,停止训练,此时训练所得的模型参数即 称为训练完成的字符生成模型;

步骤4、获取某个书写风格的任意若干个字符(假设为N个,一般N<=32,),并将此N个字依次输入到训练完成的字符生成模型的风格参 考编码器Encr,得出N份各级卷积特征,对应N个不同的同风格字符;

步骤5、对由Encr计算得出的,对应于N个输入的带有同一种书写风格的字 符的N份各级卷积特征进行平均计算或取最大值/最小值运算,得出N份各级卷 积特征对应的一份有代表性的各级卷积体征;

步骤6、向内容原型编码器Encp输入欲生成字符对应的若干个标准字体字 符(假设为K个,),计算出各级卷积特征;

步骤7、将Encr、Encp所提取的各级卷积特征,输入混合器Mixer中进行对 应的混合运算处理;

步骤8、将Mixer运算处理结果传入解码器Dec中,从而生成欲生成的带有特 定风格的任意字符,

所述步骤2具体包括以下步骤:

步骤2-1、我们从训练数据集中随机选取一批训练数据,一批数据的大小一 般设置为16个数据,其中一个数据由一组内容原型相同的字符组成,包括K个 标准字符和带有某一个特定风格的字符的真实样本

步骤2-2、此后,根据所选取的带有某一个特定风格的风格字符随 机从同一个训练数据集中选取另外N个带有同样风格的不同内容原型的字符

步骤2-3、将输入Encp,输入Encr,从而获 取两个编码器各级卷积特征;

步骤2-4、将上一步获得的两个编码器的各级卷积特征根据步骤七、步骤八 所描述的关系送入混合器经过混合运算后再传入解码器,从而生成希望生成的 带有某一个特定书写风格的字符样

步骤2-5、将上一步所生成的字符样本计算以下两个训练误差:

训练中引入“生成对抗网络”的的训练方法,即在训练所要得到的字符生成模 型(G)之外,同时训练另外一个以卷积神经网络为基础的一个判别式模型(D), 该模型的基本功能是用于判断输入模型的数据为真实数据还是生成数据,如果 输入的数据是真实数据,则输出为1;如果输入的数据为生成数据,则输出为零, 当该判别式模型无法有效地区分真实数据和生成数据时,我们可以认为生成数 据已经具有很高的质量,已经无法与真实数据相区分了;生成对抗网络的训练 方法所对应的误差称为对抗损失,本专利中所提出的字符生成网络称为生成对 抗网络中的生成模型(G)。

在步骤2-5中,所述训练误差中:

(1)对抗误差Ladv-G、Ladv-D和梯度惩罚Ladv-GP分别为:

其中k′,n′分别为从[1,2,…,K]和[1,2,…,N]随机采样的结果;

(2)辅助分类器误差Lac为用判别式模型(D)所提特征进行分类任务时产 生的分类误差,公式如下:

(3)生成样本与数据库中真实样本的1-范数误差Lpixel为:

(4)深度感知误差用 于衡量生成字符与真实字符在深度特征上的差异,我们使用三个预先训练好的 VGG-16网络,这三个VGG-16网络为基于卷积神经网络的深度学习模型,分别 用于区分不同字符,风格和字体。此时,将与分别输入到该网络中,即可得到各自的逐级卷积特征,记为 和则深度特征误差Lφ表示为:

用于衡量生成字符与真实字符深度特征间的均方误差散度和冯诺伊曼散 度,其中当使用字符,风格和字体分类VGG-16网络时,φ分别对应φreal,φstyle和 φcontent,在本专利中,我们选取VGG-16中Φ1-2,Φ2-2,Φ3-3,Φ4-3,Φ5-3五个卷 积特征来计算高级特征误差;

(5)恒定误差和用于衡量生成字符和真实字符在内容原型编 码器Encp、风格参考编码器Encr所提取最终层特征间的误差,其中:

步骤2-6、每一次迭代过程使用交替优化的策略,在每一个迭代过程中,首先 根据最小化LG来优化网络G(字符生成模型),此后,根据最小化LD来优化网络 D,每个迭代过程使用Adams优化方法交替地对G和D网络进行参数更新。

附图5~附图8给出一些根据较少样本的带有某种风格(印刷风格或者手写风 格)的标定样本,使用本发明中所提出的字符生成模型所产生的带有同种风格的 其它字符。

上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技 术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范 围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护 范围之内。

本文发布于:2024-09-23 02:20:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/70734.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议