图像处理与数据渲染方法、设备及介质与流程



1.本技术涉及互联网技术领域,尤其涉及一种图像处理与数据渲染方法、设备及介质。


背景技术:



2.随着互联网、电子商务等技术的不断发展,需要处理的图像数据越来越多,尤其是在广告精准投放过程中,为达到千人千面、吸引用户的效果,离不开海量商品广告图像的高品质创意。目前业界主要存在两类商品广告图像的创意制作方式。
3.一类是全人工制作创意:由设计师针对每个具体商品和具体图片特别定制广告创意,这种广告图像的制作方式,成本高,效率低,而且难以大规模推广在不同素材、不同商品甚至不同尺寸的资源位上。
4.一类是自动拼接模板创意:由设计师制作模板,在模板的固定位置上留出商品图、文案等元素的空间,制作广告图像时可以直接获取商品素材并实时拼接到模板上。这种广告图像的制作方式,严重依赖模板,广告布局固定,商品图和模板间融合度较差,导致广告图像的质量较低,例如背景和前景信息耦合度差,缺少自然和谐感等。


技术实现要素:



5.本技术的多个方面提供一种图像处理与数据渲染方法、设备及介质,用以提供一种不依赖模板的图像生成方式,在提高图像生成效率,降低成本的同时,提高图像质量。
6.本技术实施例提供一种图像处理方法,包括:根据包含主体对象的目标素材图生成基底图像,所述目标素材图具有原始尺寸,所述基底图像具有目标尺寸;将所述基底图像输入图像布局模型进行图像布局,以得到所述基底图像的图像布局信息,所述图像布局信息包括所述基底图像上用于承载至少一个待合成元素的至少一个目标区域的位置和类别;将所述基底图像、所述至少一个目标区域的位置和类别以及所述主体对象对应的基础素材信息输入文案生成模型进行文案信息的生成,以得到所述至少一个待合成元素中的文案信息;根据所述基底图像和所述至少一个目标区域的位置和类别,对所述至少一个待合成元素进行视觉属性的估计,得到所述至少一个待合成元素的视觉属性;根据所述至少一个目标区域的位置、类别以及所述至少一个待合成元素的视觉属性,至少将所述至少一个待合成元素中的文案信息渲染至所述基底图像上,以得到目标合成图像。
7.本技术实施例还提供一种图像处理方法,包括:获取包含主体对象的原始图像,所述原始图像具有原始尺寸;将原始图像送入元素检测模型进行图上元素解析,以得到所述原始图像中包含的原始合成元素及其属性信息;根据所述原始合成元素的属性信息对所述原始图像进行修复,以得到不包含所述原始合成元素的修复图像;根据目标尺寸与所述原始尺寸的大小关系,对所述修复图像进行图像重定向处理,以得到具有所述目标尺寸的目标图像。
8.本技术实施例还提供一种数据渲染方法,包括:获取待渲染对象,所述待渲染对象
包括用于承载至少一个待合成元素的至少一个目标区域,所述待渲染对象为图像或页面;根据所述待渲染对象以及所述至少一个目标区域的位置和类别,对所述至少一个待合成元素进行视觉属性的估计,得到所述至少一个待合成元素的视觉属性;根据所述至少一个目标区域的位置、类别以及所述至少一个待合成元素的视觉属性,将所述至少一个待合成元素渲染至所述待渲染对象上。
9.本技术实施例还提供一种计算机设备,包括:存储器和处理器;其中,所述存储器用于存储计算机程序;所述处理器,与所述存储器耦合,用于执行所述计算机程序,以用于实现本技术实施例提供的各种方法中的步骤。
10.本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时,致使所述处理器能够实现本技术实施例提供的各种方法中的步骤。
11.本技术实施例提供一种不依赖于人工设计模板能够自动生成图像的方案,该方案以图片素材为中心,而不是以模板为中心,只需获取目标素材图,以目标素材图为基础,基于机器学习模型经过基底图像、图像布局信息、图上文案信息的生成以及待合成元素的视觉属性预估与渲染,即可得到任意尺寸且质量符合要求的合成图像。其中,在图像布局、图上文案以及视觉属性方面均可自主设计,具有更强的灵活性和自由度,不再受模板上固定位的约束和限制,相比基于模板的创意图像,本技术技术方案在图像布局上能够做到更加灵活和合理,合成元素时可以避开主体,加强主体突出性,提高视觉融合度,增强合成图像的原生感;在文案信息上也更加灵活和更具表现力;在视觉属性上渲染的颜搭配可以更加丰富,使得文案与主体之间主次分明,使得合成图像在视觉和投放效果上均具有优异的表现。另外,由于不再依赖模板,不用受模板数量的限制,可以大量合成图像,且具有较低的实现成本。
附图说明
12.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:图1为本技术示例性实施例提供的一种图像处理方法的流程示意图;图2为本技术示例性实施例提供的创意底图生成的流程示意图;图3为本技术示例性实施例提供的图像上ps元素类别的示意图;图4为本技术示例性实施例提供的可控文字合成模块、合成策略网络以及文字擦除模型的网络架构示意图;图5为本技术示例性实施例提供的域对齐模型的网络架构示意图;图6为本技术示例性实施例提供的自回归结构的transformer网络的架构示意图;图7为本技术示例性实施例提供的几何对齐模块的网络架构示意图;图8为本技术示例性实施例构造的文案图像的正负样本示意图;图9为本技术示例性实施例构造的基于多层transformer的多模态模型的结构示意图;图10为本技术示例性实施例提供的对图像进行切分编码的状态示意图;图11为本技术示例性实施例提供的字体识别模块的训练过程示意图;
图12为本技术示例性实施例提供的视觉属性预估模型的网络架构示意图;图13-图15为本技术示例性实施例提供的针对不同类目的商品生成的任意尺寸的创意广告图像的示意图;图16a为本技术示例性实施例提供的一种图像处理系统的结构示意图;图16b为本技术示例性实施例提供的另一种图像处理方法的结构示意图;图17为本技术示例性实施例提供的一种数据渲染方法的流程示意图;图18a为本技术示例性实施例提供的一种图像处理装置的结构示意图;图18b为本技术示例性实施例提供的另一种图像处理装置的结构示意图;图18c为本技术示例性实施例提供的一种数据渲染装置的结构示意图;图19为本技术示例性实施例提供的一种计算机设备的结构示意图。
具体实施方式
13.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
14.针对现有制作广告图像时存在的依赖模板,受模板数量和制作成本的限制,图像制作成本高,效率低,图像质量差等技术问题,在本技术实施例中,提供一种不依赖于人工设计模板能够自动生成图像的方案,该方案以图片素材为中心,而不是以模板为中心,只需获取目标素材图,以目标素材图为基础,基于机器学习模型经过基底图像、图像布局信息、图上文案信息的生成以及待合成元素的视觉属性估计与渲染,即可得到任意尺寸且质量符合要求的合成图像。
15.其中,由于不再受模板上固定位的约束和限制,在图像尺寸、图像布局、图上文案以及视觉属性方面均可以自主设计,具有更强的灵活性和自由度。相比于基于模板的创意图像,本技术技术方案在图像布局上能够做到更加灵活和合理,合成元素时能够避开主体,加强主体突出性,提高合成元素与主体之间的视觉融合度,增强合成图像的原生感;在文案信息上也更加灵活和更具表现力;在视觉属性上渲染的颜搭配可以更加丰富,使得文案与主体之间主次分明,使得合成图像在视觉和投放效果上均具有优异的表现;在图像尺寸上,对目标素材图和合成图像的尺寸不做限定,可以生成输入任意尺寸的目标素材图,并生成任意尺寸的合成图像。另外,由于本技术技术方案不再依赖模板,不受模板数量的限制,可以大量合成图像,且具有较低实现成本。
16.以下结合附图,详细说明本技术各实施例提供的技术方案。
17.图1为本技术示例性实施例提供的一种图像处理方法的流程示意图。如图1所示,该方法包括:s101、根据包含主体对象的目标素材图生成基底图像,其中,目标素材图具有原始尺寸,基底图像具有目标尺寸;s102、将基底图像输入图像布局模型进行图像布局,以得到基底图像的图像布局信息,图像布局信息包括基底图像上用于承载至少一个待合成元素的至少一个目标区域的位置和类别;
s103、将基底图像、至少一个目标区域的位置和类别以及主体对象对应的基础素材信息输入文案生成模型进行文案信息的生成,以得到至少一个待合成元素中的文案信息;s104、根据基底图像和至少一个目标区域的位置和类别,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视觉属性;s105、根据至少一个目标区域的位置、类别以及至少一个待合成元素的视觉属性,至少将至少一个待合成元素中的文案信息渲染至基底图像上,以得到目标合成图像。
18.在本实施例中,目标素材图是是质量符合生成基底图像的素材图。基底图像是根据目标素材图生成的,是合成创意图像的基础。目标素材图包含主体对象,基底图像与目标素材图具有相同的主体对象,根据图像合成或创意场景的不同,主体对象也会有所不同。图像合成的目的是以主体对象为核心,在基底图像上的合适位置合成一些其它元素,从而得到符合要求的目标合成图像。主体对象的不同,基底图像上合成的元素以及合成元素所在的位置(即布局信息)和可视属性等都会有所不同。举例说明,在创意广告场景中,目标素材图或基底图像中包含的主体对象可以是但不限于:待宣传的各种人物,景点,或者待推广的各种商品,例如车辆、衣服、电子产品、美妆产品、家具、家电等,对此不做限定。
19.在本实施例中,目标素材图具有原始尺寸,基底图像具有目标尺寸,原始尺寸与目标尺寸可以相同,也可以不相同,对此不做限定。本实施例能够根据给定的任意尺寸的目标素材图生成任意尺寸的基底图像,最终得到与基底图像尺寸相同的目标合成图像。在原始尺寸与目标尺寸不相同的情况下,该原始尺寸可以是1:1,目标尺寸可以是16:9、4:3或3:2等;或者,该原始尺寸可以是4:3,目标尺寸可以是1:1、16:9或3:2等。
20.在本实施例中,在得到基底图像之后,可以在基底图像上合成至少一个待合成元素,进而得到符合创意需求的目标合成图像。待合成元素可以称为图像处理(photoshop,ps)元素,ps元素可以包含但不限于以下几种类别:标志元素(logo)、文案元素、衬底元素以及装饰元素等,其中,标志元素可以是商标或徽标,文案元素主要是指与主体对象相关的文字信息,衬底元素是一种将图片或文字充满整个图像的底纹信息,装饰元素可以是图标、几何图形、纹样、符号或线条等。
21.其中,为了在基底图像上合成待合成元素进而得到符合创意需求的目标合成图像,需要解决待合成元素在基底图像上的合成位置问题,以及待合成元素的内容问题,尤其是文案信息,还需要解决待合成元素的视觉属性与渲染问题。下面分别进行说明:为便于描述,将待合成元素在基底图像上的合成位置问题称为基底图像的图像布局信息,即需要得到基底图像的图像布局信息,该图像布局信息包括需要与基底图像合成的至少一个待合成元素的位置信息和类别信息,简单来说,该图像布局信息用于描述在基底图像上的哪个位置适合合成哪种类别的待合成元素。在本实施例中,可以将基底图像输入图像布局模型进行图像布局,以得到基底图像的图像布局信息。其中,图像布局模型是任何能够对基地图像进行图像布局的模型,例如,可以是生成对抗网络(generative adversarial networks,gan)或者自回归变换器(autoregressive transformer)等,对此不做限定。在得到基底图像的图像布局信息之后,就可以根据该图像布局信息的指导,在基地图像上的合适位置合成对应类别的待合成元素,为得到局部合理的目标合成图像提供条件。
22.在此说明,在图像布局信息中,只能体现需要何种类别的待合成元素,即可以得到待合成元素的类别,并不能确定待合成元素的具体内容。在本实施例中,将ps元素划分为以下几种类别,包括但不限于:标志元素、文案元素、衬底元素以及装饰元素等。待合成元素可以包括其中一种或多种类别,具体视图像布局信息中确定的类别而定。进一步,考虑到待合成元素将来需要位于基底图像上的一定区域内,这些区域的位置也就是待合成元素将来需要合成的位置,因此,为了便于对图像布局信息进行描述,将基底图像上需要合成待合成元素的区域称为目标区域,目标区域也就是基底图像上用来承载待合成元素的图像区域,并将基底图像上需要合成待合成元素的位置用目标区域的位置和大小来体现,即图像布局信息包括基底图像上用于承载至少一个待合成元素的至少一个目标区域的位置和类别;同理,目标区域的类别表示该目标区域需要承载的待合成元素的类别。例如,目标区域可以通过边界框(bounding box,bbox)来表示,边界框是一个矩形框,矩形框可以由矩形左上角的点坐标以及右下角的点坐标表示,或者也可以由其中心坐标(xc, yc)和宽高(w, h)表示。
23.在本实施例中,待合成元素可能包含多种类别,通常会包含文案元素,而logo元素、衬底元素以及装饰元素均为可选元素,待合成元素中可以包括这些可选元素,也可以不包括这些可选元素,对此不做限定。如果待合成元素包含logo元素、衬底元素或装饰元素,这些元素的实现方式相对简单或是确定的,例如logo元素通常是确定的,衬底元素也比较简单,而且这些元素可以直接来自于主体对象的基础素材信息中。然而,文案信息具有灵活多样化的特点,所以待合成元素的内容问题主要是指用于与基底图像进行合成的文案信息的生成问题。基于此,在本实施例中,在得到图像布局信息之后,可以综合考虑基底图像的各种信息(如主体对象、主体对象的位置和背景),图像布局信息中限定的目标区域的位置和类别,以及主体对象对应的基础素材信息,生成至少一个待合成元素中的文案信息。其中,主体对象对应的基础素材信息可以包括主体对象的描述信息,例如,主体对象的名称以及各种属性信息等文本信息,进一步还可以包括:主体对象关联的标志信息、衬底信息以及装饰元素,进一步还可以包括主体对象的图像等。具体地,可以将基底图像、图像布局信息中至少一个目标区域的位置和类别,以及主体对象对应的基础素材信息输入文案生成模型进行文案信息的生成,以得到至少一个待合成元素中的文案信息。其中,目标区域的类别可以提供至少一个待合成元素中是否包含文案信息以及包含多少个文案信息,目标区域的位置可提供文案信息在基底图像上的位置,根据该位置可以获取基底图像中该位置周边的相关元素,综合周围相关元素的信息进行文案信息的生成,可以提高文案信息与基底图像的适配度和融合度。进一步,根据主体对象的基础素材信息,可以提高文案信息与主体对象的适配度,便于对主体对象进行准确描述和表达。
24.在本实施例中,在获取图像布局信息和至少一个待合成元素中的文案信息之后,还需要解决待合成元素的视觉属性与渲染问题。待合成元素的视觉属性主要解决待合成元素与基底图像上已有元素,尤其是与主体对象之间在视觉上的适配问题,让彼此之间的颜搭配协调,丰富,主次分明,从而得到在视觉上能够吸引用户的目标合成图像。其中,待合成元素的视觉属性会因待合成元素的类别的不同而有所不同。如果待合成元素是文案信息,则视觉属性主要是指与文案信息相关的视觉属性,例如,可以是文案信息涉及的字体属性、颜属性、字号大小等,进一步还包含用于承载该文案信息的目标区域的视觉属性,例如,目标区域对应的边界框的颜属性、形状属性或线条属性等,例如线条是否渐变,是
否描边,如果描边,描边的颜等。又例如,如果待合成元素是衬底信息,则视觉属性可以是与衬底信息相关的视觉属性,例如,衬底的颜属性、形状属性、衬底颜是否渐变等。其中,可以根据基底图像中的视觉特征信息和至少一个目标区域的位置和类别,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视觉属性。其中,对至少一个待合成元素进行视觉属性的估计,首先需要考虑基底图像中已有的视觉特征信息,结合待合成元素在基底图像中的位置,待合成元素的视觉属性需要尽量与已有视觉特征信息协调,另外需要考虑待合成元素的类别,使用与该类别适配的视觉属性。
25.在本实施例中,在得到至少一个待合成元素中的文案信息,至少一个目标区域的位置和类别以及至少一个待合成元素的视觉属性之后,可以根据至少一个目标区域的位置、类别以及至少一个待合成元素的视觉属性,至少将至少一个待合成元素中的文案信息渲染至基底图像上,以得到目标合成图像。在此说明,在至少一个待合成元素中同时包含其它类别的元素时,也需要按照其它元素的视觉属性以及在基底图像上的位置同时将其它元素渲染至基底图像上。
26.在本实施例中,上述图像处理方法中的步骤s101-s105,按照流程的先后顺序可以分别概括为:创意底图生成、创意布局生成、图上文案生成、元素视觉属性估计与渲染。下面针对不同的步骤进行详细说明。
27.步骤s101:创意底图生成其中,如图2所示,步骤s101可以包括四个步骤t101-t104,该四个步骤分别概括为:图像过滤、图上元素解析、图像修复以及图像重定向,步骤t102-t104可以概括为基底图像生成的过程。下面分别进行详细介绍。
28.步骤t101:图像过滤在本技术实施例中,根据图像合成场景的不同,可能存在多张原始素材图,在需要基于电商平台上的商品图像合成一张创意广告图像的场景中,考虑到电商品台上包含同一商品的商品图像可能存在多张。而且,这些原始素材图的图像内容复杂多样,噪声较大,难以直接作为目标素材图使用。例如,原始素材图中可能包含纯文字说明的图像、主体对象的细节图或者多图拼接得到的拼接图像等,这些原始素材图中的主体对象并不突出,很难根据这些原始素材图生成一张主体对象突出、尺寸合适、且视觉美观的高品质的基底图像,因此需要在根据包含主体对象的目标素材图生成基底图像之前,从至少一张原始素材图中选择目标素材图。
29.具体地,可以获取包含主体对象的至少一张原始素材图;将至少一张原始素材图输入图像质量分类模型进行质量分类,以得到每张原始素材图的质量类别,其中,至少一张原始素材图中可能包含不同质量类别的图像,质量类别可以通过图像的分辨率、调、亮度、饱和度、畸变、尺寸,以及图像中包含的文字、图像的组成方式(如,图像是否由小图拼接得到)等进行划分;根据每张原始素材图的质量类别,从中选择图像质量适合作为基底图像的原始素材图,作为目标素材图,其中,目标素材图可以是一张或多张,每一张素材图都可以生成一张基底图像,每张基底图像最终可以得到对应的目标合成图像。
30.例如,至少一张原始素材图可以包含多种质量类别,适合作为基底图像的原始素材图可以是一种或多种质量类别,对此不做限定。例如,根据图像质量,将至少一张原始素材图分为两类,质量类别a1是图像质量适合作为基底图像的原始素材图,主要包括分辨率
高于设定分辨率阈值、文字少于设定的文字数量阈值以及非小图拼接得到的图像;质量类别a2是图像质量不适合作为基底图像的原始素材图,主要包括分辨率低于设定分辨率阈值的图像(简称为低分辨率的图像),文字多于或等于设定的文字数量阈值的图像(简称为包含文字信息较多的图像),以及由小图拼接得到的图像。其中,可以从至少一张原始素材图中获取属于质量类别a1中的原始素材图作为目标素材图。
31.其中,图像质量分类模型可以是任何能够对原始素材图像进行分类的模型,例如,可以是深度残差网络(deep residual network,resnet),进一步可以是resnet-50模型,resnet后面的数字50表示该模型包含50个二维卷积层(conv2d)。
32.下面提供一种图像质量分类模型的模型架构的示例,该图像质量分类模型包括:预处理模块和4个卷积模块构成。其中,原始素材图首先被送入图像质量分类模型中的预处理模块,该预处理模块包括一个卷积层res1和一个池化层,该卷积层和池化层分别会使原始素材图的尺寸缩小两倍,例如,原始大小为3*800*1216的原始素材图经过预处理模块之后,会变成64*200*304,其中,3*800*1216和64*200*304中的三个参数,分别表示图像的通道数(channel)、图像的宽度(width)和图像的高度(height)。其中,4个卷积模块分别命名为:res2、res3、res4以及res5,每个卷积模块均由瓶颈层(bottleneck)组成,res2包含3个bottleneck,剩下的3个卷积模块分别包括:4个、6个以及3个bottleneck。其中,卷积模块res2、res3以及res4用于进行卷积和池化操作,卷积模块res5用于进行分类操作,在本实施例中,将卷积模块res5输出的类别设置为两类,即两个质量类别a1和a2。
33.下面对图像质量分类模型的训练和推理原理进行示例性说明:预先收集多张原始素材图,并对至少一张原始素材图进行质量标注,分为两类训练样本,将质量类别a1的原始素材图作为图像质量适合作为基底图像的正样本,将质量类别a2的原始素材图作为图像质量不适合作为基底图像的负样本;基于预先标注的这两类训练样本进行图像质量分类模型的训练,在模型训练过程中,根据图像质量分类模型输出的图像分类结果,统计模型分类结果的准确度,将该准确度作为模型训练的损失函数,根据该损失函数不断调整图像质量分类模型的模型参数,直至得到能够准确地将图像按照质量分为两种类型的图像质量分类模型。
34.在模型推理过程中,将至少一张原始素材图输入图像质量分类模型,得到每张原始素材图的质量分类结果,即每张原始素材图的质量类别,根据每张原始素材图的质量类别,可以从中选择质量类别a1中的原始素材图作为目标素材图,用来生成基底图像。需要说明的是,模型推理过程中的原始素材图与模型训练过程中的原始素材图是不同的,两者之间可以存在交叉,但并不完全相同。通常,模型训练过程中的原始素材图是作为训练样本的,其数量要大很多。
35.在得到目标素材图之后,可以执行步骤t102-t104,实现基底图像生成。其中,基底图像的生成具体包括:t102图上元素解析:将目标素材图送入元素检测模型进行图上元素解析,以得到目标素材图中包含的原始合成元素及其属性信息;t103图像修复:根据原始合成元素的属性信息对目标素材图进行修复,以得到不包含原始合成元素的修复素材图;t104图像重定向:根据目标尺寸与原始尺寸的大小关系,对修复素材图进行图像
重定向处理,以得到具有目标尺寸的基底图像。
36.步骤t102图上元素解析:其中,目标素材图中也会包含各种合成元素(即ps元素),目标素材图中的合成元素可以称为原始合成元素,图上元素解析主要分析目标素材图中的有无原始合成元素,以及在目标素材图中包含原始合成元素的情况下对原始合成元素的属性信息进行分析。原始合成元素是ps元素,ps元素包括但不限于:文案元素、logo元素、装饰元素和衬底元素,关于ps元素的描述可参见前述,在此不再赘述。在图3中,以两张图像,对本技术实施例提供的ps元素的类别进行了图示,但并不限于此。其中,原始合成元素的属性信息可以包含但不限于:原始合成元素的类别(例如是文案,还是logo,或者是衬底)、原始合成元素在目标素材图中的位置信息以及原始合成元素的尺寸信息等。需要说明的是,原始合成元素是需要从目标素材图中擦除的元素,待合成元素是需要添加至基底图像中的元素,从作用来看,原始合成素材与待合成元素并不相同,但两者都属于ps元素。具体地,可以将目标素材图送入元素检测模型进行图上元素解析,以得到目标素材图中包含的原始合成元素及其属性信息。
37.其中,元素检测模型可以是任何能够对目标素材图进行图上元素解析的模型,可选地,元素检测模型包括:特征提取层、基于自注意力机制的元素识别层以及属性标注层。其中,特征提取层主要用于对目标素材图进行特征提取,特征提取层可以是任何能够进行对目标素材图进行特征提取的网络层,例如,resnet或视觉几何图形组(visual geometry group,vgg)等;基于注意力机制的元素识别层主要用于从特征提取层所提取的特征图中识别目标素材图中包含的原始合成元素对应的特征图。为了便于描述和区分,将特征提取层从目标素材图中提取的特征图称为第一特征图,将从第一特征图中提取的原始合成元素对应的特征图称为第二特征图。其中,元素识别层可以是多重注意力机制统一物体检测头(unifying object detection heads with attentions,dynamic head)模型;基于自注意力机制的元素识别层可以从三个维度对原始合成元素进行识别,分别为:尺度感知(scale-awareness)维度:在特征层级(level)维度通过注意力机制执行尺度感知,对目标素材图中不同尺度的元素进行识别,不同特征层级对应不同的尺度,可以增强元素解析的尺度感知能力;空间感知(spatial-awareness)维度:在空间(spatial)维度通过注意力机制执行空间感知,对原始素材图中的同一类别的元素的形状或朝向等进行识别,不同的空间位置对应了目标的几何变换,可以增强目标检测器的空间位置感知能力;任务感知(task-awareness)维度:在输出通道(channel)维度通过注意力机制执行任务感知,对目标素材图中不同表示方式(如边框等)的元素进行识别,不同的通道对应了不同的任务,可以增强目标检测对不同任务的感知能力。其中,属性标注层主要用于对元素识别层识别到的原始合成元素进行属性信息标注,属性标注层可以是任何能够对属性信息进行标注的网络层。
38.在使用元素检测模型之前,需要预先训练元素检测模型。其中,元素检测模型的训练过程包括:为了训练元素检测模型(也可以简称为检测器),获取大量包含ps元素的已有图像作为样本图像,例如在电商领域中可以大约获取13万张不同尺寸的广告主创意图,将这些广告主创意图作为样本图像;然后,对样本图像中的ps元素进行标注,例如,可以标注出样本图像中是否包含ps元素并在包含ps元素的情况下标注出所包含的ps元素,例如标志元素、文字元素、装饰元素和/或衬底元素,然后利用这些样本图像及其标注结果对初始的dynamic head模型进行模型训练,在模型训练过程中,可以得到dynamic head模型给出的
各个样本图像是否包含ps元素以及在包含ps元素情况下ps元素的属性信息,并将识别到是否包含ps元素以及包含ps元素情况下的ps元素的属性信息与对样本图像的标注结果进行比较,得到dynamic head模型的损失函数,在该损失函数不满足模型收敛条件的情况下,不断调整dynamic head模型的模型参数,直至损失函数满足模型收敛条件为止,得到能够准确识别出图像中包含的ps元素的元素检测模型。
39.在训练得到元素检测模型之后,可以使用该元素检测模型对目标素材图像进行图上元素解析。其中,元素检测模型的模型推理过程包括:将目标素材图送入元素检测模型中的特征提取层进行特征提取,得到目标素材图对应的第一特征图,例如,第一特征图可以实现为特征图(feature map),第一特征图中可以包含一个或多个原始合成元素对应的特征信息,第一特征图可以理解为整体特征图;将第一特征图送入元素检测模型中基于自注意力机制的元素识别层进行合成元素的识别,以得到目标素材图中包含的原始合成元素对应的第二特征图,第二特征图可以理解为局部特征图;将第二特征图送入元素检测模型中的属性标注层进行属性标注,以得到原始合成元素的位置、大小和类别等属性信息。例如,根据第二特征图在第一特征图中的位置,确定该第二特征图对应的原始合成元素在目标素材图中的位置,根据第二特征图在第一特征图中的大小(即尺寸),确定第二特征图对应的原始合成元素的大小;根据第二特征图中的特征信息,可以确定第二特征图对应的原始合成元素的类别。其中,不同合成元素对应的特征信息是不同的,如,若第二特征图中包含的是第一特征信息,则可以确定该第二特征图对应的原始合成元素为文字元素;若第二特征图中包含的是第二特征信息,则可以确定该第二特征图对应的原始合成元素为标志元素;若第二特征图中包含的是第三特征信息,则可以确定该第二特征图对应的原始合成元素为衬底元素;若第二特征图中包含的是第四特征信息,则可以确定该第二特征图对应的原始合成元素为装饰元素。
40.在本实施例中,在通过元素检测模型可以得到目标素材图中是否包含原始合成元素,以及在包含原始合成元素的情况下所包含的原始合成元素的属性信息。对于目标素材图中包含原始合成元素的情况,需要执行步骤t103进行图像修复,之后再执行步骤t104进行图像重定向;对于目标素材图中不包含原始合成元素的情况,可以跳过步骤t103而直接执行步骤t104,即进行图像重定向。
41.步骤t103图像修复:在本实施例中,在目标素材图中包含原始合成元素的情况下,为了基于该目标素材图得到一张主体对象突出、尺寸合适、且视觉美观的高品质的基底图像,需要对目标素材图进行修复。在目标素材图中包含原始合成元素的情况下,之所以要对目标素材图进行修复,是因为这些原始合成元素被截断、变形都将严重影响图像的视觉效果,这会增加步骤t104中图像重定向的难度,进而限制后续创意生成图像布局和文案信息以及元素视觉属性估计和渲染等步骤的发挥空间。
42.其中,修复主要是指将目标素材图中包含的原始合成元素擦除,并对目标素材图中因为擦除操作引起的缺失或损坏区域进行修复,使得整个图像在视觉、语义上连贯。换句话说,对目标素材图进行图像修复的过程可以理解为对目标素材图中的原始合成元素所在区域进行重建的过程。原始合成元素具有属性信息,可以根据原始合成元素的属性信息,对目标素材图进行修复,以得到不包含原始合成元素的修复素材图。例如,可以根据原始合成
元素在目标素材图中的位置信息和尺寸信息,确定目标素材图中需要进行修复的区域,然后针对该区域进行修复。
43.可选地,一种根据原始合成元素的属性信息对目标素材图进行修复,以得到不包含原始合成元素的修复素材图的实施方式,包括:将目标素材图和原始合成元素的属性信息输入图像修复模型,在该模型内部,利用原始合成元素的属性信息对目标素材图进行修复,从而输出不再包含原始合成元素的修复素材图。在本实施例中,并不限定图像修复模型的模型架构。示例性,图像修复模型的一种模型架构包括掩码处理网络和图像修复网络。
44.其中,掩码处理网络主要用于对目标素材图中的原始合成元素进行掩码处理,例如,对目标素材图上的原始合成元素和其它元素进行黑白化处理,如将原始合成元素的像素值设置为0,在将目标素材图上其它元素的像素值设置为255,或者,将原始合成元素的像素值设置为255,将其它元素的像素值设置为0,使得原始合成元素呈现出明显的黑白效果,得到黑白掩码图;然后,再将黑白掩码图与目标素材图进行合成,得到掩码素材图,该掩码素材图中保留了目标素材图中除原始合成元素之外的其它元素,原始合成元素的区域被擦除,称为待修复区域。具体地,可以将目标素材图和原始合成元素的属性信息输入图像修复模型中的掩码处理网络,根据原始合成元素的属性信息对目标素材图进行掩码处理,得到掩码素材图,掩码素材图中包括对原始合成元素进行掩码处理得到的待修复区域;将掩码素材图输入图像修复模型中的图像修复网络,根据待修复区域周边区域的像素值,对待修复区域进行修复,以得到不包含原始合成元素的修复素材图。
45.其中,图像修复网络主要用于根据待修复区域周边区域的像素值,对待修复区域进行修复。其中,根据待修复区域周边区域的像素值,对待修复区域进行修复并不是简单的像素复制或直接填充,而是根据周边元素的像素值重新生成待修复区域内的像素值,实现语义上的连贯性。具体地,在图像修复网络中,可以通过下采样层对掩码素材图进行下采样以得到关键特征图,经过至少一个快速傅里叶卷积ffc残差块对关键特征图进行至少一次快速傅里叶卷积得到卷积特征图,通过上采样层对卷积特征图进行上采样,以得到修复素材图。其中,使用快速傅立叶卷积,具有图像宽接收域,高感受野感知损失,关键特征图中包括掩码素材图中的全局关键特征和局部关键特征,全局关键特征保留掩码素材图中的全局视觉信息,局部关键特征体现掩码素材图中更细粒度的视觉信息;并在每一次快速傅里叶卷积时,将与空间域中的卷积一起处理局部特征,并在频域中使用傅里叶卷积来分析全局特征,从而修复出高分辨、高质量的修复素材图。其中,具有上述模型架构的图像修复模型可以采用大型掩码图像修复(large mask inpainting,lama)模型,但并不限于此。
46.在此说明,上述图像修复模型可以对目标素材图中包含的各种原始合成元素进行修复,即无论是原始合成元素是文案信息,还是logo元素或者是衬底元素,都可以采用上述图像修复模型进行修复。除此之外,本技术实施例还提供一种文字擦除模型,专用用户对目标素材图中包含的文案信息进行擦除,实现文案信息的修复。
47.其中,可以单独使用上述图像修复模型,或者,在目标素材图中仅包含文案类别的原始合成元素时,也可以单独使用文字擦除模型。当然,在目标素材图中同时包含各种类别的原始合成元素时,也可以结合使用图像修复模型和文字擦除模型。例如,可以先行使用文字擦除模型对目标素材图中包含的文案信息进行擦除,然后再使用图像修复模型对目标素材图中包含的logo元素、衬底元素或装饰元素等原始合成元素进行修复处理。或者,也可以
先行使用图像修复模型对目标素材图中包含的logo元素、衬底元素或装饰元素等原始合成元素进行修复处理,然后在使用文字擦除模型对目标素材图中包含的文案信息进行擦除。
48.在本实施例中,文字擦除模型可以将目标素材图中包含的文案信息擦除,并根据目标素材图上其它区域的信息对擦除文案信息的区域进行背景内容的补充,以得到擦除文案信息后的目标素材图。在本实施例中,对文字擦除模型的模型架构不做限定,凡是能够将目标素材图中包含的文案信息擦除,并根据目标素材图上其它区域的信息对擦除文案信息的区域进行背景内容的补充的模型架构均适用于本技术实施例。示例性,本技术实施例的文字擦除模型可以基于生成对抗网络实现。
49.在使用文字擦除模型之前,需要通过模型训练的过程得到文字擦除模型。在本技术实施例中,考虑到如果采用有监督的模型训练方式训练文字擦除模型需要大量标注样本,即需要不包含文案信息的原始图像和在原始图像上添加文案信息后得到的图像,然而在实际应用中,很难拿到不包含文案信息的原始图像,能够获取到的图像大多是包含各式各样文案信息的图像,这无疑增加了有监督模型训练的难度。出于该考虑,在本技术实施例提供一种文字擦除的自监督学习方法。该方法主要是利用自监督学习对标签数据低依赖度的特性,构建可控的文字合成模块(用于合成训练样本)、端到端的文字擦除模型(用于擦除文案信息)以及合成策略网络(实现从擦除到合成的精细化反馈通路),组成质量和精度可持续改进的闭环系统。如图4所示,该系统包括由可控文字合成模块、合成策略网络(policy network)以及文字擦除模型(text erasing moudle)。其中,可控文字合成模块用于合成训练文字擦除模型所需的图像样本数据,合成策略网络用于向可控文字合成模块提供在图像上合成文字所需的合成规则(简称为图片合成文案规则),并根据文字擦除模型在模型训练过程中擦除文案信息后的图像不断更新图片合成文案规则,提高图片合成文案规则的精度,进而提高可控文字合成模块合成的用于模型训练的样本图像的质量。
50.如图4所示,可控文字合成模块主要包括合成函数(synthesis function),该函数主要用于在已包含文案信息的图像的基础上,按照图片合成文案规则,进一步在该已包含文案信息的图像上合成新的文案信息,从而得到包含更多文案信息的图像,将这两个图像形成标注的训练样本。为了便于区分和描述,由于本实施例的图像都包含文案信息,故将本实施例中的图像称为文案图像,并将包含原始文案信息的文案图像称为原始文案图像,将在原始文案图像上添加新的文案信息的图像称为目标文案图像;并将在原始文案图像上新添加的文案信息称为目标文案信息。基于此,合成函数的输入是原始文案图像i,该原始文案图像中包含原始文案信息,例如“突然宣布降价”,该原始文案图像是无标注的图像,例如包括但不限于电商平台上的商品图像,广告图像等。合成函数的输出是新增目标文案信息后的目标文案图像i
syn
,目标文案图像i
syn
是用来训练文字擦除模型所需的样本图像。该合成函数合成训练用的样本图像的原理是:给定图片合成文案规则s,该函数可提取输入的原始文案图像中的原始文案信息,根据图片合成文案规则s,基于原始文案信息生成目标文案信息,之后采用文字渲染代码库或者采用复制的方式等将目标文案信息合成原始文案图像中的非文字区域,以得到用于模型训练的目标文案图像(即样本图像)。其中,目标文案图像i
syn
也可以称为合成图像(synthetic image)。
51.在得到目标文案图像的基础上,可以将上述目标文案图像i
syn
和原始文案图像i作为训练样本进行模型训练,并在模型训练的损失函数满足要求为止,得到文字擦除模型。其
中,文字擦除模型的输入是目标文案图像和对应的原始文案图像,其输出是擦除目标文案图像中的目标文案信息后的输出图像i
pred
;示例性的,本实施例的文字擦除模型采用采用生成对抗网络(gan)作为其主要网络结构,因此,该文字擦除模型分为生成器和判别器两部分。在图4中,示出了文字擦除模型中的生成器,未对判别器进行图示。其中,生成器会对输入的目标文案图像i
syn
进行处理,通过多层卷积网络擦除目标文案图像i
syn
上的目标文案信息,并根据周围区域的信息在擦除区域补充相应的背景内容,从而得到文字擦除模型最终的输出图像i
pred
。其中,文字擦除模型的输出图像i
pred
会输入到判别器中,判别器则会判断生成器的输出图像i
pred
和无标注的原始文案图像i之间的真实性,从而构建监督信号,根据该监督信号不断指导生成器工作,直至生成器最终的输出图像i
pred
非常接近原始文案图像i,判别器几乎区分不出的程度,至此模型训练结束。
52.如图4所示,文字擦除模型中的生成器包括两部分,即用于初始擦除文案信息的粗略模型(coarse model)和用于二次擦除文案信息的精细模型(refinement model),通过这两个模型,文案信息的擦除被分为两个阶段,这两个阶段的目标都是对文案信息进行擦除以得到擦除文案信息的图像。其中,在模型训练过程中,coarse model的输入是目标文案图像i
syn
,其输出是初步擦除文案信息后得到的第一输出图像ic(即coarse output);refinement model的输入是第一输出图像ic,其输出是二次擦除文案信息后得到的第二输出图像ir(即refinement output);其中,第二输出图像ir与目标文案信息对应的黑白掩码图(即m
syn
)进行合成,可以得到整个生成器最终的输出图像i
pred
(即composite output)。其中,通过对目标文案图像i
syn
中的目标文案信息进行掩码处理,具体地,将目标文案信息的像素值设置为255,将其它区域中的像素值的设置为0,可得到黑白掩码图m
syn
,该黑白掩码图m
syn
也可以称为是合成文本掩码图(synthetic text mask)。在模型推理过程中,coarse model的输入是目标素材图,其输出是初步擦除文案信息后得到的目标素材图;refinement model的输入是coarse model输出的初步擦除文案信息后的目标素材图,其输出是二次擦除文案信息后得到的目标素材图,即为整个生成器的输出结果。
53.在本实施例中,模型训练的监督损失分为两个部分:生成对抗损失l
adv
(adversarial loss)和三元擦除损失l
te
(triplet loss)。其中,生成对抗损失是指判别器的损失函数,其可以采用但不限于以下公式表示:,其中d表示判别器网络,g表示文字擦除模型,表示生成对抗损失l
adv
,z表示可控文字合成模块合成的目标文案图像i
syn
,表示对判别器网络对原始文案图像真假的打分,表示对判别器网络对生成器输出的图像i
pred
真假的打分。左边部分,即的作用是保证判别器的基础判断能力,右边部分,即的作用是保证判别器能够区分出虚假样本。是取对数的运算符号,是求期望值的运算符号,表示图片i的数据分布,i~是从该数据分布中采样图片。
54.其中,三元擦除损失l
te
是指:生成器在两个阶段的第一输出图像ic、第二输出图像
ir以及原始文案图像i之间的损失,其可以采用但不限于以下公式表示:,其中,detach是去除梯度回传的操作,阻止这部分网络参数的更新,γ是权重系数,γ越大擦除网络第二阶段的作用越重要。‖‖是一种对矩阵对应位置上的元素的差值求绝对值后再将所有绝对值数值求和的运算符号。以为例,将第二输出图像ir与原始文案图像i之间各位置上的元素计算差值,对所有差值分别求绝对值,然后将所有绝对值求和,得到最终数值结果。
55.在模型训练过程中,当三元擦除损失函数和生成对抗损失函数均满足收敛要求时,模型训练结束,得到最终的文字擦除模型。需要说明的是,三元擦除损失函数和生成对抗损失函数可以分别收敛,也可以对三元擦除损失函数和生成对抗损失函数进行融合,得到融合损失函数,当融合损失函数满足收敛要求时,模型训练结束,得到最终的文字擦除模型。
56.如图4所示,合成策略网络负责向可控文字合成模块提供图片合成文字规则,其输入是目标文案图像i
syn
和文字擦除模型的输出图像i
pred
;其输出是图片合成文案规则s;示例性,合成策略网络采用lstm作为其主要网络结构,它会依次输出需要在图片上合成的文案信息的属性信息,如需要在图片上合成的文案信息的文字颜、字体、字号以及是否需要斜体等。这些属性信息(如图4中的e1、e2、e3)可以形成图片合成文案规则s,并提供给可控文字合成模块进行样本图像的合成工作。如图4所示,该lstm网络主要包括归一化指数函数层(softmax layer)、隐藏层(hidden layer)和嵌入层(embedding layer);其中,原始文案图像i送入隐藏层进行特征提取(feature extraction),从而将原始文案图像抽象到另一个维度空间,来展现其更抽象化的特征;之后,抽象化的特征被送入softmax层中进行映射分类处理,经分类处理的特征被送入嵌入层进行嵌入式编码,得到对应的嵌入式向量,这些嵌入式向量表示需要在图片上合成的文案信息的属性信息。
57.进一步,如图4所示,目标文案图像i
syn
的质量反馈r
real
和文字擦除模型的输出图像i
pred
的质量反馈r
diff
还可以作为合成策略网络的输入,合成策略网络可以根据目标文案图像i
syn
的质量反馈r
real
和文字擦除模型的输出图像i
pred
的质量反馈r
diff
来不断优化其输出的图片合成文案规则s。其中,如图4所示,目标文案图像i
syn
的质量反映目标文案图像i
syn
的真实性,可以由判别器对特征图g(i
syn
)进行多次上采样后与预测文本掩码图m
pred,
进行相加得到,文字擦除模型的输出图像i
pred
的质量反馈r
diff
可以通过输出图像i
pred
与原始文案图像i的距离获得。其中,特征图g(i
syn
) 是coarse model对目标文案图像i
syn
进行多次下采样处理得到的;预测文本掩码图m
pred,
是对通过对目标文案图像i
syn
中的目标文案信息进行掩码处理,具体地,将目标文案信息的像素值设置为0,将其它区域中的像素值的设置为255,可得到预测文本掩码图m
pred,

58.由此可见,在本技术实施例中,首先对包含原始文案信息的原始文案图像(例如可以是已有的广告创意图)进行收集,然后由一个可控文字合成模块进行合成处理,在原始文案风格的指示下自动化地合成对文字擦除模型进行模型训练所需的样本图像(这里合成的样本图像也就是上文中的目标文案图像)。在得到合成的样本图像之后,文字擦除模型充分学习对于合成的样本图像的擦除能力,并有效泛化到真实场景下;在这部分中,引入三元擦
除(triplet erasure)损失与生成对抗损失等一起优化模型,能够提高模型质量。再者,为减小合成的样本图像与真实样本图像的差距,引入了一个合成策略网络,根据文字擦除模型对合成的样本图像的反馈决定合成样本图像所需的文本样式,指导合成策略网络持续改进,输出更高质量的图片合成文案规则,进而提高基于该规则合成的样本图像的质量,缩小合成的样本图像与真实样本图像的差距,进一步提高模型训练的精度。
59.t104图像重定向:在本实施例中,目标素材图的原始尺寸可能不满足最终需要的目标合成图像的尺寸要求,例如以电商领域中基于商品图像生成广告图像为例,90%以上的商品图像都是尺寸为1:1的方图,而需要生成的广告图像的尺寸很多都不是方图,需要根据页面上广告位的尺寸要求而定,而且,这些广告图像的尺寸与方图的尺寸比例差异较大,因此需要通过图像重定向得到尺寸符合要求的广告图像。基于此,在得到修复素材图之后,可以根据目标尺寸与原始尺寸的大小关系,对修复素材图进行图像重定向处理,以得到具有目标尺寸的基底图像。具体地,可以根据目标尺寸与原始尺寸的大小关系,以修复素材图为基础确定待裁剪图像,待裁剪图像为修复素材图或修复素材图的延展图像;将待裁剪图像输入基于图像重要度的显著性裁剪模型,根据待裁剪图像的显著性特征锁定主体对象所在的图像区域,按照目标尺寸以主体对象所在的图像区域为中心对待裁剪图像进行裁剪,得到具有目标尺寸的基底图像。
60.其中,在目标尺寸小于或等于原始尺寸的情况下,可以直接将修复素材图作为待裁剪图像;在目标尺寸大于原始尺寸的情况下,需要对修复素材图进行延展(outpainting),延展到不小于目标尺寸的程度,然后将延展图像作为待裁剪图像。其中,可以采用图像延展模型对修复素材图进行延展,具体地,将修复素材图和目标尺寸输入图像延展模型,按照目标尺寸对修复素材图进行图像延展,得到延展图像,并将延展图像作为待裁剪图像。
61.在本技术实施例中,并不限定图像延展模型的模型架构,凡是能够对图像进行尺寸延展且能够保证延展后的图像具有较好的语义连贯性的模型架构均适用于本技术实施例。示例性,一种图像延展模型的架构包括:预处理网络和具有图像延展功能的生成对抗网络。预处理网络用于确定针对修复素材图的延展方向和延展长度;生成对抗网络用于按照预处理网络确定的延展方向和延展长度,对修复素材图进行基于语义连贯性的延展处理,得到延展图像。基于此,采用图像延展模型对修复素材图进行延展的过程包括:将修复素材图和目标尺寸输入图像延展模型中的预处理网络,在该预处理网络中,根据目标尺寸的宽高比,确定延展方向和延展长度,其中,修复素材图包括延展方向上的已知图像区域,延展长度用于限定延展方向上的未知图像区域,具体限定未知图像区域的长度。其中,延展方向是一个图像方向,例如可以是高度方向或长度方向;进一步,在确定延展方向上的延展长度后,结合另一个图像方向的长度或高度,可以确定未知图像区域的范围。接着,将修复素材图、延展方向和延展长度输入图像延展模型中的生成对抗网络,基于延展方向上已知图像区域中的像素值及其语义信息,以语义连续性为约束条件对延展方向上未知图像区域内的像素值进行生成对抗,以得到延展图像。具体地,在使用具有图像延展功能的生成对抗网络只玩,还需要训练具有图像延展功能的生成对抗网络,在训练过程中,针对待延展的样本图像,生成器用于为待延展的样本图像中的未知图像区域生成像素值,判别器用于根据待延
展的样本图像对应的原始样本图像对生成器生成的像素值进行语义连贯性的判别,直至生成器能够生成语义连贯的像素值为止。
62.经过上述一系列处理之后,可以得到主体对象突出、尺寸合适、且视觉美观的高品质的基底图像。在得到基底图像之后,可以执行步骤s102进行创意布局的生成。接下来对步骤s102:创意布局生成进行详细描述。
63.步骤s102:创意布局生成在该步骤中,需要根据基底图像的内容,生成目标合成图像所需的图像布局信息。在本实施例中,图像布局信息可定义为是对不定长的待合成元素的集合{e1 , e2 , ..., en }中每个待合成元素的类别和位置进行描述的信息,其中,n是大于等于2的整数。不同基底图像对应的待合成元素的数量是不同的。其中,待合成元素的类别与基底图像生成中的图上元素解析中的定义一致,待合成元素的类别有logo、文案、衬底、装饰这四类,但并不限于此。待合成元素的位置信息则由承载每个待合成元素的目标区域的中心坐标(xc, yc)和宽高(w, h)表示,但不限于此。
64.在本技术实施例中,可以采用图像布局模型对基底图像进行图像布局处理以得到基底图像对应的图像布局信息。关于图像布局模型的模型架构不做限定,凡是能够实现图像布局信息生成的模型架构均适用于本技术实施例。可选地,图像布局模型可以采用但不限于:融合多尺度cnn(卷积神经网络)和transformer的g络,或者基于自回归的transformer(autoregressive transformer)网络。其中,transformer是由编码器(encoder)和解码器(decoder)两个部分组成的网络结构,简称为编码器-解码器结构。下面分别对这两种网络进行详细说明。
65.1、融合多尺度cnn和transformer的g络其中,根据基底图像的内容生成创意布局,需解决两个核心问题:一个是如何获取模型训练所需的成对样本数据,成对样本数据包括样本布局图像和对应的样本布局信息;一个是模型推理时如何在生成图像布局信息过程中充分利用基底图像的内容信息。
66.针对第一个问题,如图5所示,本技术实施例创新地提出了一个域对齐模型,该模型用于基于已有的包含合成元素及其布局信息的原始布局图像(例如广告主创意图像)生成模型训练所需的成对样本数据,即用作训练样本的目标布局图像及其对应的目标布局信息。其中,原始布局图像是指已经存在的包含合成元素以及合成元素形成的布局信息的图像,目标布局图像是指可作为图像布局模型的训练样本的图像,目标布局图像不包含合成元素及其对应的布局信息;目标布局信息是指与目标布局图像对应的布局信息,相当于是目标布局图像的标签信息。具体地,可以收集原始布局图像,然后将原始布局图像输入域对齐模型,在该模型中,对原始布局图像中合成元素的位置和类别进行提取,以得到目标布局信息;接着利用掩码单元(如图5中带圈的m)对原始布局图像中的合成元素进行掩码处理,从而将合成元素从原始布局图像中擦除,以得到掩码布局图像,具体地,如图5所示,可以利用初始掩码图与原始布局图像进行掩码处理,得到掩码布局图像;接着,利用修复单元(即图5中的inpnet单元)对掩码布局图像中的掩码区域进行修复得到目标布局图像,最后利用视觉提取单元(即图5中的salnet单元)提取目标布局图像的视觉特征图。其中,掩码布局图像中的掩码区域是指对合成元素进行掩码处理得到的结果,该掩码区域的像素值为0或255,其它区域的像素值为原始布局图像中的真实像素值;相应地,在初始掩码图中,除合成
元素之外的其它区域的像素值为0或255(在图5中以像素值取0为例进行图示),合成元素对应的区域的像素值为合成元素的真实像素值。对掩码区域进行修复,可以是根据周围区域内的像素值对掩码区域进行像素填充,从而得到视觉和语义连贯的目标布局图像。关于对掩码区域进行修复的具体方式可参见前述图像修复步骤中的具体修复方式,在此不再赘述。
67.在本实施例中,通过提供域对齐模型,由域对齐模型基于包含合成元素及其布局信息的原始布局图像生成模型训练所需的成对样本数据,即目标布局图像及其对应的目标布局信息,而不用依赖设计师根据图像进行布局信息的设计,可以降低获取模型训练所需成对数据的样成本,而且由域对齐模型所获取的成对数据也比丰富,不会因为设计师数量较少而陷入固有模式。
68.在得到能够作为训练样本的目标布局信息和目标布局图像及其视觉特征图之后,可以将目标布局信息、目标布局图像及其视觉特征图作为训练样本进行图像布局模型的训练,直至模型收敛或者符合模型训练的结束条件,得到图像布局模型。
69.对于第二个问题,在本技术实施例中将多尺度cnn和transformer相结合,提出了一个内容感知的布局(composition-aware layout)生成g络,即图像布局模型。该g络充分利用多尺度cnn和transformer的优点,不仅可以有效学习地学习元素间的对齐、交叠等关系,而且还能建模元素与图像内容位置、背景颜、纹理分布之间的关系。此外,该网络还支持添加用户约束,可对用户布局进行合理补全,满足实际应用中部分场景有固定布局设计规则的需求。
70.具体地,如图5所示,该融合了多尺度cnn和transformer的g络包括:生成器和判别器,且生成器和判别器的结构均依次包括多尺度cnn网络、编码器-解码器以及全连接层(fc),采用内容感知(composition-aware)技术进行布局信息的生成。其中,多尺度cnn网络用于使用不同尺寸的卷积核提取输入图像在不同尺度上的特征信息,最后将不同尺度上的特征信息进行拼接得到拼接特征图。进一步,多尺度cnn网络具体是通过多个卷积块(convblock)对输入图像进行多次下采样处理,得到多尺度特征图。其中,多尺度cnn网络输出的多尺度特征图进行拼接后作为生成器中的编码器的输入,该编码器负责对输入的拼接特征图进行编码处理得到生成图像布局信息所需的编码信息矩阵,并将编码信息矩阵输出至生成器中的解码器,由解码器负责根据编码信息矩阵进行图像布局信息的生成,最终解码器输出的是一个不定长的信息序列,该信息序列中包含用于承载至少一个待合成元素的至少一个目标区域(例如bbox)的位置、类别和大小,即图像布局信息。在模型推理过程中,该g络中的生成器主要发挥作用;在模型训练过程中,生成器负责为目标布局图像生成预测布局信息,判别器负责对生成器生成的预测布局信息进行对抗训练。具体地,判别器中的编码器的输入是目标布局图像,解码器的输入是两个分支,一个是生成器中的解码器的输出的信息序列(即预测布局信息)和判别器中的编码器输出的目标布局图像的编码信息矩阵,将两个分支的信息进行融合得到融合图像,然后判断两个分支的融合图像是否不违和,是否无法判断是合成的,直至符合模型收敛要求,此时模型训练结束。进而,在采用该gan模型为基底图像生成图像布局信息的过程中,g络中的生成器中的解码器输出的信息序列即为基底图像生成的图像布局信息。
71.在此说明,如图5所示,域对齐模型除了在模型训练阶段发挥作用,负责提供模型
训练所需的成对样本数据(即目标布局图像和目标布局信息)之外,在模型推理过程中,也会被使用到。在模型推理过程中,作为模型输入的基底图像,首先进入域对齐模型,该基底图像不带有任何合成元素,所以不需要对该基底图像进行掩码和修复处理,只需经过域对齐模型中的视觉提取单元(即图5中的salnet单元)进行视觉特征图的提取即可,将基底图像及其视觉特征图输入多尺度cnn网络进行多尺度特征图的提取,多尺度特征图经拼接后送入g络中的生成器进行图像布局信息的生成。
72.基于上述,步骤s102:创意布局生成的一种详细实施方式包括:将基底图像输入域对齐模型进行视觉特征图的提取,以得到基底图像的视觉特征图;将基底图像及其视觉特征图输入图像布局模型中的多尺度cnn网络进行多尺度特征图的提取,并将提取到的多尺度特征图进行拼接以得到的拼接特征图;将拼接特征图送入图像布局模型中采用编码器-解码器结构的生成对抗网络进行图像布局信息的生成,以得到基底图像的图像布局信息。进一步,将拼接特征图送入图像布局模型中采用编码器-解码器结构的生成对抗网络进行图像布局信息的生成,以得到基底图像的图像布局信息,包括:将拼接特征图送入g络的生成器中的编码器中,对拼接特征图进行编码,得到中间图像特征(也可以称为编码信息矩阵);将中间图像特征输入至生成器中的解码器中,对中间图像特征进行解码,得到初始布局信息,初始布局信息包括至少一个显示区域的位置;将初始布局信息送入生成器中的全连接层,对至少一个显示区域进行类别标注,以得到基底图像的图像布局信息。
73.2、autoregressive transformer网络与上述将多尺度cnn和transformer相结合的g络类似,autoregressive transformer网络其目的也是对图像中合成元素的位置和图像中主体对象的位置进行建模。为了能够实现多样性布局的生成,本实施例的网络结构采用transformer与vae相结合的网络结构,如图6所示,该网络结构包括视觉骨干(visual backbone)网络和transformer网络,transformer网络包括编码器和解码器。在本实施例中,visual backbone网络可以采用但不限于vit(vision transformer)网络。在图6中,虚线所示部分为使用图6所示网络结构进行图像布局的推理过程;实线所示部分与虚线所示部分相结合为对图6所示网络结构进行模型训练,以得到最终用于图像布局信息生成的网络结构的过程。
74.在基于图6所示的网络结构针对基底图像进行图像布局时,一方面将基底图像经过视觉骨干(visual backbone)网络进行特征提取得到基底图像的内容嵌入式(embedding)向量,该内容嵌入式向量包括基底图像对应的视觉特征向量和位置编码向量;另一方面根据在模型训练过程中学习到的bbox对应的隐空间向量z的分布信息随机采样隐空间向量z,接着,将随机采样的隐空间向量z和基底图像的内容嵌入式向量一起输入transformer网络中的解码器进行解码处理,在解码器中经过多次自回归过程之后,得到bbox序列,该bbox序列中包含每个bbox的位置、大小和类别,每个bbox即为基底图像上需要承载待合成元素的一个目标区域,这些bbox的位置、大小和类别最终形成基底图像的图像布局信息。其中,隐空间向量z是在模型训练过程中学习到的对bbox的特征表达。可选地,可以采用但不限于基于kl散度的采样方法对隐空间向量z进行采样。其中,对每个目标区域来说,其类别和位置都是根据该目标区域之前已经预测出的目标区域的类别和位置预测出的;对于首个目标区域,会输入一个特定字符,用于标记需要生成第一个目标区域,特定字符可以是但不限于bos,同时也用于表示输出信息序列(在模型推理过程中,该信息序列即
为图像布局信息)的开始。自回归过程是指隐空间向量z作为解码器的首个输入,预测出第一个bbox;之后,将隐空间向量z与第一个bbox对应的嵌入式向量拼接后作为新的解码器输入,继续预测第二个bbox;之后,将隐空间向量z与第一个bbox、第二个bbox对应的嵌入式向量拼接后作为新的解码器输入,继续预测第三个bbox,以此类推,直至得到整个bbox序列。
75.在模型训练过程中,先获取样本图像并预先标注好样本bbox,这些样本bbox具有位置和类别等属性信息;接着如图6所示的实线和虚线所示部分,将样本图像先经过视觉骨干(visual backbone)网络得到样本图像的内容嵌入式(embedding)向量,该内容嵌入式向量包括样本图像的视觉特征向量和位置编码向量;然后该内容嵌入式向量连同预先标注好的当前样本bbox y的嵌入式向量一并被送入transformer网络中,通过transformer的编码器进行编码处理得到当前样本bbox y对应的编码向量,融合所有样本bbox对应的编码向量经过注意力平均池化层(attention average pooling,aap)进行有注意力的加权平均处理得到隐空间向量z并学习到隐空间向量z的均值和方差(即分布信息);接着,通过学习到的隐空间向量z的分布信息进行随机采样,随机采样到的隐空间向量z连同样本图像的内容嵌入式(embedding)向量一并送入transformer的解码器进行解码处理,在解码器中每经过一次自回归过程就预测出一个bbox的类别和位置。然后,根据每次预测出的bbox的类别和位置,以及对应样本bbox的类别和位置进行散度损失(kl loss)的计算,直至散度损失符合要求时结束模型训练过程,得到最终图6所示的用于图像布局信息生成的网络结构。其中,对非首个预测出的bbox来说,其类别和位置都是根据该bbox之前已经预测出的bbox的类别和位置预测出的,即解码器每次自回归过程的输入都是隐空间向量z与之前预测出的所有bbox对应的嵌入式向量的拼接结果。为了便于区分,在模型训练过程中,解码器的输出结果是样本图像上预测bbox的位置和类别,在模型推理过程中,解码器的输出结果是基底图像上目标区域的位置和类别。
76.在此说明,本技术实施例中之所以采用autoregressive transformer网络结构有如下几个考虑:首先,autoregressive相比non-autoregressive(非自回归结构)的表达力更强,即在给定前n个目标区域或boox的类别和位置的条件下,预测第n+1个目标区域或bbox的位置,通过合理地安排目标区域或boox的顺序,可以让网络以一定次序依次输出不同目标区域或boox的位置和类别。同时,也可以天然地支持在给定输入目标区域或boox的类别和位置情况下预测剩余目标区域或boox的位置和类别的任务。
77.其次,采用vae结构和散度损失(kl loss)可有效地约束隐空间为高斯分布。在模型推理(inference)时,随机采样的隐空间向量z都可以得到一个不错的布局框,即隐空间向量z是连续且稠密的。
78.进一步,在模型训练或推理过程中,为了充分利用样本图像或基底图像中主体对象的位置信息,本技术实施例还创造性地提出了一种几何对齐(geometry alignment)模块,其结构如图7所示的左侧下半部分。该几何对齐模块主要作用是在模型训练或推理过程中,对样本图像或基底图像进行位置编码的增强处理。具体地,该几何对齐模块用于将输入图像(在模型训练过程中,该输入图像是样本图像,在模型推理过程中,该输入图像是基底图像)分为多个图像块(patch),每个patch具有位置和长宽等几何参数,本技术实施例对patch的大小不做限定,例如,一个patch的大小可以是但不限于16x16;接着,根据每个
patch的几何参数对每个patch进行嵌入式编码得到每个patch的嵌入式向量,所有patch的嵌入式向量形成一个用于位置编码增强的位置编码序列,该位置编码序列作为transformer网络中编码器的一路输入被送入transformer网络中,以实现对输入图像中主体对象的位置增强,在图像布局过程中充分考虑主体对象的位置,避免bbox对主体对象的遮挡。
79.基于上述,一种融合几何对齐模块的网络结构如图7所示。在图7所示的网络结构中,左侧上部分表示视觉骨干网及其输出,左侧下部分表示几何对齐模块及其输入,右侧是transformer中的编码器结构,需要说明的是编码器和解码器的结构是相同的,两者的区别仅在于输入不同,在图7中以编码器及其输入为例进行图示。由于编码器只在模型训练过程中使用,所以下面结合图7对融合域对齐模块的模型训练过程进行详细说明。如图7所示,在模型训练过程中,transformer网络中编码器的输入包括三路,一路是由视觉骨干网络对输入图像进行内容编码得到的内容嵌入式向量(包括视觉特征向量和位置编码向量),另一路是由域对齐模块对输入图像切分patch并对每个patch进行嵌入式编码得到的位置编码序列,再一路是预先标注的样本bbox的位置、类别和长宽等属性信息进行嵌入式编码得到的嵌入式向量。进一步,如图7所示,在编码器中,一方面在自我注意力层(self attention)中采用自我注意力机制对样本bbox的嵌入式向量进行相关处理,以学习不同样本bbox之间的位置关系;自我注意力层的输出被送入归一化层(add&norm)进行归一化处理后,送入跨越注意力层(cross attention),在跨越注意力层中对输入图像的内容嵌入式向量、位置编码序列以及归一化层的输出结果进行相关处理,实现对图像视觉、主体对象的位置以及有样本bbox三者的融合,得到融合特征向量;将该融合特征向量输入归一化层(add&norm)进行归一化处理后,接着依次经过全连接层(ffn)和归一化层(add&norm)后得到隐空间向量z。进一步,在模型训练过程中,输入图像的内容嵌入式向量、域对齐模块输出的位置编码序列以及隐空间向量z被送入解码器中进行解码处理;在编码器中,隐空间向量z或者隐空间向量z和已预测出的bbox对应嵌入式向量的拼接结果作为自我注意力层的输入,同样采用自我注意力层学习已预测出的不同bbox之间的位置关系;进而,在跨越注意力层中对输入图像的内容嵌入式向量、位置编码序列以及自我注意力层学习到的已预测出的不同bbox之间的位置关系的归一化结果进行相关处理,实现对图像视觉、主体对象的位置以及已预测出的bbox三者的融合,进而基于这些融合特征向量预测下一个bbox的类别和位置。
80.相应地,在模型推理过程中,在解码器中,随机采样的隐空间向量z或者随机采样的隐空间向量z和已预测出的目标区域对应嵌入式向量的拼接结果作为自我注意力层的输入,同样采用自我注意力层学习已预测出的不同目标区域之间的位置关系;进而,在跨越注意力层中对基底图像的内容嵌入式向量、位置编码序列以及自我注意力层学习到的已预测出的不同目标区域之间的位置关系的归一化结果进行相关处理,实现对图像视觉、主体对象的位置以及已预测出的目标区域三者的融合,进而基于这些融合特征向量预测下一个目标区域的类别和位置。
81.无论是编码器中还是解码器中,无论是模型训练过程还是模型推理过程,在自我注意力层和跨越注意力层中,可以将其中一个信息作为q,即查询词(query),然后将其它信息作为键值对(key-value,kv),通过匹配键值对的方式实现相关计算。
82.在本技术实施例中,transformer中的解码器中采用跨越注意力机制,并将视觉骨
干网络(如vit网络)得到的视觉嵌入(embedding)向量显式地用位置坐标来进行建模,这样使得输入transformer的内容embedding向量和主体对象的位置向量解耦,并分别与输入图像的内容embedding向量中的视觉特征与位置编码做内积,得到各自的相似度矩阵,从而算出最终的相似度矩阵。这一结构使得输出的目标区域的位置能够有效感知输入图像中主体对象的位置,在保持自身位置关系的同时能够避开主体对象,降低对主体对象的遮挡。
83.基于上述,步骤s102:创意布局生成的另一种详细实施方式包括:将基底图像输入图像布局模型中的视觉骨干网络进行视觉特征提取,得到基底图像的内容嵌入式向量,该内容嵌入式向量包括基底图像的视觉特征向量和位置编码向量;并将基底图像输入域对齐模块,将基底图像划分为多个图像分块并对多个图像块进行位置编码,得到位置编码序列;将内容嵌入式向量和位置编码序列输入图像布局模型中的解码器;在解码器中,采用跨越注意力机制和自我注意力机制对内容嵌入式向量和位置编码序列进行自回归解码处理,得到基底图像的图像布局信息。需要说明的是,输入解码器的还包括随机采样的隐空间向量z。
84.经过上述一系列处理之后,可以得到基底图像的图像布局信息。在得到基底图像及其图像布局信息之后,可以执行步骤s103进行图上文案生成。接下来对步骤s103:图上文案生成进行详细描述。
85.步骤s103:图上文案生成在本实施例中,在得到基底图像及其图像布局信息之后,可采用多模态文案生成方式,为基底图像上用于承载文案信息的目标区域(可以将用于承载文案信息的目标区域简称为文本框)生成恰当的文案信息。所述多模态文案生成是指综合考虑基底图像本身信息(如主体对象的信息、主体对象在基底图像上的位置和背景等)、主体对象对应的基础素材信息(例如主体对象对应的各种文本描述信息、表格、视频信息、音频信息)、各个目标区域的位置和类别,以及多个目标区域之间的相互逻辑关系等多模态的信息,自适应地为基底图像上用于承载文案信息的目标区域生成对应的文案信息。具体来说,图上文案生成的详细实施方式包括:根据基底图像以及主体对象对应的基础素材信息,生成主体对象的多模态描述信息,每一种模态描述信息记录有主体对象的部分描述信息; 将主体对象的多模态描述信息以及至少一个目标区域的位置和类别输入图上文案生成模型进行文案信息的生成,以得到每个文案类别的目标区域需要承载的文案信息。其中,文案类别的目标区域是指需要承载文案信息的目标区域,每个目标区域的类别用于确定该目标区域是否是文案类别的目标区域。
86.其中,主体对象的多模态描述信息包括但不限于:从基底图像中获取的主体对象的属性信息、主体对象在基底图像上的位置和背景等,以及从主体对象对应的基础素材信息中获取的主体对象对应的各种文本描述信息、表格、视频信息、音频信息等。例如,以主体对象为商品,文本描述信息可以记录商品的标题、商品的相关信息(品牌、风格、货号、适用季节、销售渠道等)等文本信息;表格可以记录商品本身的属性信息(例如商品参数信息,包括但不限于:材质、颜、成分、尺寸等);视频信息例如为包含商品的视频;音频信息例如为商品的介绍音频。本实施例中,由于多模态描述信息中每一种模态描述信息记录有主体对象的部分描述信息,实现了对主体对象的语义表征。
87.在得到主体对象的多模态描述信息之后,进一步结合至少一个目标区域的位置和
类别,利用图上文案生成模型进行文案信息的生成。在本实施例中,利用图上文案生成模型生成文案信息时,为了提高文案信息的生成质量和合理性,进行了以下几个方面的考虑:1、考虑到某些文案信息可能适合多个目标区域,如果只是独立为每个目标区域分别生成文案信息,对于位置相近的多个目标区域可能会为这些目标区域生成相似的文案信息,造成文案信息的重复。于是,在本实施例的图上文案生成模型中,综合考虑目标区域之间的相互逻辑关系,即对于每个目标区域,在为该目标区域生成文案信息时,同时考虑该目标区域以及与其相邻的其它目标区域(简称为上下文信息)的相关信息(例如上一目标区域已有的文案信息、下一目标区域的类别等),从而解决容易生成重复文案的问题。
88.具体地,可以根据各目标区域的位置或中心点的位置,计算各个目标区域之间的空间距离,根据各目标区域之间的空间距离,将全部目标区域进行排序;根据该排序结果可以确定每个目标区域前后相邻最近的邻居区域;进而,对于当前的目标区域,可以将其前后相邻最近的其它目标区域的位置作为上下文的位置编码信息,与当前目标区域的位置编码信息一并送入图上文案生成模型进行文案信息的生成。
89.2、考虑到用于承载文案信息的目标区域除了具有位置之外,还具有一定大小,所以在本实施例的图上文案生成模型中,同时考虑目标区域的位置和大小,并据此控制文案信息的内容、类型及字数,以做到文案信息与目标区域之间的高度适配。也就是说,在本实施例的图上文案生成模型中,通过增加匹配任务对基底图像、目标区域(即bbox)以及文案信息进行匹配,从而提升基底图像-目标区域(即bbox)-文案信息之间的强依赖关系。
90.相应地,在模型训练过程中,可以从三方面去训练匹配任务:a)文案合理性:判断训练过程中的样本图像与样本文案信息是否匹配;b)风格适配性:判断训练过程中的样本区域与样本文案信息是否匹配;c)文案多样性:判断训练过程中的相近的样本区域与样本文案信息是否匹配。其中,样本区域是指训练过程中样本图像上用于承载文案信息的区域,也可以通过一个边界框(bbox)进行表示。在模型训练过程中,需要构建正负样本,一种正负样本的构造情况如图8所示。在图8所示的正负样本中,分别包括图像-文案匹配正负样本、位置-文案匹配正负样本,以及临近位置-文案匹配正负样本,在图8中,上面带有“√”的为正样本,下面带
“×”
的为负样本。在图像-文案匹配正负样本中,正样本中的文案信息为“清爽补水 舒缓调理”,负样本中的文案信息为“7层过滤 活泉水”。在位置-文案匹配正负样本中,正样本中的文案信息“清爽补水 舒缓调理”在商品图像上方靠近商品图像的位置,在负样本中,该文案信息在图像的底部区域。在临近位置-文案匹配正负样本中,正样本中的文案信息“一扫油光 清透立现”中的“一扫油光”位于“清透立现”上方,且文案上下行之间的间距相对较近;而在负样本中“一扫油光”位于“清透立现”下方,且文案上下行之间的间距相对较远。
91.3、考虑到不同类别的主体对象对文案描述风格的要求有明显的区别,为了避免出现将一种文案描述风格给到与其不适合的主体对象,简称为“张冠李戴”的情况。在本实施例中,可以同时增加了主体对象的类别作为多模态描述信息中的一种,辅助图上文案生成模型针对不同类别的主体对象生成与之适配的文案风格,与此同时,上述匹配任务在将文案信息与目标区域匹配的过程中也能在一定程度上缓解文品不对应的问题。例如,以主体对象是商品为例,主体对象的类别信息可以是商品的类目信息。
92.在本技术实施例中,并不限定图上文案生成模型的模型架构,凡是具有上文提到
的功能且能够为目标区域生成文案信息的模型架构均适用于本技术实施例。示例性,本技术实施例提供一种基于多层transformer的多模态模型结构,该模型架构如图9所示。在图9所示的模型架构中,支持将基底图像、当前目标区域的位置、当前目标区域前后相邻最近的其它目标区域的位置(即上一目标区域的位置、下一目标区域的位置)、主体对象的类别(如商品的类目)、主体对象的名称、主体对象的属性对以及预测文本标志等多模态描述信息作为模型输入,分别对这些多模态描述信息进行嵌入式(embedding)编码得到对应的嵌入式向量后,将这些嵌入式向量输入基于多层transformer的多模态模型中,通过自回归的方式生成当前目标区域对应的文案信息。如图9所示,针对主体对象的类别(如商品的类目)、主体对象的名称、主体对象的属性,以及预测文案标志等,可以进行单词嵌入(word embedding)、位置嵌入(postional embedding)、模式嵌入(model embedding)等进行嵌入式编码,得到对应的嵌入式向量;相应地,针对当前目标区域的位置、上一目标区域的位置以及下一目标区域的位置,可以进行空间嵌入(spatial embedding)以及线性化(linear)处理,得到对应的空间嵌入式向量;相应地,针对基底图像,可以进行视觉嵌入(visual embedding)和空间嵌入(spatial embedding),得到对应的嵌入式向量,即视觉嵌入式向量和空间嵌入式向量。其中,embedding是指用一个低维的向量表示对应的对象,所述对象可以是上文中的基底图像、当前目标区域的位置、上一目标区域的位置、下一目标区域的位置、主体对象的类别、主体对象的名称、主体对象的属性对以及预测文本标志等。
93.进一步,在上述对目标区域的位置进行嵌入式编码时,为了提高编码效率和便利性,可以对目标区域的位置坐标进行离散化处理,如图9所示,分别对目标区域对应的x坐标和y坐标进行嵌入式编码,每个目标区域通过坐标(x1,y1,x2,y2)进行表示,(x1,y1)表示目标区域的左上角的坐标,(x2,y2)表示目标区域的右下角的坐标。进一步,为了方便对基底图像进行嵌入式编码,在本技术实施例中,将整张基底图像从横纵两个方向切分为固定数量的图像分块(patch),将目标区域所在的patch的横纵坐标作为目标区域的位置坐标。如图10所示,首先,通过掩码(mask)操作对基底图像上的文案信息进行掩码处理,以得到带有掩码区域的基底图像;接着,采用cnn网络对带有基底图像进行分割,从而将整张基底图像从横纵两个方向上切分为5x5个patch,其中,一个目标区域占据第1行第2-4列以及第2行第2-4列,则可以将第1行第2列和第2行第4列两个patch的位置坐标作为该目标区域的坐标,即(x1,y1,x2,y2)=(1,2,2,4),然后根据位置坐标(1,2,2,4)分别对该目标区域的x坐标和y坐标进行空间编码(spatial embedding)。需要说明的是,在图10中仅以将整张基底图像切分为5x5个patch为例进行图示,patc的数量并不限于此。在对基底图像进行嵌入式编码时,可以采用残差网络,例如resnet-50模型,但不限于此。
94.经过上述一系列处理之后,可以得到需要与基底图像合成的文案信息。在得到基底图像、基底图像的图像布局信息以及需要与基底图像合成的文案信息之后,可以执行步骤s104进行元素视觉属性估计与渲染。接下来对步骤s104:元素视觉属性估计与渲染进行详细描述。
95.步骤s104:元素视觉属性估计与渲染在本实施例中,在得到基底图像、基底图像的图像布局信息以及对应的文案信息后,可以预测包含文案信息在内的各个待合成元素对应的视觉属性,并根据该视觉属性将待合成元素渲染至基底图像上对应的目标区域内,从而得到目标合成图像。在本技术实施
例中,预先训练一个视觉属性预估模型,利用视觉属性预估模型对待合成元素进行视觉属性的估计。
96.其中,训练视觉属性预估模型需要训练样本,在本实施例中,提供一种视觉属性识别模块,并利用该视觉属性识别模块自动生成用于对视觉属性预估模型进行模型训练所需的训练样本。其中,对视觉属性预估模型进行模型训练所需的训练样本需要是带有合成元素以及视觉属性信息的样本图像,且样本图像上的视觉属性信息需要带有标签(label),例如样本图像中带有“文案区域的位置、是否描边、是否渐变”等标签数据。
97.在实际应用中,有些样本图像上的视觉属性信息是易于人工标注的,但对于一些视觉属性信息,例如具体的颜rgb值、文案的字体等是难以通过肉眼准确判断出来的,因此很难通过人工方式进行标注。本实施例的视觉属性识别模块可以解决样本图像中视觉属性信息的标注问题,尤其用于解决视觉属性信息中字体和颜的属性的标注问题。在本实施例中,视觉属性识别模块至少包括用于进行字体识别的字体识别模块和用于进行颜识别的颜识别模块。
98.其中,字体识别模块可以采用神经网络模型实现,则在使用字体识别模块之前,需要先进行模型训练得到字体识别模型。关于字体识别模块的训练过程如图11所示,首先,统计大量(例如8万)张真实图像(例如广告创意图)上的文案信息的分布情况,例如包括但不限于:文案信息的高度、字数频率、文字出现频率等;然后,根据对文案信息的统计结果,将文案信息与无文案的图像进行合成得到合成图像,并基于该合成图像对字体识别模块进行文字识别功能的训练。进一步,为了减小合成图像和真实图像在颜空间上的分布差异,本实施例中将真实图像和合成图像统一进行灰度化处理,降低文案信息在颜空间上的分布差异,重点突出文案的字体信息。最后,将训练得到的字体识别模块用于预测上文中用于训练视觉属性预估模型的样本图像中的文案字体。
99.在本实施例中,并不限定字体识别模块的模型架构,例如可以采用resnet-50作为主要模型架构,但不限于此。另外,在本实施例中,在对字体识别模块进行训练过程中,可以采用但不限于下述三种方法来提高字体识别的准确率。
100.方式1:为了防止图像缩放时字体边缘模糊的问题,在模型训练过程中,对于输入的合成图像不进行缩放处理,也不进行剪裁处理,而是将作为输入的合成图像直接padding(填充)到同一大小;方式2:为缓解模型在合成图像上存在过拟合的问题,用全卷积网络(fully convolutional network,fcn)替换resnet-50最后的全连接层,用于分类;其中,fcn采用卷积神经网络实现了从图像像素到像素类别的变换,具体地,通过转置卷积(transposed convolution)层将中间层特征图的高和宽变换回输入的合成图像的尺寸,从而令预测结果与输入的合成图像在空间维(高和宽)上一一对应:给定空间维上的位置,通道维的输出即该位置对应像素的类别预测;方式3:使用标签平滑(label smoothing)方法进一步改进字体识别的效果,即用字体迁移模型中预先训练好的编码器(encoder)对字体进行嵌入式(embedding)编码,得到字体的嵌入式像两个;利用字体的嵌入式(embedding)向量计算字体间的相似度,经过softmax模块后,代替原one-hot标签用于计算分类损失。
101.其中,颜识别模块主要用于对文案信息的rgb值进行标注,解决文案信息的rgb
值难以人工标注的问题。在本实施例中,颜识别模块主要采用图形处理的方式识别颜并标注。即对于给定的图上文案以及位置,先用字体分割模型(rethinking text segmentation)得到文案区域,再提取相应颜。进一步,考虑到像素提取误差、多渐变、描边等因素会对主要颜的提取进行干扰,因此在得到文案区域后,可以将文案区域的像素点的rgb颜值转换到lab空间,对文案区域的像素点的颜值在lab空间进行聚类并取数量最多类别的聚类中心作为文案颜。其中,lab空间中的“l”代表亮度,“a”代表相,“b”代表饱和度。
102.在本实施例中,利用视觉属性识别模块中的字体识别模块和颜识别模块,对样本图像中文案区域的字体和颜信息进行标注,进一步,结合人工标注的一些视觉属性信息,得到大量带有视觉属性信息标签数据的样本图像。其中,被标注的视觉属性信息包括但不限于:字体颜、字体、衬底颜、渐变、描边;其中,文案区域中的每个文字或衬底元素都有相应的视觉属性标签数据。然后,利用这些带有视觉属性信息标签数据的样本图像进行模型训练,得到视觉属性预估模型。由于颜、字体等视觉属性存在类别长尾分布,因此,在本技术实施例中,采用focalloss作为模型训练的损失函数,并对视觉属性信息的标签数据(label)进行软编码(soft encoding)。
103.在得到视觉属性预估模型之后,可以将基底图像和至少一个目标区域的位置和类别输入视觉属性预估模型,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视觉属性。
104.进一步可选地,为了减少复杂背景对于颜预估的影响,在本技术实施例中,在进行元素视觉属性的估计之前,可以先行对基底图像进行量化,得到量化后的基底图像。具体地,对基底图像进行量化的方式包括:将基底图像从rgb空间转换到lab空间,在lab空间中对基底图像中的像素点进行聚类,得到多个聚类组;将每个聚类组中各个像素点重新赋值为对应聚类中心的像素值,以得到重新赋值后的基底图像;将重新赋值后的基底图像从lab空间重新转换到rgb空间,得到量化后的基底图像。其中,在lab空间中,颜被解耦为l和ab分别处理和预测。具体地,使用lab颜空间,在l=50时的ab域等间隔划分为313类,并将l明亮度等间隔划分为11类,并在模型预测颜时分开预测。
105.进一步可选地,为防止泄漏基底图像中文案衬底的视觉信息,还可以通过掩码方式对文案衬底进行遮盖处理后作为模型输入。上文颜空间的变化和基底图像中文案衬底的遮盖处理,都是简单数据处理过程,不需要神经网络模型。
106.在得到量化后的基底图像之后,可以将量化后的基底图像以及至少一个目标区域的位置和类别输入视觉属性预估模型,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视觉属性。在本技术实施例中,并不限定视觉属性预估模型的模型架构,示例性,如图12所示,视觉属性预估模型可以采用编码器-解码器(encoder-decoder)结构,其中,encoder用于对输入的量化后的基底图像进行视觉信息的嵌入式编码处理,得到基底图像的视觉嵌入式向量,decoder用于根据基底图像的视觉嵌入式向量与至少一个目标区域的位置嵌入式向量预估元素的视觉属性。具体地,将量化后的基底图像以及基底图像中每个目标区域在基底图像上的坐标、长宽属性、类别属性输入视觉属性预估模型,其中,量化后的基底图像被输入视觉属性预估模型中的encoder,使用encoder对量化后的基底图像进行视觉信息的嵌入式编码,得到基底图像的视觉嵌入式向量(或称为图像视觉信
息);然后将基底图像的视觉嵌入式向量、至少一个待合成元素以及每个目标区域在基底图像上的坐标、长宽属性、类别属性输入decoder,由decoder根据图像的视觉嵌入式向量、至少一个待合成元素以及每个目标区域在基底图像上的坐标、长宽属性、类别属性预估每个目标区域对应的待合成元素的视觉属性。在图12中,xy表示目标区域在基底图像上的坐标,wh表示目标区域的长宽属性,cls表示目标区域(或待合成元素)的类别属性,pe表示基底图像的位置嵌入式向量。
107.具体地,在encoder中,可以按照类似vit的方式将量化后的基底图像编码成长度为n的patch序列,和上文中图10所示的编码方式类似,在此不再赘述,并将长度为n的patch序列(即图12中所示的1-n)作为decoder的输入。在decoder中,以每个目标区域的位置和类别为处理对象,结合自注意力机制(self-attention)和跨越注意力机制(cross-attention)对视觉嵌入式向量和至少一个待合成元素进行解码处理,以得到每个待合成元素的视觉属性。具体地,以每个目标区域的位置和类别属性作为搜索词(query),通过self-attention进行不同待合成元素之间的信息交互,得到第一相似度;通过cross-attention在待合成元素与视觉嵌入式向量之间进行信息交互,得到第二相似度。每个decoder 层都做这样的注意力机制的操作,最后;根据第一相似度和第二相似度,确定每个待合成元素的视觉属性,即可以针对每个query输出对应的视觉属性信息。
108.在得到每个待合成元素的视觉属性信息之后,可以根据目标区域的位置、类别以及预估的每个待合成元素的视觉属性信息,将至少一个待合成元素中的文案信息渲染至基底图像上,以得到目标合成图像。具体地,可以按照下面表格中的层级关系自底向上对目标区域的位置、类别以及预估的每个待合成元素的视觉属性信息等信息进行管理,最后由渲染层在基底图像上绘制出每个待合成元素对应的栅格化图形,以得到目标合成图像。可选地,可以采用一些已有的或自研的图形库在基底图像上进行待合成元素对应的栅格化图形的绘制。例如,可以采用图形库pygame或skia,pygame是一个跨平台python库;skia是个2d向量图形处理函数库,包含字型、座标转换,以及点阵图都有高效能且简洁的表现。
109.在下述表格1中,自底向上依次包括:共有属性层、私有属性层、实体层、规则层和渲染层。共有属性层负责管理各个待合成元素共有的属性信息,例如位置、长宽、前景、渐变等;私有属性层负责管理各类待合成元素特有的属性信息,例如文本、字体,衬底样式,店铺名,logo图等;实体层负责管理和维护各类具体的待合成元素,例如文案信息,衬底元素,logo元素等;规则层负责描述各类待合成元素的一些渲染规则,例如文字可读性,衬底形状,位置合理性等;渲染层负责利用图形库按照下述各层负责的信息或规则进行栅格化图形的绘制。
110.表格1综上可知,本技术实施例提供了一种能根据基底图像的内容、主体对象的基础素
材信息自动生成任意指定尺寸的合成图像的方法,属于自动创意图像的范畴。整个过程分为创意底图生成、创意布局生成、图上文案生成、元素视觉属性预估与渲染四个主要步骤。
111.在底图生成环节中,提出综合图像分类、ps元素检测、inpainting/outpainting、显著性检测与裁剪完成图像重定向的方法,并结合强化学习以自监督的方式提升inpainting时擦字的效果;在创意布局生成环节中,提出用显著性、inpainting等方式消除创意与普通图像之间的域差异,解决图像布局生成数据获取困难问题,通过transformer结构建模图像内容与布局间的关系,并提出几何对齐模块提升建模效果;在图上文案生成环节中,提出一个新型多模态文案生成网络结构,可综合 考虑图片(如商品主体、商品主体位置和背景)、商品文本、文本框位置以及多个框之间的相互逻辑关系等信息自适应地生成文案内容;在属性预估与渲染环节中,提出结合自监督字体识别、文字分割提取颜、人工标注等方法构建字体、衬底等矢量元素的属性数据集,并以此构建了一个多任务属性预估模型,并通过颜量化解耦、标签平滑等方式有效提升预估效果。
112.通过本技术实施例提供的方法,能够解决人工制作创意图像存在的难以批量化应用的问题;另外,不再依赖人工设计模板,能够自主创意布局,提高主体对象与文案、布局等融合度,提高创意图像的质量;再者,融合机器学习模型学习到的布局、文案以及视觉信息估计等经验信息,能够从基底图像到布局到文案到视觉属性的估计与渲染全面地进行图像的创意,提高自动创意图像的丰富度和完整度。
113.本技术实施例提供的方法,可以应用于各种具有图像生成需求的应用场景中,例如可应用于电商领域中进行创意广告图像的生成。下面以电商领域中,基于商品图片生成创意广告图为例,其中,原始素材图可以是电商平台上收集的商品图片,目标素材图可以是从这些商品图片中选择的质量较高的商品图片,并以该商品图像为基础生成基底图像,基底图像中的主体对象具体为商品对象,在得到包含商品对象的基底图像之后,经过创意布局生成、图上文案生成、元素视觉属性估计与渲染等处理,可以得到该商品对象的创意广告图像。该创意广告图像可被投放到电商app提供的各种页面上,例如可以是电商app中的首页面、商品详情页面、商品列表页面、购物车页面等等。当然,该创意广告图像也可以被投放到其它互联网平台上,对此不做限定。
114.本技术实施例提供的方法可应用于任何商品类目,为任何类目的商品生成创意广告图像,而且支持生成各种尺寸规格的创意广告图像。如图13-图15所示,每种商品的创意广告图像包括两种尺寸规格。图13所示的创意广告图像的长高比为3:4,图14所示的创意广告图像的长高比为16:9,图15所示的创意广告图像的长高比为9:13,图示广告图像的长高比仅为示例,并不限于此。
115.在此说明,本技术上述实施例的方法可由计算机设备执行,该计算机设备可以是手机、平板电脑、笔记本电脑等各种终端设备,也可以是传统服务器,还可以是云服务器、服务器阵列、虚拟机或容器等各种云端设备。当然,本技术上述实施例的方法也可以由终端设备和服务端设备相互配合完成;具体地,如图16a所示,终端设备16a负责获取至少一张原始素材图,并将至少一张原始素材图上传至服务端设备16b;服务端设备16b负责执行步骤s101-s105,即依次执行创意底图生成,创意布局生成,图上文案生成,以及元素视觉属性估
计与渲染,以得到目标合成图像;之后,如图16a所示,服务端设备16可以自主地或者根据其它平台的图像获取请求,将目标合成图像发布到其它平台,例如广告平台、社交平台等;或者,服务端设备16将目标合成图像发送给终端设备16a,以供终端设备16a展示该目标合成图像。在电商领域中,目标合成图像为创意广告图像,如图16a所示,服务端设备16b将该创意广告图像嵌入电商app的页面中的广告位区域,并将该页面发送给终端设备16b,以使终端设备16b展示该电商app的页面,并在该页面上呈现该创意广告图像。
116.图16b为本技术示例性实施例提供的一种图像处理方法的流程示意图。如图16b所示,该方法包括:161、获取包含主体对象的原始图像,所述原始图像具有原始尺寸。
117.162、将原始图像送入元素检测模型进行图上元素解析,以得到原始图像中包含的原始合成元素及其属性信息。
118.163、根据原始合成元素的属性信息对原始图像进行修复,以得到不包含原始合成元素的修复图像。
119.164、根据目标尺寸与原始尺寸的大小关系,对修复图像进行图像重定向处理,以得到具有目标尺寸的目标图像。
120.本技术实施例提供的图像处理方法可应用于任何需要对图上ps元素以及图像大小进行处理的应用场景。具体地,可以获取包含主体对象的原始图像,该原始图像具有原始尺寸,例如1:1、4:3等。可选地,可以从本地存储空间中直接获取包含主体对象的原始图像,也可以接收云端或其它设备发送的包含主体对象的原始图像。进一步可选地,在电商领域中,原始图像可以是从至少一张包含商品对象的广告图像中选择出的图像质量符合要求的广告图像。关于从包含商品对象的广告图像中选择图像质量符合要求的广告图像的详细实施方式,可参见前述实施例中“从至少一张原始素材图中选择目标素材图”的详细实施方式,其中,本实施例中的原始图像对应于前述实施例中的目标素材图,本实施例中的广告图像对应于前述实施例中的原始素材图。
121.在获取包含主体对象的原始图像之后,可以将该原始图像送入元素检测模型进行图上元素解析,以得到原始图像中包含的原始合成元素及其属性信息。关于元素检测模型以及通过元素检测模型进行图上元素解析的详细实施方式可参见前述实施例,在此不再赘述。
122.在得到原始图像中包含的原始合成元素及其属性信息之后,可以根据原始合成元素的属性信息对原始图像进行修复,以得到不包含原始合成元素的修复图像。其中,关于原始合成元素及其属性信息,以及根据原始合成元素的属性信息对原始图像进行修复的过程,可参见前述方法实施例中对目标素材图进行修复的详细实施过程,在此不再赘述。
123.在得到修复图像之后,如果希望得到具有目标尺寸的目标图像,而目标尺寸与原始尺寸可能不相同,则可以根据目标尺寸与原始尺寸的大小关系,对修复图像进行图像重定向处理,以得到具有目标尺寸的目标图像。当然,如果目标尺寸与原始尺寸相同,则可以直接将修复图像作为目标图像。其中,关于对修复图像进行图像重定向处理的详细实施方式,可参见前述实施例中对修复素材图进行图像重定向的详细实施方式,在此不再赘述。
124.在本实施例中,能够根据任意包含主体对象的原始图像完成任意尺寸的目标图像的生成,即综合图上ps元素检测、图像修复(inpainting)/字体擦除、图像延展
(outpainting)、显著性检测等模型进行图像重定向(image retargeting),提高图像处理的效率以及质量,且能够在图像尺寸上满足各种图像需求,具有较强的灵活性。
125.图17为本技术示例性实施例提供的一种数据渲染方法的流程示意图。如图17所示,该方法包括:171、获取待渲染对象,该待渲染对象包括用于承载至少一个待合成元素的至少一个目标区域,待渲染对象为图像或页面。
126.172、根据待渲染对象以及至少一个目标区域的位置和类别,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视觉属性;173、根据至少一个目标区域的位置、类别以及至少一个待合成元素的视觉属性,将所述至少一个待合成元素渲染至所述待渲染对象上,以得到目标对象。
127.本技术实施例提供的数据渲染方法可应用于任何需要在已有元素承载对象上合成其它元素的应用场景。例如,可以应用于在各种应用页面上合成控件、图像、文本等页面元素的应用场景,在该场景中,待渲染对象为页面,待合成元素可以是需要渲染到页面上的控件、图像、文本等页面元素。又例如,可以应用于图像合成场景,在各种图像上合成新的图像元素,在该场景中,待渲染对象为图像,待合成元素可以是需要合成的文案信息、logo元素、衬底元素或装饰元素等。
128.具体地,可以获取待渲染对象。可选地,可以从本地存储空间中直接获取待渲染对象,也可以接收云端或其它设备发送的待渲染对象。待渲染对象包括至少一个目标区域,每个目标区域用于承载一个待合成元素,且每个目标区域具有位置和类别属性,目标区域的位置表示其需要承载的待合成元素在待渲染对象上的位置,目标区域的类别表示其需要承载的待合成元素的类别。以待渲染对象是页面为例,则待合成元素的类别可以是控件、文本、图像、链接等;以待渲染对象是图像为例,则待合成元素的类别是文案、logo、衬底或装饰元素等。
129.另外,每个待合成元素可以预先获取,也可以在渲染过程中实时获取。在待合成元素中包含文本或文案信息的情况下,无论是预先获取还是在渲染过程中实时获取,都可以采用文案生成模型进行文本或文案信息的生成。具体地,可以将待渲染对象、至少一个目标区域的位置和类别以及待渲染对象中包含的主体对象对应的基础素材信息输入文案生成模型进行文案信息的生成,以得到至少一个待合成元素中的文案信息。其中,通过文案生成模型进行文案信息生成的过程可参见前述实施例的描述,在此不再赘述。对于待渲染对象是页面的情况,可以确定待渲染对象中包含的主体对象,该主体对象可以是页面中的商品素材图、关键信息或者首条信息等,对此不做限定,而且可以数据库中存在的与主体对象相关的图文信息、音视频信息等作为主体对象的基础素材信息。
130.其中,待渲染对象中包括至少一个目标区域以及每个目标区域的位置和类别可视为是待渲染对象的布局信息。该布局信息可以人工设计的,也可以是根据布局模型自动生成的。具体地,可以将待渲染对象输入布局模型进行布局信息的生成。其中,本实施例中的布局模型的架构、训练以及推理过程均可参见前述实施例中的图像布局模型,在此不再赘述。
131.在得到至少一个待合成元素之后,可以根据待渲染对象以及至少一个目标区域的位置和类别,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视
觉属性。进一步,根据至少一个目标区域的位置、类别以及至少一个待合成元素的视觉属性,将至少一个待合成元素渲染至待渲染对象上,以得到目标对象。关于进行视觉属性估计的详细实施方式,以及将至少一个待合成元素渲染至待渲染对象上的详细实施方式,可参见前述实施例,在此不再赘述。
132.在本实施例中,通过根据待渲染对象以及至少一个目标区域的位置和类别,对至少一个待合成元素进行视觉属性的估计,基于得到的视觉属性将待合成元素渲染至待渲染对象上,可以提高待合成元素与待渲染对象之间的视觉融合度、提高渲染后得到的目标对象的原生感。另外,在属性预估与渲染环节中,提出结合自监督字体识别、文字分割提取颜、人工标注等方法构建字体、衬底等矢量元素的属性数据集,并以此构建了一个多任务属性预估模型,并通过颜量化解耦、标签平滑等方式有效提升预估效果。
133.需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤s101至步骤s105的执行主体可以为设备a;又比如,步骤s101和s102的执行主体可以为设备a,步骤s103-s105的执行主体可以为设备b;等等。
134.另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如s101、s102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
135.图18a为本技术示例性实施例提供的一种图像处理装置的结构示意图。如图18a所示,该装置包括:图像生成模块181a、布局生成模块182a、文案生成模块183a、视觉估计模块184a和渲染模块185a。
136.图像生成模块181a,用于根据包含主体对象的目标素材图生成基底图像,目标素材图具有原始尺寸,基底图像具有目标尺寸;布局生成模块182a,用于将基底图像输入图像布局模型进行图像布局,以得到基底图像的图像布局信息,图像布局信息包括基底图像上用于承载至少一个待合成元素的至少一个目标区域的位置和类别;文案生成模块183a,用于将基底图像、至少一个目标区域的位置和类别以及主体对象对应的基础素材信息输入文案生成模型进行文案信息的生成,以得到至少一个待合成元素中的文案信息;视觉估计模块184a,用于根据基底图像和至少一个目标区域的位置和类别,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视觉属性;渲染模块185a,用于根据至少一个目标区域的位置、类别以及至少一个待合成元素的视觉属性,至少将至少一个待合成元素中的文案信息渲染至基底图像上,以得到目标合成图像。
137.关于上述各功能模块的详细功能描述,可参见上文图1所示方法实施例涉及的各步骤的所有相关内容,在此不再赘述。
138.本实施例提供的图像处理装置,用于执行上述图1所示实施例提供的图像处理方
法中的步骤,因此可以达到与上述方法相同的效果。
139.图18b为本技术示例性实施例提供的另一种图像处理装置的结构示意图。如图18b所示,该装置包括:图像获取模块181b、图上解析模块182b、图像修复模块183b和重定向模块184b。
140.图像获取模块181b,用于获取包含主体对象的原始图像,所述原始图像具有原始尺寸;图上解析模块182b,用于将原始图像送入元素检测模型进行图上元素解析,以得到所述原始图像中包含的原始合成元素及其属性信息;图像修复模块183b,用于根据所述原始合成元素的属性信息对所述原始图像进行修复,以得到不包含所述原始合成元素的修复图像;重定向模块184b,用于根据目标尺寸与所述原始尺寸的大小关系,对所述修复图像进行图像重定向处理,以得到具有所述目标尺寸的目标图像。
141.关于上述各功能模块的详细功能描述,可参见上文图16b所示方法实施例涉及的各步骤的所有相关内容,在此不再赘述。
142.本实施例提供的图像处理装置,用于执行上述图16b所示实施例提供的图像处理方法中的步骤,因此可以达到与上述方法相同的效果。
143.图18c为本技术示例性实施例提供的另一种数据渲染装置的结构示意图。如图18c所示,该装置包括:获取模块181c、视觉估计模块182c和渲染模块183c。
144.获取模块181c,用于获取待渲染对象,待渲染对象包括用于承载至少一个待合成元素的至少一个目标区域,待渲染对象为图像或页面;视觉估计模块182c,用于根据待渲染对象以及至少一个目标区域的位置和类别,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视觉属性;渲染模块183c,用于根据至少一个目标区域的位置、类别以及至少一个待合成元素的视觉属性,将至少一个待合成元素渲染至待渲染对象上。
145.关于上述各功能模块的详细功能描述,可参见上文图17所示方法实施例涉及的各步骤的所有相关内容,在此不再赘述。
146.本实施例提供的图像处理装置,用于执行上述图17所示实施例提供的图像处理方法中的步骤,因此可以达到与上述方法相同的效果。
147.图19为本技术示例性实施例提供的一种计算机设备的结构示意图。如图19所示,该计算机设备至少包括:存储器191和处理器192。
148.存储器191,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算机设备上的操作。这些数据的示例包括用于在计算机设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
149.存储器191可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
150.处理器192,与存储器191耦合,用于执行存储器191中的计算机程序,以用于:根据包含主体对象的目标素材图生成基底图像,目标素材图具有原始尺寸,基底图像具有目标
尺寸;将基底图像输入图像布局模型进行图像布局,以得到基底图像的图像布局信息,图像布局信息包括基底图像上用于承载至少一个待合成元素的至少一个目标区域的位置和类别;将基底图像、至少一个目标区域的位置和类别以及主体对象对应的基础素材信息输入文案生成模型进行文案信息的生成,以得到至少一个待合成元素中的文案信息;根据基底图像和至少一个目标区域的位置和类别,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视觉属性;根据至少一个目标区域的位置、类别以及至少一个待合成元素的视觉属性,至少将至少一个待合成元素中的文案信息渲染至基底图像上,以得到目标合成图像。
151.在一可选实施例中,处理器192还用于:在根据包含主体对象的目标素材图生成基底图像之前,获取包含主体对象的至少一张原始素材图;将至少一张原始素材图输入图像质量分类模型进行质量分类,以得到每张原始素材图的质量类别;根据每张原始素材图的质量类别,从中选择图像质量适合作为基底图像的原始素材图,作为目标素材图。
152.在一可选实施例中,处理器192在根据包含主体对象的目标素材图生成基底图像时,具体用于:将目标素材图送入元素检测模型进行图上元素解析,以得到目标素材图中包含的原始合成元素及其属性信息;根据原始合成元素的属性信息对目标素材图进行修复,以得到不包含原始合成元素的修复素材图;根据目标尺寸与原始尺寸的大小关系,对修复素材图进行图像重定向处理,以得到具有目标尺寸的基底图像。
153.在一可选实施例中,处理器192在将目标素材图送入元素检测模型进行图上元素解析,以得到目标素材图包含的原始合成元素及其属性信息时,具体用于:将目标素材图送入元素检测模型中的特征提取层进行特征提取,得到目标素材图对应的第一特征图;将第一特征图送入元素检测模型中基于自注意力机制的元素识别层进行合成元素的识别,以得到目标素材图中包含的原始合成元素对应的第二特征图;将第二特征图送入元素检测模型中的属性标注层进行属性标注,以得到原始合成元素的位置、大小和类别。
154.在一可选实施例中,处理器192在根据原始合成元素的属性信息对目标素材图进行修复,以得到不包含原始合成元素的修复素材图时,具体用于:将目标素材图和原始合成元素的属性信息输入图像修复模型中的掩码处理网络,根据原始合成元素的属性信息对目标素材图进行掩码处理,得到掩码素材图,掩码素材图中包括对原始合成元素进行掩码处理得到的待修复区域;将掩码素材图输入图像修复模型中的图像修复网络,根据待修复区域周边区域的像素值,对待修复区域进行修复,以得到不包含原始合成元素的修复素材图。
155.在一可选实施例中,处理器192还用于:利用基于生成对抗网络实现的文字擦除模型将目标素材图中包含的文案信息擦除,并根据目标素材图上其它区域的信息对擦除文案信息的区域进行背景内容的补充,以得到擦除文案信息后的目标素材图。
156.在一可选实施例中,处理器192还用于:从原始文案图像中提取原始文案信息,根据合成策略网络给定的图片合成文案规则,基于原始文案信息生成目标文案信息,将目标文案信息合成到原始文案图像中的非文字区域以得到目标文案图像;以及将目标文案图像和原始文案图像作为训练样本对生成对抗网络进行模型训练,直至三元擦除损失函数和生成对抗损失函数均满足要求为止,得到文字擦除模型,三元擦除损失函数是根据原始文案图像以及生成对抗网络中的生成器在两阶段的输出图像生成的损失函数。
157.在一可选实施例中,处理器192还用于:将目标文案图像以及生成器在模型训练过
程中的输出图像输入合成策略网络,以使合成策略网络更新图片合成文案规则;其中,生成器的输出图像是擦除目标文案图像中的目标文案信息后得到的图像。
158.在一可选实施例中,处理器192在根据目标尺寸与原始尺寸的大小关系,对修复素材图进行图像重定向处理,以得到具有目标尺寸的基底图像时,具体用于:根据目标尺寸与原始尺寸的大小关系,以修复素材图为基础确定待裁剪图像,待裁剪图像为修复素材图或修复素材图的延展图像;将待裁剪图像输入基于图像重要度的显著性裁剪模型,根据待裁剪图像的显著性特征锁定主体对象所在的图像区域,按照目标尺寸以主体对象所在的图像区域为中心对待裁剪图像进行裁剪,得到具有目标尺寸的基底图像。
159.在一可选实施例中,处理器192在根据目标尺寸与原始尺寸的大小关系,以修复素材图为基础确定待裁剪图像时,具体用于:在目标尺寸大于原始尺寸的情况下,将修复素材图和目标尺寸输入图像延展模型,按照目标尺寸对修复素材图进行图像延展,得到延展图像,并将延展图像作为待裁剪图像;在目标尺寸小于或等于原始尺寸的情况下,直接将修复素材图作为待裁剪图像。
160.在一可选实施例中,处理器192在将修复素材图和目标尺寸输入图像延展模型,按照目标尺寸对修复素材图进行图像延展,得到延展图像时,具体用于:将修复素材图和目标尺寸输入图像延展模型中的预处理网络,根据目标尺寸的宽高比,确定延展方向和延展长度,修复素材图包括延展方向上的已知图像区域,延展长度用于限定延展方向上的未知图像区域;将修复素材图、延展方向和延展长度输入图像延展模型中的生成对抗网络,基于延展方向上已知图像区域中的像素值及其语义信息,以语义连续性为约束条件对延展方向上未知图像区域内的像素值进行生成对抗,以得到延展图像。
161.在一可选实施例中,处理器192在将基底图像输入图像布局模型进行图像布局,以得到基底图像的图像布局信息时,具体用于:将基底图像输入域对齐模型进行视觉特征图的提取,以得到基底图像的视觉特征图;将基底图像及其视觉特征图输入图像布局模型中的多尺度cnn网络进行多尺度特征图的提取,并将提取到的多尺度特征图进行拼接以得到的拼接特征图;将拼接特征图送入图像布局模型中采用编码器-解码器结构的生成对抗网络进行图像布局信息的生成,以得到基底图像的图像布局信息。
162.在一可选实施例中,处理器192在将拼接特征图送入图像布局模型中采用编码器-解码器结构的生成对抗网络进行图像布局信息的生成,以得到基底图像的图像布局信息时,具体用于:将拼接特征图送入生成对抗网络的生成器中的编码器中,对拼接特征图进行编码,得到中间图像特征;将中间图像特征输入至生成器中的解码器中,对中间图像特征进行解码,得到初始布局信息,初始布局信息包括至少一个显示区域的位置;将初始布局信息送入生成器中的全连接层,对至少一个显示区域进行类别标注,以得到图像布局信息。
163.在一可选实施例中,处理器192还用于:将原始布局图像输入域对齐模型,对原始布局图像中合成元素的位置和类别进行提取,以得到目标布局信息;对原始布局图像中的合成元素进行掩码处理得到掩码布局图像,对掩码布局图像中的掩码区域进行修复得到目标布局图像,并提取目标布局图像的视觉特征图;将目标布局信息、目标布局图像及其视觉特征图作为训练样本对由多尺度cnn网络和采用编码器-解码器结构的生成对抗网络相结合的初始网络模型进行模型训练,得到图像布局模型。
164.在一可选实施例中,处理器192在将基底图像输入图像布局模型进行图像布局,以
得到基底图像的图像布局信息时,具体用于:将基底图像输入图像布局模型中的视觉骨干网络进行视觉特征提取,得到所述基底图像的内容嵌入式向量;将基底图像输入图像布局模型中的域对齐模块,将所述基底图像划分为多个图像分块并对所述多个图像块进行位置编码,得到位置编码序列;将内容嵌入式向量和位置编码序列输入图像布局模型中的解码器,在解码器中,采用跨越注意力机制和自我注意力机制对内容嵌入式向量和位置编码序列进行自回归解码处理,得到基底图像的图像布局信息。
165.在一可选实施例中,处理器192在将基底图像、至少一个目标区域的位置和类别以及主体对象对应的基础素材信息输入文案生成模型进行文案信息的生成,以得到至少一个待合成元素中的文案信息时,具体用于:根据基底图像以及主体对象对应的基础素材信息,生成主体对象的多模态描述信息,每一种模态描述信息记录有主体对象的部分描述信息;将主体对象的多模态描述信息以及至少一个目标区域的位置和类别输入图上文案生成模型进行文案信息的生成,以得到每个文案类别的目标区域需要承载的文案信息。
166.在一可选实施例中,处理器192在根据基底图像和至少一个目标区域的位置和类别,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视觉属性时,具体用于:对基底图像进行量化,得到量化后的基底图像;将量化后的基底图像输入视觉属性预估模型中的编码器,对量化后的基底图像进行编码,得到图像视觉信息;将至少一个目标区域的位置和类别、至少一个待合成元素以及图像视觉信息送入视觉属性预估模型中的编码器,以每个目标区域的位置和类别为处理对象,结合自注意力机制和跨越注意力机制对图像视觉信息和至少一个待合成元素进行解码处理,以得到每个待合成元素的视觉属性。
167.在一可选实施例中,处理器192在对基底图像进行量化,得到量化后的基底图像时,具体用于:将基底图像从rgb空间转换到lab空间,在lab空间中对基底图像中的像素点进行聚类,得到多个聚类组;将每个聚类组中各个像素点重新赋值为对应聚类中心的像素值,以得到重新赋值后的基底图像;将重新赋值后的基底图像从lab空间重新转换到rgb空间,得到量化后的基底图像。
168.在一可选实施例中,处理器192在对量化后的基底图像输入视觉属性预估模型中的编码器,对量化后的基底图像进行编码,得到图像视觉信息时,具体用于:将量化后的基底图像输入视觉属性预估模型中的编码器,将基底图像划分为多个图像分块并对多个图像块进行视觉特征的编码处理,得到多个图像块形成的视觉特征序列。
169.在一可选实施例中,处理器192在以每个目标区域的位置和类别为处理对象,结合自注意力机制和跨越注意力机制对图像视觉信息和至少一个待合成元素进行解码处理,以得到每个待合成元素的视觉属性时,具体用于:以每个目标区域的位置和类别为处理对象,采用自注意力机制在至少一个待合成元素之间进行信息交互,得到第一相似度;采用跨越注意力机制在图像视觉信息和至少一个待合成元素之间进行信息交互,得到第二相似度;根据第一相似度和第二相似度,确定每个待合成元素的视觉属性。
170.进一步,如图19所示,该计算机设备还包括:通信组件193、显示器194、电源组件195、音频组件196等其它组件。图19中仅示意性给出部分组件,并不意味着计算机设备只包括图19所示组件。另外,图19中虚线框内的组件为可选组件,而非必选组件,具体可视计算机设备的产品形态而定。本实施例的计算机设备可以实现为台式电脑、笔记本电脑、智能手
机或iot设备等终端设备,也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的计算机设备实现为台式电脑、笔记本电脑、智能手机等终端设备,可以包含图19中虚线框内的组件;若本实施例的计算机设备实现为常规服务器、云服务器或服务器阵列等服务端设备,则可以不包含图19中虚线框内的组件。
171.相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时,致使处理器能够实现上述图1所示方法实施例中的各步骤。
172.除上述计算机设备之外,本技术实施例还提供一种计算机设备,该计算机设备与图19所示计算机设备的结构相同或相似,在此不再赘述,主要区别在于:处理器执行存储器中存储的计算机程序所实现的功能不同。具体地,本实施例的计算机设备,其处理器执行存储器中存储的计算机程序,以用于执行以下操作:获取包含主体对象的原始图像,原始图像具有原始尺寸;将原始图像送入元素检测模型进行图上元素解析,以得到原始图像中包含的原始合成元素及其属性信息;根据原始合成元素的属性信息对原始图像进行修复,以得到不包含原始合成元素的修复图像;根据目标尺寸与原始尺寸的大小关系,对修复图像进行图像重定向处理,以得到具有目标尺寸的目标图像。
173.相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时,致使处理器能够实现上述图16b所示方法实施例中的各步骤。
174.除上述计算机设备之外,本技术实施例还提供一种计算机设备,该计算机设备与图19所示计算机设备的结构相同或相似,在此不再赘述,主要区别在于:处理器执行存储器中存储的计算机程序所实现的功能不同。具体地,本实施例的计算机设备,其处理器执行存储器中存储的计算机程序,以用于执行以下操作:获取待渲染对象,待渲染对象包括用于承载至少一个待合成元素的至少一个目标区域,待渲染对象为图像或页面;根据待渲染对象以及至少一个目标区域的位置和类别,对至少一个待合成元素进行视觉属性的估计,得到至少一个待合成元素的视觉属性;根据至少一个目标区域的位置、类别以及至少一个待合成元素的视觉属性,将至少一个待合成元素渲染至待渲染对象上。
175.相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时,致使处理器能够实现上述图17所示方法实施例中的各步骤。
176.上述实施例中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如wifi,2g、3g、4g/lte、5g等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
177.上述实施例中的显示器包括屏幕,其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
178.上述实施例中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件
可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
179.上述实施例中的音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(mic),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
180.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
181.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、编码式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
182.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
183.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
184.在一个典型的配置中,计算设备包括一个或多个处理器 (cpu)、输入/输出接口、网络接口和内存。
185.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (ram) 和/或非易失性内存等形式,如只读存储器 (rom) 或闪存(flash ram)。内存是计算机可读介质的示例。
186.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (pram)、静态随机存取存储器 (sram)、动态随机存取存储器 (dram)、其他类型的随机存取存储器 (ram)、只读存储器 (rom)、电可擦除可编程只读存储器 (eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器 (cd-rom)、数字多功能光盘 (dvd) 或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信
号和载波。
187.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
188.以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。

技术特征:


1.一种图像处理方法,其特征在于,包括:根据包含主体对象的目标素材图生成基底图像,所述目标素材图具有原始尺寸,所述基底图像具有目标尺寸;将所述基底图像输入图像布局模型进行图像布局,以得到所述基底图像的图像布局信息,所述图像布局信息包括所述基底图像上用于承载至少一个待合成元素的至少一个目标区域的位置和类别;将所述基底图像、所述至少一个目标区域的位置和类别以及所述主体对象对应的基础素材信息输入文案生成模型进行文案信息的生成,以得到所述至少一个待合成元素中的文案信息;根据所述基底图像和所述至少一个目标区域的位置和类别,对所述至少一个待合成元素进行视觉属性的估计,得到所述至少一个待合成元素的视觉属性;根据所述至少一个目标区域的位置、类别以及所述至少一个待合成元素的视觉属性,至少将所述至少一个待合成元素中的文案信息渲染至所述基底图像上,以得到目标合成图像。2.根据权利要求1所述的方法,其特征在于,在根据包含主体对象的目标素材图生成基底图像之前,还包括:获取包含主体对象的至少一张原始素材图;将所述至少一张原始素材图输入图像质量分类模型进行质量分类,以得到每张原始素材图的质量类别;根据每张原始素材图的质量类别,从中选择图像质量适合作为基底图像的原始素材图,作为目标素材图。3.根据权利要求1所述的方法,其特征在于,根据包含主体对象的目标素材图生成基底图像,包括:将目标素材图送入元素检测模型进行图上元素解析,以得到所述目标素材图中包含的原始合成元素及其属性信息;根据所述原始合成元素的属性信息对所述目标素材图进行修复,以得到不包含所述原始合成元素的修复素材图;根据所述目标尺寸与所述原始尺寸的大小关系,对所述修复素材图进行图像重定向处理,以得到具有所述目标尺寸的基底图像。4.根据权利要求3所述的方法,其特征在于,将目标素材图送入元素检测模型进行图上元素解析,以得到所述目标素材图包含的原始合成元素及其属性信息,包括:将所述目标素材图送入元素检测模型中的特征提取层进行特征提取,得到所述目标素材图对应的第一特征图;将所述第一特征图送入所述元素检测模型中基于自注意力机制的元素识别层进行合成元素的识别,以得到所述目标素材图中包含的原始合成元素对应的第二特征图;将所述第二特征图送入所述元素检测模型中的属性标注层进行属性标注,以得到所述原始合成元素的位置、大小和类别。5.根据权利要求3所述的方法,其特征在于,根据所述原始合成元素的属性信息对所述目标素材图进行修复,以得到不包含所述原始合成元素的修复素材图,包括:将所述目标素材图和所述原始合成元素的属性信息输入图像修复模型中的掩码处理
网络,根据所述原始合成元素的属性信息对所述目标素材图进行掩码处理,得到掩码素材图,所述掩码素材图中包括对所述原始合成元素进行掩码处理得到的待修复区域;将所述掩码素材图输入所述图像修复模型中的图像修复网络,根据所述待修复区域周边区域的像素值,对所述待修复区域进行修复,以得到不包含所述原始合成元素的修复素材图。6.根据权利要求5所述的方法,其特征在于,在所述原始合成元素中包含文案信息的情况下,则在将所述目标素材图和所述原始合成元素的属性信息输入图像修复模型中的图像预处理网络之前,还包括:利用基于生成对抗网络实现的文字擦除模型将所述目标素材图中包含的文案信息擦除,并根据所述目标素材图上其它区域的信息对擦除所述文案信息的区域进行背景内容的补充,以得到擦除文案信息后的目标素材图。7.根据权利要求6所述的方法,其特征在于,还包括:从原始文案图像中提取原始文案信息,根据合成策略网络给定的图片合成文案规则,基于所述原始文案信息生成目标文案信息,将所述目标文案信息合成到原始文案图像中的非文字区域以得到目标文案图像;以及将所述目标文案图像和所述原始文案图像作为训练样本对生成对抗网络进行模型训练,直至三元擦除损失函数和生成对抗损失函数均满足要求为止,得到文字擦除模型,所述三元擦除损失函数是根据所述原始文案图像以及所述生成对抗网络中的生成器在两阶段的输出图像生成的损失函数。8.根据权利要求7所述的方法,其特征在于,还包括:将所述目标文案图像以及所述生成器在模型训练过程中的输出图像输入所述合成策略网络,以使所述合成策略网络更新图片合成文案规则;其中,所述生成器的输出图像是擦除所述目标文案图像中的目标文案信息后得到的图像。9.根据权利要求3所述的方法,其特征在于,根据所述目标尺寸与所述原始尺寸的大小关系,对所述修复素材图进行图像重定向处理,以得到具有所述目标尺寸的基底图像,包括:根据所述目标尺寸与所述原始尺寸的大小关系,以所述修复素材图为基础确定待裁剪图像,所述待裁剪图像为所述修复素材图或所述修复素材图的延展图像;将所述待裁剪图像输入基于图像重要度的显著性裁剪模型,根据所述待裁剪图像的显著性特征锁定所述主体对象所在的图像区域,按照所述目标尺寸以所述主体对象所在的图像区域为中心对所述待裁剪图像进行裁剪,得到具有所述目标尺寸的基底图像。10.根据权利要求9所述的方法,其特征在于,根据所述目标尺寸与所述原始尺寸的大小关系,以所述修复素材图为基础确定待裁剪图像,包括:在所述目标尺寸大于所述原始尺寸的情况下,将所述修复素材图和所述目标尺寸输入图像延展模型,按照所述目标尺寸对所述修复素材图进行图像延展,得到延展图像,并将所述延展图像作为待裁剪图像;在所述目标尺寸小于或等于所述原始尺寸的情况下,直接将所述修复素材图作为待裁剪图像。11.根据权利要求10所述的方法,其特征在于,将所述修复素材图和所述目标尺寸输入图像延展模型,按照所述目标尺寸对所述修复素材图进行图像延展,得到延展图像,包括:
将所述修复素材图和所述目标尺寸输入图像延展模型中的预处理网络,根据所述目标尺寸的宽高比,确定延展方向和延展长度,所述修复素材图包括所述延展方向上的已知图像区域,所述延展长度用于限定所述延展方向上的未知图像区域;将所述修复素材图、延展方向和延展长度输入图像延展模型中的生成对抗网络,基于所述延展方向上已知图像区域中的像素值及其语义信息,以语义连续性为约束条件对所述延展方向上未知图像区域内的像素值进行生成对抗,以得到所述延展图像。12.根据权利要求1-11任一项所述的方法,其特征在于,将所述基底图像输入图像布局模型进行图像布局,以得到所述基底图像的图像布局信息,包括:将所述基底图像输入域对齐模型进行视觉特征图的提取,以得到所述基底图像的视觉特征图;将所述基底图像及其视觉特征图输入所述图像布局模型中的多尺度cnn网络进行多尺度特征图的提取,并将提取到的多尺度特征图进行拼接以得到的拼接特征图;将所述拼接特征图送入所述图像布局模型中采用编码器-解码器结构的生成对抗网络进行图像布局信息的生成,以得到所述基底图像的图像布局信息。13.根据权利要求12所述的方法,其特征在于,将所述拼接特征图送入所述图像布局模型中采用编码器-解码器结构的生成对抗网络进行图像布局信息的生成,以得到所述基底图像的图像布局信息,包括:将所述拼接特征图送入所述生成对抗网络的生成器中的编码器中,对所述拼接特征图进行编码,得到中间图像特征;将所述中间图像特征输入至所述生成器中的解码器中,对所述中间图像特征进行解码,得到初始布局信息,所述初始布局信息包括至少一个显示区域的位置;将所述初始布局信息送入所述生成器中的全连接层,对所述至少一个显示区域进行类别标注,以得到所述图像布局信息。14.根据权利要求12所述的方法,其特征在于,还包括:将原始布局图像输入域对齐模型,对所述原始布局图像中合成元素的位置和类别进行提取,以得到目标布局信息;对所述原始布局图像中的合成元素进行掩码处理得到掩码布局图像,对所述掩码布局图像中的掩码区域进行修复得到目标布局图像,并提取所述目标布局图像的视觉特征图;将所述目标布局信息、所述目标布局图像及其视觉特征图作为训练样本对由多尺度cnn网络和采用编码器-解码器结构的生成对抗网络相结合的初始网络模型进行模型训练,得到所述图像布局模型。15.根据权利要求1-11任一项所述的方法,其特征在于,将所述基底图像输入图像布局模型进行图像布局,以得到所述基底图像的图像布局信息,包括:将所述基底图像输入图像布局模型中的视觉骨干网络进行视觉特征提取,得到所述基底图像的内容嵌入式向量;将所述基底图像输入图像布局模型中的域对齐模块,将所述基底图像划分为多个图像分块并对所述多个图像块进行位置编码,得到位置编码序列;将所述内容嵌入式向量和位置编码序列输入所述图像布局模型中的解码器,在所述解码器中,采用跨越注意力机制和自我注意力机制对内容嵌入式向量和位置编码序列进行自
回归解码处理,得到所述基底图像的图像布局信息。16.根据权利要求1-11任一项所述的方法,其特征在于,将所述基底图像、所述至少一个目标区域的位置和类别以及所述主体对象对应的基础素材信息输入文案生成模型进行文案信息的生成,以得到所述至少一个待合成元素中的文案信息,包括:根据所述基底图像以及所述主体对象对应的基础素材信息,生成所述主体对象的多模态描述信息,每一种模态描述信息记录有所述主体对象的部分描述信息;将所述主体对象的多模态描述信息以及所述至少一个目标区域的位置和类别输入图上文案生成模型进行文案信息的生成,以得到每个文案类别的目标区域需要承载的文案信息。17.根据权利要求1-11任一项所述的方法,其特征在于,根据所述基底图像和所述至少一个目标区域的位置和类别,对所述至少一个待合成元素进行视觉属性的估计,得到所述至少一个待合成元素的视觉属性,包括:将所述基底图像输入视觉属性预估模型中的编码器,对所述基底图像进行编码,得到图像视觉信息;将所述至少一个目标区域的位置和类别、所述至少一个待合成元素以及所述图像视觉信息送入视觉属性预估模型中的编码器,以每个目标区域的位置和类别为处理对象,结合自注意力机制和跨越注意力机制对所述图像视觉信息和所述至少一个待合成元素进行解码处理,以得到每个待合成元素的视觉属性。18.根据权利要求17所述的方法,其特征在于,在将所述基底图像输入视觉属性预估模型中的编码器,对所述基底图像进行编码,得到图像视觉信息之前,包括:将所述基底图像从rgb空间转换到lab空间,在lab空间中对所述基底图像中的像素点进行聚类,得到多个聚类组;将每个聚类组中各个像素点重新赋值为对应聚类中心的像素值,以得到重新赋值后的基底图像;将所述重新赋值后的基底图像从lab空间重新转换到rgb空间,得到量化后的基底图像。19.根据权利要求18所述的方法,其特征在于,对所述基底图像输入视觉属性预估模型中的编码器,对所述基底图像进行编码,得到图像视觉信息,包括:将所述量化后的基底图像输入视觉属性预估模型中的编码器,将所述基底图像划分为多个图像分块并对所述多个图像块进行视觉特征的编码处理,得到多个图像块形成的视觉特征序列。20.根据权利要求17所述的方法,其特征在于,以每个目标区域的位置和类别为处理对象,结合自注意力机制和跨越注意力机制对所述图像视觉信息和所述至少一个待合成元素进行解码处理,以得到每个待合成元素的视觉属性,包括:以每个目标区域的位置和类别为处理对象,采用自注意力机制在所述至少一个待合成元素之间进行信息交互,得到第一相似度;采用跨越注意力机制在所述图像视觉信息和所述至少一个待合成元素之间进行信息交互,得到第二相似度;根据所述第一相似度和所述第二相似度,确定每个待合成元素的视觉属性。
21.一种图像处理方法,其特征在于,包括:获取包含主体对象的原始图像,所述原始图像具有原始尺寸;将原始图像送入元素检测模型进行图上元素解析,以得到所述原始图像中包含的原始合成元素及其属性信息;根据所述原始合成元素的属性信息对所述原始图像进行修复,以得到不包含所述原始合成元素的修复图像;根据目标尺寸与所述原始尺寸的大小关系,对所述修复图像进行图像重定向处理,以得到具有所述目标尺寸的目标图像。22.一种数据渲染方法,其特征在于,包括:获取待渲染对象,所述待渲染对象包括用于承载至少一个待合成元素的至少一个目标区域,所述待渲染对象为图像或页面;根据所述待渲染对象以及所述至少一个目标区域的位置和类别,对所述至少一个待合成元素进行视觉属性的估计,得到所述至少一个待合成元素的视觉属性;根据所述至少一个目标区域的位置、类别以及所述至少一个待合成元素的视觉属性,将所述至少一个待合成元素渲染至所述待渲染对象上。23.一种计算机设备,其特征在于,包括:存储器和处理器;其中,所述存储器用于存储计算机程序;所述处理器,与所述存储器耦合,用于执行所述计算机程序,以用于实现权利要求1-22任一项所述方法中的步骤。24.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,致使所述处理器能够实现权利要求1-22任一项所述方法中的步骤。

技术总结


本申请实施例提供一种图像处理与数据渲染方法、设备及介质。本申请实施例提供一种不依赖于人工设计模板能够自动生成图像的方案,以图片素材为中心,不以模板为中心,基于目标素材图,经过基底图像、图像布局信息、图上文案信息的生成以及视觉属性预估与渲染,即可得到任意尺寸且质量达标的合成图像。在图像布局、图上文案以及视觉属性方面均可自主设计,不再受模板上固定位的约束和限制,在图像布局上更加灵活和合理,合成元素可以避开主体,加强主体突出性,提高视觉融合度,增强合成图像的原生感;在文案信息上也更具表现力;在视觉属性上颜搭配更加丰富,合成图像在视觉和投放效果上均较优异。而且适合大规模应用,实现成本较低。较低。较低。


技术研发人员:

周敏 马也 林金鹏 侯兴林 张渊猛 史斌斌 曹耘宁 许晨晨 高逸凡 蒋刚玮 王诗瑶 葛铁铮 姜宇宁

受保护的技术使用者:

阿里巴巴(中国)有限公司

技术研发日:

2022.11.22

技术公布日:

2022/12/23

本文发布于:2024-09-22 09:30:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/48050.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图像   元素   目标   基底
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议