2023最新人工智能 深度合成图像系统技术规范

人工智能深度合成图像系统技术规范
1范围
本文件确立了深度合成图像(含视频)系统的框架,规定了系统技术要求,描述了对应的测试评价方法。
本文件适用于深度合成图像系统的设计、开发、测试、评估、管理等。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T5271.29—2000信息技术词汇第29部分:人工智能语音识别与合成定位片
GB/T21023—2007中文语音识别系统通用技术规范
GB/T36464.3—2018信息技术智能语音交互系统第3部分:智能客服
3术语和定义
GB/T5271.29—2000界定的以及下列术语和定义适用于本文件。
3.1
深度合成技术deep synthesis technology
利用以深度学习、虚拟现实为代表的生成合成类算法,在制作文本、图像、音频、视频、虚拟场景等过程中合成内容的技术。
注:深度合成技术应用场景包括包括语音合成、人脸再现、全身合成、数字虚拟人、虚拟现实等。
3.2
深度合成图像系统deep synthetic image system
采用AI技术用于人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等对图像、视频中人脸等生物特征进行生成或者编辑的技术系统。
注:深度合成图像系统的应用场景包括AI人像、美颜、换脸、影视动画制作等。
3.3
图像生成image generation
从现有数据集生成图像的过程。
3.4
图像合成image composition
无糖糖浆把来自一张图片或者不同图片的多个视觉元素前景剪切下来,粘贴到另外一张背景图片上,得到一张合成图像。
注:图像生成和图形合成的区别,图像生成负责由无到有,图像合成负责从有到优。
3.5
语音合成speech synthesis
卡门涡街效应人工语音的生成。
[来源:GB/T5271.29—2000,12.01.53]
3.6
深度合成2D人像deep synthesis of2D portraits
基于深度合成技术生成的二维人像,包括图像、视频和语音。
3.7
深度合成3D人像deep synthesis of3D portraits
基于深度合成技术生成的三维人像,包括图像、视频和语音。
4缩略语
下列缩略语适用于本文件。
AI:人工智能(Artificial Intelligence)
API:应用程序编程接口(Application Programming Interface)
DS:深度合成(Deep Synthesis)
EAO:平均重叠期望(Expected average overlap)
FID:距离得分(Frechet Inception Distance score)
GAN:对抗式生成网络(Generative Adversarial Network)
IoU:交并比(Intersection over Union)
mAP:平均精确度均值(mean Average Precision)
MIoU:平均交并比(Mean Intersection over Union)
NeRF:神经辐射场(Neural Radiance Fields)
NLP:自然语言理解(Nature Language Process)
PGAN:渐进式增长生成对抗网络(Progressive Generative Adversarial Network)
小型排风扇
PSNR:峰值信噪比(Peak Signal-to-Noise Ratio)
SDK:软件开发工具包(Software Development Kit)
双向呼叫SSIM:结构相似性(Structural Similarity Index Measure)
StarGAN:星型生成对抗网络(Star Generative Adversarial Network)
StyleGAN:风格生成对抗网络(Style Generative Adversarial Network)
TTS:从文本到语音(Text To Speech)
VAE变分自编码器(Variational Auto-Encoder)
2D:二维(2-Dimensional)
3D:三维(3-Dimensional)
5深度合成图像系统框架
深度合成图像系统框架包括AI 能力层、管理层和接入层,见图1。
图1深度合成图像系统框架
图1中各层组成模块如下:
a)AI 能力层:主要分为图像模块、人像模块和防伪检测模块。
1)图像模块包括图像生成、图像合成、图像修复和图像增强能力,能对一般图像进行深度合
成处理;
2)人像模块包括2D/3D 人像合成、语音模块、NLP 对话和音频同步能力,其中2D/3D 人像合
成模块用来制作人像;语音模块包括使用TTS 技术语音合成能力,和语音识别能力;NLP
对话则赋予了系统交互能力,够做到理解输入问题,做出符合语境、语法正常、语义连贯
的回答;音频同步则是用来同步人像模块中的音视频;
3)防伪检测模块:主要是对系统输入的人像(人脸、人体)图像进行鉴别,判断数字内容的
真实性、完整性和原始性。
b)管理层:主要是对深度合成图像系统的媒体资源和人像进行管理与调度。
1)媒体资源管理平台:用以提供视频超分和老片修复等功能
2)人像管理平台提供两类人像管理,一类是播报式人像管理,主要是对人物形象和语音信息
进行管理;与播报式人像管理相比,对话式人像管理对NLP 对话能力和语音识别能力的需
求更为明显,对话场景要求系统具有优秀的语音识别能力,做到语音信息准确的转换为文
本信息,并传递给NLP 对话能力模块,对问题进行语义理解,并做出答复,接下来与播报
式人像管理的流程类似,对回答的内容做视频输出即可。
c)接入层:深度合成系统框架主要以三种方式接入目标系统:API、小程序插件、SDK。
1)API 的方式提供了轻量化的部署方式,但对网络环境提出了较高的要求,因为深度合成图
像系统最终向目标系统提供内容视频或内容视频流。因此目标系统的网络环境应作为第一
考量。API 服务的优点是部署简单,不需要考量服务环境中的算力问题与运行环境问题;
2)小程序插件可以有效的缩短开发的周期,可以节约大量的开发成本,而且还可以给用户带
来多样化的服务,但使用插件通常要先进行申请;
接入层管理层Al能力层A P I 媒体资源管理平台
视频超分老片修复图像模块
图像生成
图像合成图像修复图像增强小程序插件S D K
人像管理平台播报式人像对话式人像
人像模块2D/3D人像合成语音模块音频同步
NLP对话防伪检测模块
3)SDK部署的优点是减少了对网络环境的依赖,可在网络环境较差的情况下正常运行深度合
成图像系统框架,但对工作环境有一定的要求,比如环境上的图形计算能力、图形处理器
在生产环境下的稳定性等。
6深度合成图像系统技术要求
6.1深度合成图像系统通用要求
6.1.1功能
6.1.1.1图像生成
图像生成功能应支持根据指定的场景特征(包括特定目标、特定主题、特定风格等)生成对应图像,生成的图像应符合场景要求。
6.1.1.2图像合成
6.1.1.2.1目标检测
目标检测功能应支持识别常见物体和特定目标在图像中的位置(以方框形式给出目标轮廓)及其类型,用以分析该图像是否能与其他图像的内容进行融合。
6.1.1.2.2目标分割
目标分割功能应支持给出图像中常见物体和特定目标的精细化边缘(像素级别区分度)及其类型,用以分离特定目标以及处理融合过程中出现的物体间遮挡的情况,使得融合后图像更加合理。
6.1.1.2.3位置跟踪
位置跟踪功能应支持持续跟踪视频画面中特定目标的位置变化,用以处理视频融合中目标位置的变化情况,使得视频中目标的运动状态符合物理规律。
6.1.1.2.4图像和谐化
图像和谐化功能应支持调节多个融合部分的亮度、颜、光线等特征,使得融合后的图像作为一个整体的观感更加自然。
6.1.1.3图像修复
6.1.1.3.1概述
图像修复功能即通过一定的算法修复低质图像中存在的多维度问题。图像修复主要包括图像缺陷修复、图像内容缺失补全和图像颜缺失补全及修复。
6.1.1.3.2图像缺陷修复
图像缺陷修复功能应支持修复图像中的典型缺陷问题,该类问题会影响用户对成像内容的正常视觉感
知,问题包括但不限于:模糊问题、噪声问题、划痕问题、隔行问题等。修复后较修复前,缺陷问题得到明显改善,用户视觉观感得到明显提升。
6.1.1.3.3图像内容缺失补全功能
图像内容缺失补全功能应支持修复图像部分内容缺失的问题或修复因去除非必要遮挡而造成的图像内容缺失的问题,根据缺失图像块周围仍保留的图像内容恢复出缺失部分的内容,并保证补全部分与周围图像的和谐过渡,补全后图像的整体观感自然不违和。
6.1.1.3.4图像颜缺失补全及修复
对图像颜缺失补全及修复功能要求如下:
a)应支持针对黑白图像的颜补全功能,能将黑白图像恢复成为彩图像,并保证补全后彩图
像的观感合理性和舒适度;
b)应支持针对彩不合理图像的颜修复功能,能将观感不合理、不舒适的图像彩调整为更加
合理、更加舒适的彩,提升用户视觉观感。
6.1.1.4图像增强
6.1.1.4.1概述
图像增强功能,即通过一定的增强算法使图像具有更强的信息表达能力,增强后的图像较增强前在清晰度、流畅度、丰富度等各维度有明显提升。图像增强功能主要包括图像分辨率提升功能、视频帧率提升功能、图像动态范围提升功能。
6.1.1.4.2图像分辨率提升
图像分辨率提升功能应支持将图像分辨率提升至原先的数倍或提升至某一特定的高分辨率(目标分辨率),并且提升后图像较提升前具有更丰富的细节信息,在视觉观感的清晰度上有明显提升。
6.1.1.4.3视频帧率提升
视频帧率提升功能应支持将视频帧率提升至原先的数倍,即单位时间内的帧数较提升前有明显增加,播放时单帧画面视觉停留时间减少,能提升用户视觉观感的流畅度。
6.1.1.4.4图像动态范围扩大
图像动态范围扩大功能应支持将图像像素的亮度表达范围提升至原先的数倍,将图像像素的颜表达范围提升至原先的数十倍,使得提升后视频的对比度增大,画面更富层次感,彩更加丰富。
6.1.2性能
6.1.2.1图像生成
6.1.2.1.1场景匹配度
耐热钢焊接场景匹配度指对于系统生成的图像,用户判断该图像与场景要求的匹配程度,该指标为主观性评估指标。场景匹配度应达到让用户感到比较匹配的程度,场景匹配度主观评分规则见表1。

本文发布于:2024-09-22 23:14:50,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/308642.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图像   合成   系统   功能   生成   修复   问题
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议