数据转换方法、装置、计算机设备和存储介质与流程



1.本技术涉及生物信息化技术领域,特别是涉及一种数据转换方法、装置、计算机设备和存储介质。


背景技术:



2.随着现代社会数字化信息不断积累,数据的存储需求越来越高。而且目前使用的磁介质和光介质在存储量上将很难达到对未来数据的存储需求。dna作为一种新型的信息存储载体,相比传统存储载体而言由较大优势。首先,dna 存储的时限较长,比如,当将数据存储在干燥阴凉的dna时,该数据可被保存数10年。其次,dna的存储密度极大,1g dna即可存储2.15亿g的信息。
3.目前,运用dna作为信息存储载体对数据进行存储时,大多数都是使用数学算法对数据进行深加工,再使用二进制/三进制/四进制对数据向dna序列进行映射。比如,对一种文本进行存储时,可以先根据包含字符种类和gb2312-80 标准,再对输入文本中的一级或一、二级汉字进行重新编码,然后统计文本分词出现频率,以及将文本分词排序并对排在前列分词进行编码后将所有文本换为二进制序列,进行霍夫曼编码压缩,之后使用一种dna四进制转换模型,将压缩数据转换为dna序列进行该文本存储。
4.但是,上述基于dna序列的数据转换方法存在转换过程复杂导致其转换效率低下的问题。


技术实现要素:



5.基于此,有必要针对上述技术问题,提供了一种能够简化转换过程,以及有效提高转换效率的数据转换方法、装置、计算机设备和存储介质。
6.第一方面,本技术提供了一种数据转换方法,所述方法包括:
7.获取待转换数据;
8.将所述待转换数据输入至预设的dna编码网络,得到目标dna数据;所述dna编码网络包括编码器和生成器;所述编码器用于对所述待转换数据进行 dna编码,所述生成器用于将所述编码器输出的初始dna数据进行生物特征强化处理,得到所述目标dna数据。
9.上述方法通过dna编码网络将输入的待转换数据进行dna编码及生物特征强化处理,可以得到符合生物特征的dna数据,克服了传统的dna硬转换方法存在转换过程复杂导致转换效率低下,且转换后得到的dna数据仅仅为四种碱基的排列而难以符合生物特征的问题。另外,上述方法得到符合生物特征的dna数据之后便可利用dna存储技术的优势对待转换数据进行高效、准确和长期的存储,实现了首次将深度学习引入dna数据转换过程和dna存储技术,极大的提高了数据转换效率和准确性。
10.在其中一个实施例中,所述方法还包括:
11.将所述目标dna数据输入至解码器,得到还原数据;所述还原数据与所述待转换数据之间的相似度大于预设相似度阈值。
12.上述方法可实现待转换数据到dna数据的转换,以及dna数据到还原数据的转换,若待转换数据为图片,则可实现图片存储和转换,解决了现有技术无法利用dna技术实现高维度数据转换的问题。
13.在其中一个实施例中,所述方法还包括:
14.构建初始强化网络,并基于dna数据样本对所述初始强化网络进行训练,得到所述生成器;所述初始强化网络包括初始生成器和初始判别器;
15.基于所述生成器、初始编码器和初始解码器构建初始dna编码网络,并基于待转换数据样本对所述初始dna编码网络进行训练,得到所述dna编码网络。
16.在其中一个实施例中,所述dna数据样本包括正dna数据样本和负dna 数据样本,所述基于dna数据样本对所述初始强化网络进行训练,得到所述生成器,包括:
17.将所述负dna数据样本输入至所述初始生成器,得到第一强化dna数据;
18.将所述第一强化dna数据和所述正dna数据样本输入至所述初始判别器,得到判别结果;
19.根据所述判别结果确定所述初始强化网络的损失函数;
20.根据所述初始强化网络的损失函数的值交替调整所述初始生成器的参数和所述初始判别器的参数,直到所述损失的值满足预设条件为止,并将调整参数后的初始生成器作为训练后得到的生成器。
21.上述实施例实现了通过初始生成器和初始判别器相互对抗训练,可以达到生成器高效生成符合生物特征dna或真实dna序列数据的能力,比如,可达到相似度为98%的符合生物特征的dna。
22.在其中一个实施例中,所述初始强化网络还包括功能分析器,所述基于dna 数据样本对所述初始强化网络进行训练,得到所述生成器,包括:
23.将所述dna数据样本输入至所述初始生成器,得到第二强化dna数据;
24.将所述第二强化dna数据输入至所述功能分析器进行筛选,得到第三强化 dna数据;
25.将所述第三强化dna数据和所述第二强化dna数据输入至所述初始判别器,得到判别结果;
26.根据所述判别结果确定所述初始强化网络的损失;
27.根据所述初始强化网络的损失交替调整所述初始生成器的参数和所述初始判别器的参数,直到所述损失满足预设条件为止,并将调整参数后的初始生成器作为训练后得到的生成器。
28.上述实施例通过引入功能分析器对生成器输出的dna数据进行筛选,并使判别器基于筛选出真正符合生物特征的dna数据进行学习,极大的提高了判别器的学习能力,且减少了真实dna数据样本的准备工作,提高了训练的高校性和准确性。
29.在其中一个实施例中,所述基于待转换数据样本对所述初始dna编码网络进行训练,得到所述dna编码网络,包括:
30.将所述待转换数据样本输入至所述初始编码器进行dna编码,得到第一矩阵数据;
31.将所述第一矩阵数据输入至所述生成器,得到第四强化dna数据;
32.将所述第四强化dna数据转换为第二矩阵数据;
33.将所述第二矩阵数据输入至所述初始解码器进行dna解码,得到初始还原数据;
34.根据所述还原数据和所述待转换数据样本确定所述初始dna编码网络的损失函数;
35.根据所述初始dna编码网络的损失函数的值交替调整所述初始编码器的参数和所述初解码器的参数,直到所述损失函数的值满足预设条件为止,并将调整参数后的初始编码器作为训练后得到的编码器,以及将调整参数后的初始解码器作为训练后得到的解码器,并根据训练后得到的编码器、所述训练后得到的解码器和所述生成器构建得到所述dna编码网络。
36.上述实施例所述的训练过程将训练完毕的生成器整合到由编码器和解码器组成的初始dna编码网络(自编码网络)中,生成器的位置介于初始编码器与初始解码器之间,生成器在训练过程中可以准确生成符合生物特征的dna数据,可以提高初始dna编码网络对待转换数据的转换效率和还原度。而且,该初始 dna编码网络中包括生成器和自编码网络(编码器和解码器)两个独立的需要训练的神经网络,且各自单独训练,在训练时互不干扰且能够发挥出各自最大优点,可以使训练完成后得到的dna编码网络准确还原待传输数据。
37.在其中一个实施例中,所述初始dna编码网络的损失函数为正则函数。
38.第二方面,本技术还提供了一种数据转换装置。所述装置包括:
39.获取模块,用于获取待转换数据;
40.转换模块,用于将所述待转换数据输入至预设的dna编码网络,得到目标 dna数据;所述dna编码网络包括编码器和生成器;所述编码器用于对所述待转换数据进行dna编码,所述生成器用于将所述编码器输出的初始dna数据进行生物特征强化处理,得到所述目标dna数据。
41.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
42.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
附图说明
43.图1为一个实施例中计算机设备的内部结构示意图;
44.图2为一个实施例中数据转换方法的流程示意图;
45.图2a为一个实施例中dna编码网络的结构示意图;
46.图3为一个实施例中数据转换方法的流程示意图;
47.图3a为一个实施例中数据转换网络的结构示意图;
48.图4为一个实施例中训练dna编码网络的方法的流程示意图;
49.图4a为一个实施例中初始强化网络的结构示意图;
50.图5为一个实施例中训练初始强化网络的方法的流程示意图;
51.图6为一个实施例中训练初始强化网络的方法的流程示意图;
52.图6a为一个实施例中初始强化网络的结构示意图;
53.图7为一个实施例中训练初始dna编码网络的方法的流程示意图;
54.图7a为一个实施例中初始dna编码网络的结构示意图;
55.图8为一个实施例中图片转换网络的结构示意图;
56.图9为一个实施例中数据转换方法的流程示意图;
57.图9a为一个实施例中测试曲线的示意图;
58.图9b为一个实施例中测试曲线的示意图;
59.图10为一个实施例中数据转换装置的结构示意图。
具体实施方式
60.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
61.本技术实施例提供的数据转换方法,可以应用于如图1所示的计算机设备。该计算机设备可以是终端,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据转换方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
62.本领域技术人员可以理解,图1中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
63.在一个实施例中,如图2所示,提供了一种数据转换方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
64.s101,获取待转换数据。
65.其中,待转换数据可以包括文字、字母、数字、图片、音频和视频等任一类型数据。本实施例中,当需要使用dna信息存储载体对数据进行储存时,可以先获取需要存储的数据,即待转换数据。具体的,计算机设备可以获取用户输入的任一类型的待转换数据,以便后期执行转换和存储该待转换数据的方法;可选的,计算机设备也可以下载或者从其他设备上获取待转换数据,以便后期执行转换和存储该待转换数据的方法。
66.s102,将待转换数据输入至预设的dna编码网络,得到目标dna数据。
67.其中,dna编码网络包括编码器和生成器(参见图2a所示的dna编码网络的结构示意图);编码器用于对待转换数据进行dna编码,生成器用于将编码器输出的初始dna数据进行生物特征强化处理,得到目标dna数据。目标 dna数据为经过dna编码后的dna数据,且经过dna编码网络生成的目标 dna数据更加符合生物特征或者真实的dna序列数据。编码器可以是一种神经网络,通过神经网络将数据进行编码,生成符合编码要求的数据。生成器可以是一种神经网络,通过神经网络将输入数据生成符合特定要求的数据。
68.本实施例中,计算机设备可以预先基于深度学习的相关算法,以及大量的数据样本和dna数据样本构建并训练得到dna编码网络,使该dna编码网络可以用于将数据转换为符合生物特征或真实的dna数据。那么在实际应用时,即可直接将待转换数据输入至训练好的dna编码网络(参见图2a所示的编码网络),从而得到目标dna数据。
69.上述实施例提供的数据转换方法,通过获取待转换数据,并将待转换数据输入至预设的dna编码网络,得到目标dna数据。其中,dna编码网络包括编码器和生成器,编码器用于对待转换数据进行dna编码,生成器用于将编码器输出的初始dna数据进行生物特征强化处理,得到目标dna数据。上述方法通过dna编码网络将输入的待转换数据进行dna编码及生物特征强化处理,可以得到符合生物特征的dna数据,克服了传统的dna硬转换方法存在转换过程复杂导致转换效率低下,且转换后得到的dna数据仅仅为四种碱基的排列而难以符合生物特征的问题。另外,上述方法得到符合生物特征的dna数据之后便可利用dna存储技术的优势对待转换数据进行高效、准确和长期的存储,实现了首次将深度学习引入dna数据转换过程和dna存储技术,极大的提高了数据转换效率和准确性。
70.在实际应用中,当计算机设备基于图2实施例所述的方法将待转换数据转换为目标dna数据后,即可实现利用目标dna数据存储待转换数据。基于此,本技术还提供了一种从dna序列中还原数据的方法,如图3所示,该方法在图 2实施例所述方法的基础上,还包括步骤:
71.s103,将目标dna数据输入至解码器,得到还原数据。
72.其中,还原数据与待转换数据之间的相似度大于预设相似度阈值。预设相似度阈值可以预先由计算机设备根据数据的相似度或还原度需求确定,比如,预设相似度阈值可以为95%、97%、99%等不同取值。若还原数据与待转换数据之间的相似度大于预设相似度阈值,说明还原数据与待转换数据基本一致,即还原数据基本上还原了待转换数据的所有特征。解码器用于对dna数据进行解码,解码器可以为一种神经网络,通过神经网络将数据进行解码,解码为一般数据,比如图片数据、文字数据等。
73.本实施例中,计算机设备可以预先根据编码器、生成器和解码器构建数据转换网络(参见图3a所示的网络),然后基于大量的数据样本训练该网络,从而得到可以对dna数据进行解码的解码器。当计算机设备基于前述图2实施例所述的方法获取到目标dna数据时,相当于该dna数据存储有待转换数据,之后需要使用该待转换数据时,还需要从dna数据中还原出该待转换数据,此时,可以将目标dna数据输入至预先训练好的解码器进行dna数据解码,实现对待转换数据的还原,得到还原数据,该还原数据相对于待转换数据的还原度,也即还原数据与待转换数据之间的相似度很高,再结合前述图2实施例所述的方法,实现了待转换数据到dna数据的转换,以及dna数据到还原数据的转换。若待转换数据为图片,则可实现图片存储和转换,解决了现有技术无法利用dna技术实现高维度数据转换的问题。需要说明的是,本实施例中的解码器与前述实施例中的编码器对应,且通过相同的训练方法同时得到,该训练过程在之后的实施例进行说明,详细内容参见后续说明,此处不赘述。
74.上述实施例中的dna编码网络可以预先训练得到,因此,本技术还提供了训练得到dna编码网络的方法,如图4所示,该方法包括:
75.s201,构建初始强化网络,并基于dna数据样本对初始强化网络进行训练,得到生成器。
76.其中,初始强化网络包括初始生成器和初始判别器。初始生成器可以为一种神经网络,通过神经网络将输入数据生成特定的数据输出;初始判别器可以为一种神经网络,通过神经网络判断输入数据的真假,本实施例中的初始判别器用于判断输入的强化dna数据是否符合生物特征或是否为真实的dna序列数据。在实际应用中,上述初始强化网络可以为一种生成对抗网络(generativeadversarial networks,gan),其使用生成对抗网络算法可以通过对抗训练得到用于强化生物特征的生成器。
77.本实施例中,计算机设备可以根据初始生成器和初始判别器先构建初始强化网络,参见图4a所示的初始强化网络,再获取dna数据样本,并基于该dna 数据样本训练构建的初始强化网络。
78.进一步的,可以采用如下方法训练上述初始强化网络,进而得到训练后的生成器,具体训练方法,如图5所示,包括:
79.s2011,将负dna数据样本输入至初始生成器,得到第一强化dna数据。
80.其中,当计算机设备获取到dna数据样本时,可以先对该dna数据样本进行预处理,以及对该dna数据样本进行标注,具体的,可以将符合生物特征的dna数据样本标注为1,其余的dna数据样本标注为0,例如,可采用如下标注方式(1):
[0081][0082]
其中,y表示dna数据样本。标注为符合生物特征的dna数据样本为正 dna数据样本,标注为不符合生物特征的dna数据样本为负dna数据样本。
[0083]
参见图4a所示的初始强化网络,训练时,将负dna数据样本输入至初始生成器,得到第一强化dna数据,该第一强化dna数据为类似于dna的序列,但是不一定符合生物特征。
[0084]
s2012,将第一强化dna数据和正dna数据样本输入至初始判别器,得到判别结果。
[0085]
接着上述步骤,计算机设备将第一强化dna数据和正dna数据样本同时输入至初始判别器,使用该初始判别器有效识别第一强化dna数据的真伪,若第一强化dna数据为“真”,则说明该第一强化dna数据为符合生物特征的 dna数据,也即为与正dna数据样本的生物特征一致的dna数据;若第一强化dna数据为“伪”,则说明该第一强化dna数据为不符合生物特征的dna 数据,也即为与正dna数据样本的生物特征不一致的dna数据;初始判别器通过学习正dna数据样本的生物特征输出判别结果,该判别结果表示第一强化 dna数据的生物特征与正dna数据样本的生物特征一致的概率,该概率越大表示生成器输出的第一强化dna数据越符合生物特征,该概率越小表示生成器输出的第一强化dna数据不符合生物特征。
[0086]
s2013,根据判别结果确定初始强化网络的损失函数。
[0087]
当计算机设备获取到判别结果时,可以进一步的根据该判别结果构建初始强化网络的损失函数,该损失函数可以由生成器输出的第一强化dna数据的分布和正dna数据样本的分布之间的js散度确定,具体的表达式可选用下述关系式(2):
[0088][0089]
其中,p
data
(x)表示正dna数据样本的集合;p(z)表示第一强化dna数据的集合;d(x)表示正dna数据样本的分布函数;g(z)表示第一强化dna数据的分布函数。表示d(x)的期望值;e
z∈p(z)
[log(1-d(g(z))]表示g(z) 的期望值。v表示
第一强化dna数据的分布和正dna数据样本的分布之间的 js散度。
[0090]
s2014,根据初始强化网络的损失函数的值交替调整初始生成器的参数和初始判别器的参数,直到损失的值满足预设条件为止,并将调整参数后的初始生成器作为训练后得到的生成器。
[0091]
由于初始生成器和初始判别器可以形成对抗训练,由定义的初始判别器输出的判别结果确定损失函数,可以得到最优的判别器。具体的,损失的计算都是在初始判别器输出处产生的,而初始判别器的输出一般都是“真”或“伪”的判断,在上式max部分,训练时可以先保持初始生成器的参数不变来训练初始判别器,初始判别器的训练目标是正确区分真实dna序列或生成的符合生物特征的dna。即若以1/0代表真实dna序列或生成的符合生物特征的dna,则对上述关系式(2)中的第一项e中,由于采样为真实的dna,即正dna数据样本,故d(x)的期望值趋近1;同理,第二项e中,由于采样为初始生成器生成的第一强化dna数据,故d(g(z))的期望值趋近0。当调整初始判别器的参数训练初始判别器后,可以再基于训练后的初始判别器继续根据损失函数的值训练初始生成器,如此交替训练,即根据损失函数的值交替调整初始生成器的参数和初始判别器的参数,直到损失的值满足预设条件为止,该预设条件可以为判别器输出的判别结果表示第一强化dna数据的生物特征与正dna数据样本的生物特征一致的概率为预设概率值,一般为0.5的概率值。最后将调整参数后的初始生成器作为训练后得到的生成器,即图2实施例中使用到的生成器。
[0092]
需要说明的是,本实施例完成了交替训练的过程,在交替训练过程中,可以通过一部分数据样本训练初始判别器,再通过一部分数据样本训练初始生成器,完成一次交替训练后,还可以再如此进行二次、三次、多次交替训练,直到损失函数的值满足预设条件为止。上述实施例实现了通过初始生成器和初始判别器相互对抗训练,可以达到生成器高效生成符合生物特征dna或真实dna 序列数据的能力,比如,可达到相似度为98%的符合生物特征的dna。
[0093]
进一步的,若初始强化网络还包括功能分析器,即该初始强化网络为一种反馈生成对抗网络,如图6a所示的初始强化网络,可以采用如下方法训练上述初始强化网络,进而得到训练后的生成器,具体训练方法,如图6所示,包括:
[0094]
s2015,将dna数据样本输入至初始生成器,得到第二强化dna数据。
[0095]
参见图6a所示的初始强化网络,训练时,将dna数据样本输入至初始生成器,得到第二强化dna数据,该第二强化dna数据为类似于dna的序列,但是不一定符合生物特征。
[0096]
s2016,将第二强化dna数据输入至功能分析器进行筛选,得到第三强化 dna数据。
[0097]
其中,功能分析器用于筛选输入的dna数据,负责将符合生物特征的dna 数据或真实的dna数据筛选出来,可以通过打分的方式进行筛选,也可以通过其他方式进行筛选。第三强化dna数据为符合生物特征的dna数据或真实的 dna数据。
[0098]
接着上述步骤,计算机设备将第二强化dna数据输入至功能分析器,使用该功能分析器可以从生成器输出的第二强化dna数据中筛选出符合生物特征的 dna数据或真实的dna数据,得到第三强化dna数据。功能分析器进行筛选后,将筛选出的第三强化dna数据作为正样本数据输入至初始判别器,以便初始判别器基于该正样本数据有效识别生成器输出的第二强化dna数据是否符合生物特征或者是否为真实的dna序列。
[0099]
s2017,将第三强化dna数据和第二强化dna数据输入至初始判别器,得到判别结
果。
[0100]
接着上述步骤,计算机设备将生成器输出的第二强化dna数据和功能分析器输出的第三强化dna数据同时输入至初始判别器,使用该初始判别器有效识别第二强化dna数据的真伪,若第二强化dna数据为“真”,则说明该第二强化dna数据为符合生物特征的dna数据,也即为与第三强化dna数据的生物特征一致的dna数据;若第二强化dna数据为“伪”,则说明该第二强化dna数据为不符合生物特征的dna数据,也即为与第三强化dna数据的生物特征不一致的dna数据;初始判别器输出判别结果,该判别结果表示第二强化dna数据的生物特征与第三强化dna数据的生物特征一致的概率,该概率越大表示生成器输出的第二强化dna数据越符合生物特征,该概率越小表示生成器输出的第二强化dna数据不符合生物特征。
[0101]
s2018,根据判别结果确定初始强化网络的损失函数。
[0102]
本实施例涉及确定损失函数的方法,该方法基于与前述s2013所述的方法一致,详细内容请参见前述说明,此处不赘述。
[0103]
s2019,根据初始强化网络的损失函数的值交替调整初始生成器的参数和初始判别器的参数,直到损失满足预设条件为止,并将调整参数后的初始生成器作为训练后得到的生成器。
[0104]
本实施例涉及交替训练初始生成器和初始判别器的方法,该方法基于与前述s2014所述的方法一致,详细内容请参见前述说明,此处不赘述。
[0105]
需要说明的是,还有一种训练方法,即图6a所示的初始强化网络中的功能分析器也是一种神经网络,通过该神经网络判断输入的dna数据是否符合生物特征并输出真正符合生物特征的dna数据。功能分析器可以由两个门控循环单元(gated recurrent unit,gru)组成。其训练目标可以是输入dna序列,并输出该序列符合生物特征的概率,并将概率高的dna序列筛选出来,也即将真正符合生物特征的dna数据筛选出来。例如,训练的batch size为64,并采用0.001 的学习率进行30epoch的训练。
[0106]
基于上述初始强化网络进行训练时,还是根据初始判别器输出的判别结果确定初始强化网络的损失函数,之后根据该损失函数的值交替调整初始生成器的参数、初始判别器的参数和功能分析器的参数,直到损失满足预设条件为止,并将调整参数后的初始生成器作为训练后得到的生成器。具体交替训练时,可以先训练生成器,确保其生成类似dna的序列,旦不一定符合生物特征。其次,训练功能分析器,使功能分析器可以有效输出输入的dna数据符合生物特征的概率,并将概率高的dna数据筛选出来。具体训练过程中,可以将一部分初始生成器生成的dna数据输入至功能分析器,功能分析器会预测每条dna序列的真实率(为符合生物特征的dna的概率),并将真实率较高的dan序列输入给初始判别器以替代初始判别器中真实率较低的序列让其更有效率的学习。上述实施例通过引入功能分析器对生成器输出的dna数据进行筛选,并使判别器基于筛选出真正符合生物特征的dna数据进行学习,极大的提高了判别器的学习能力,且减少了真实dna数据样本的准备工作,提高了训练的高校性和准确性。
[0107]
s202,基于生成器、初始编码器和初始解码器构建初始dna编码网络,并基于待转换数据样本对初始dna编码网络进行训练,得到dna编码网络。
[0108]
当计算机设备基于前述s201步骤所述的方法获取到训练好的生成器时,即可基于
该生成器、初始编码器和初始解码器构建初始dna编码网络,参见图7a 所示的初始dna编码网络,再获取待转换数据样本,并基于该待转换数据样本训练构建的初始dna编码网络。
[0109]
进一步的,可以采用如下方法训练上述初始dna编码网络,具体训练方法,如图7所示,包括:
[0110]
s2021,将待转换数据样本输入至初始编码器进行dna编码,得到第一矩阵数据。
[0111]
其中,当计算机设备获取到待转换数据样本时,可以先对该待转换数据样本进行预处理,比如,若待转换数据为图片数据时,可以对图片数据集进行格式、尺寸等转换处理。参见图7a所示的初始dna编码网络,训练时,将待转换数据样本输入至初始编码器进行dna编码,得到第一矩阵数据,该第一矩阵数据可以表征dna序列,但是不一定符合生物特征。第一矩阵数据可以为二维向量矩阵,也可以是多维向量矩阵。第一矩阵数据的维度与待转换数据的维度相同,比如,若待转换数据为二维图片,则对应的第一矩阵数据就为二维向量矩阵。
[0112]
s2022,将第一矩阵数据输入至生成器,得到第四强化dna数据。
[0113]
接着上述步骤,计算机设备将第一矩阵数据输入至生成器,得到符合生物特征的dna数据,即第四强化dna数据。
[0114]
s2023,将第四强化dna数据转换为第二矩阵数据。
[0115]
具体的,使用矩阵数据表达第四强化dna数据,即将第四强化dna数据转换为第二矩阵数据;可选的,也可以采用相应的数据转换器或转换算法将第四强化dna数据转换为第二矩阵数据。需要说明的是,第二矩阵数据的维度与第一矩阵数据的维度相同,比如,第一矩阵数据为二维向量矩阵,则对应的第二矩阵数据也为二维向量矩阵。
[0116]
s2024,将第二矩阵数据输入至初始解码器进行dna解码,得到初始还原数据。
[0117]
其中,初始还原数据的维度和待转换数据样本的维度相同,比如,若待转换数据样本为二维图片,则初始还原数据也为二维图片。
[0118]
本实施例涉及对dna数据的逆转换方法,实质上就是将第四强化dna数据还原为其他类型数据。具体的,计算机设备获取到能够表征第四强化dna数据的第二矩阵数据时,可以将该第二矩阵数据直接输入至初始解码器中进行解码,得到初始还原数据,使初始还原数据与待转换数据之间的相似度极高,也就是将初始还原数据基本还原为待转换数据。
[0119]
s2025,根据还原数据和待转换数据样本确定初始dna编码网络的损失函数。
[0120]
其中,初始dna编码网络的损失函数可以为正则函数。
[0121]
计算机设备可以根据正则算法构建初始dna编码网络的损失函数,可选的,若待转换数据样本为图片数据时,可以采用如下关系式(3)确定该损失函数:
[0122][0123]
其中,l为图片像素的损失函数;索引i为循环遍历一张图片中的所有像素点。yi为待转换数据对应图片中的位置为i的像素点,f(xi)为再生的初始还原数据对应图片中位置为i的像素点。将两者做差,并针对再生的图片与转换前的图片的差距,并将该差距的函数作为损失函数。
[0124]
s2026,根据初始dna编码网络的损失函数的值交替调整初始编码器的参数和初解码器的参数,直到损失函数的值满足预设条件为止,并将调整参数后的初始编码器作为训
练后得到的编码器,以及将调整参数后的初始解码器作为训练后得到的解码器,并根据训练后得到的编码器、训练后得到的解码器和所述生成器构建得到dna编码网络。
[0125]
本实施例中,当计算机设备基于前述步骤计算得到每次训练的初始dna编码网络的损失函数的值,即待转换数据样本与初始原数据之间的差距时,由于训练目标是使待转换数据样本与初始原数据越接近越好,比如原图片与恢复后的图片越接近越好,即是使待转换数据样本与初始原数据之间的差距越小越好,所以根据损失函数的值,使其最小化为目标,并将该目标作为预设条件,调整初始编码器的参数和初解码器的参数,直到损失函数的值满足预设条件为止。并将调整参数后的初始编码器作为训练后得到的编码器,以及将调整参数后的初始解码器作为训练后得到的解码器,并根据训练后得到的编码器、训练后得到的解码器和生成器构建得到dna编码网络,即前述图2实施例使用到的dna 编码网络。
[0126]
上述实施例所述的训练过程将训练完毕的生成器整合到由编码器和解码器组成的初始dna编码网络(自编码网络)中,生成器的位置介于初始编码器与初始解码器之间,生成器在训练过程中可以准确生成符合生物特征的dna数据,可以提高初始dna编码网络对待转换数据的转换效率和还原度。而且,该初始 dna编码网络中包括生成器和自编码网络(编码器和解码器)两个独立的需要训练的神经网络,且各自单独训练,在训练时互不干扰且能够发挥出各自最大优点,可以使训练完成后得到的dna编码网络准确还原待传输数据。
[0127]
综合上述所有实施例,本技术还提供了一种图片转换网络,如图8所示,该图片转换网络包括:fbg络和ae自编码网络;其中,fbg络为反馈生成对抗网络,用于基于输入的dna训练数据进行训练,此过程中进行该 fbg络的参数调整,直到fbg络训练完毕,输出dna生成器;自编码网络由dna生成器、编码器和解码器构建,并在fbg络训练完毕后,可是基于图片训练数据进行训练,此过程中进行该ae自编码网络的参数调整,并在ae自编码网络训练完毕后,即可基于图片测试数据进行图片转换,将输入的图片测试数据(图片)转换为还原图片,该还原图片极其接近图片测试数据对应的图片。关于fbg络和ae自编码网络各自的训练过程可具体参见前述图5、图6和图7实施例所述的训练方法,此处不赘述。
[0128]
综合上述所有实施例,提供了一种数据转换方法,如图9所示,该方法包括:
[0129]
s301,构建初始强化网络,并基于dna数据样本对初始强化网络进行训练,得到生成器。
[0130]
s302,基于生成器、初始编码器和初始解码器构建初始dna编码网络,并基于待转换数据样本对初始dna编码网络进行训练,得到dna编码网络。
[0131]
s303,获取待转换数据。
[0132]
s304,将待转换数据输入至预设的dna编码网络,得到目标dna数据。
[0133]
s305,将目标dna数据输入至解码器,得到还原数据。
[0134]
上述各步骤所述方法在前述均有说明,此处不赘述。
[0135]
示例性说明上述数据转换方法和数据转换网络的数据转换效果:
[0136]
比如,使用上述实施例提供的数据转换方法和数据转换网络进行图片转换时,参见如图9a所示的测试曲线的示意图,其中,横坐标表示训练数据的样本数量,即epoch,纵坐标表示reconstruction loss(ae自编码网络的损失和fbgan 网络(反馈生成网络)的损失)。9a所示的训练结果示意图为在51200训练量的情况下,以0.0001/0.0002学习率在前
100epoch测试对比图。可见在相同训练量不同学习率下,学习率越高对应的reconstruction loss越低,在epoch为10时, reconstruction loss最低,因此可以在训练过程中被选择进行最优训练。训练的结果为:图片再生的准确率可达到约89%,fbg络(反馈生成网络)中生成器所生成的符合生物特征的dna的准确率为98%。
[0137]
参见如图9b所示的测试曲线的示意图,该图为学习率相同、训练量及epoch 不同的对比测试图。从图中可以清晰的看出,由于fbg络(反馈生成网络) 中的生成器已经完成训练,故在训练ae自编码网络中不用对其进行任何的参数调整,即其生成的dna准确度维持在98%的水平。由于ae自编码网络未完成训练,因此训练量由32,000张上升到54,4000张后,其再生图片与原图片的 reconstruction loss从12.24%下降到11.62%,再生成图片准确率不断提高。
[0138]
综上,第一,本技术提出了一种基于自编码和反馈生成对抗网络的dna数据转换技术,提高了生成符合生物特征dna及再生成图片的准确率,实现了通过深度学习使符合生物特征的dna与图片数据的相互转换。而目前运用dna 编码存储数据技术均为对数据向dna的硬转化,且只能对专一语言进行转化,局限性很大,所生成的dna也不符合生物特征。本技术提出的数据转换网络将符合生物特征dna与图片相互转换问题分离为人工合成符合生物特征dna问题和图片再生成问题,不仅提高了生成符合生物特征dna的准确性,而且还提高图片转换的准确性,弥补了现有dna转换技术中不能转换高维度数据的缺陷。第二,本技术实现了一种基于ae自编码网络和fbg络(反馈生成网络) 的dna存储技术,通过将fbg络和ae自编码网络进行整合,深度学习首次被引入到dna存储领域,填补了该领域的空白。
[0139]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0140]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的数据转换方法的数据转换装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据转换装置实施例中的具体限定可以参见上文中对于数据转换方法的限定,在此不再赘述。
[0141]
在一个实施例中,如图10所示,提供了一种数据转换装置,包括:
[0142]
获取模块11,用于获取待转换数据;
[0143]
转换模块12,用于将所述待转换数据输入至预设的dna编码网络,得到目标dna数据;所述dna编码网络包括编码器和生成器;所述编码器用于对所述待转换数据进行dna编码,所述生成器用于将所述编码器输出的初始dna 数据进行生物特征强化处理,得到所述目标dna数据。
[0144]
上述数据转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0145]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0146]
获取待转换数据;
[0147]
将所述待转换数据输入至预设的dna编码网络,得到目标dna数据;所述dna编码网络包括编码器和生成器;所述编码器用于对所述待转换数据进行 dna编码,所述生成器用于将所述编码器输出的初始dna数据进行生物特征强化处理,得到所述目标dna数据。
[0148]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0149]
获取待转换数据;
[0150]
将所述待转换数据输入至预设的dna编码网络,得到目标dna数据;所述dna编码网络包括编码器和生成器;所述编码器用于对所述待转换数据进行 dna编码,所述生成器用于将所述编码器输出的初始dna数据进行生物特征强化处理,得到所述目标dna数据。
[0151]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0152]
获取待转换数据;
[0153]
将所述待转换数据输入至预设的dna编码网络,得到目标dna数据;所述dna编码网络包括编码器和生成器;所述编码器用于对所述待转换数据进行dna编码,所述生成器用于将所述编码器输出的初始dna数据进行生物特征强化处理,得到所述目标dna数据。
[0154]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器 (ferroelectric random access memory,fram)、相变存储器(phase changememory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器 (random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random accessmemory,sram)或动态随机存取存储器(dynamic random access memory, dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0155]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0156]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保
护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:


1.一种数据转换方法,其特征在于,所述方法包括:获取待转换数据;将所述待转换数据输入至预设的dna编码网络,得到目标dna数据;所述dna编码网络包括编码器和生成器;所述编码器用于对所述待转换数据进行dna编码,所述生成器用于将所述编码器输出的初始dna数据进行生物特征强化处理,得到所述目标dna数据。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述目标dna数据输入至解码器,得到还原数据;所述还原数据与所述待转换数据之间的相似度大于预设相似度阈值。3.据权利要求2所述的方法,其特征在于,所述方法还包括:构建初始强化网络,并基于dna数据样本对所述初始强化网络进行训练,得到所述生成器;所述初始强化网络包括初始生成器和初始判别器;基于所述生成器、初始编码器和初始解码器构建初始dna编码网络,并基于待转换数据样本对所述初始dna编码网络进行训练,得到所述dna编码网络。4.根据权利要求3所述的方法,其特征在于,所述dna数据样本包括正dna数据样本和负dna数据样本,所述基于dna数据样本对所述初始强化网络进行训练,得到所述生成器,包括:将所述负dna数据样本输入至所述初始生成器,得到第一强化dna数据;将所述第一强化dna数据和所述正dna数据样本输入至所述初始判别器,得到判别结果;根据所述判别结果确定所述初始强化网络的损失函数;根据所述初始强化网络的损失函数的值交替调整所述初始生成器的参数和所述初始判别器的参数,直到所述损失的值满足预设条件为止,并将调整参数后的初始生成器作为训练后得到的生成器。5.根据权利要求3所述的方法,其特征在于,所述初始强化网络还包括功能分析器,所述基于dna数据样本对所述初始强化网络进行训练,得到所述生成器,包括:将所述dna数据样本输入至所述初始生成器,得到第二强化dna数据;将所述第二强化dna数据输入至所述功能分析器进行筛选,得到第三强化dna数据;将所述第三强化dna数据和所述第二强化dna数据输入至所述初始判别器,得到判别结果;根据所述判别结果确定所述初始强化网络的损失函数;根据所述初始强化网络的损失函数的值交替调整所述初始生成器的参数和所述初始判别器的参数,直到所述损失满足预设条件为止,并将调整参数后的初始生成器作为训练后得到的生成器。6.根据权利要求3所述的方法,其特征在于,所述基于待转换数据样本对所述初始dna编码网络进行训练,得到所述dna编码网络,包括:将所述待转换数据样本输入至所述初始编码器进行dna编码,得到第一矩阵数据;将所述第一矩阵数据输入至所述生成器,得到第四强化dna数据;将所述第四强化dna数据转换为第二矩阵数据;将所述第二矩阵数据输入至所述初始解码器进行dna解码,得到初始还原数据;
根据所述还原数据和所述待转换数据样本确定所述初始dna编码网络的损失函数;根据所述初始dna编码网络的损失函数的值交替调整所述初始编码器的参数和所述初解码器的参数,直到所述损失函数的值满足预设条件为止,并将调整参数后的初始编码器作为训练后得到的编码器,以及将调整参数后的初始解码器作为训练后得到的解码器,并根据训练后得到的编码器、所述训练后得到的解码器和所述生成器构建得到所述dna编码网络。7.根据权利要求6所述的方法,其特征在于,所述初始dna编码网络的损失函数为正则函数。8.一种数据转换装置,其特征在于,所述装置包括:获取模块,用于获取待转换数据;转换模块,用于将所述待转换数据输入至预设的dna编码网络,得到目标dna数据;所述dna编码网络包括编码器和生成器;所述编码器用于对所述待转换数据进行dna编码,所述生成器用于将所述编码器输出的初始dna数据进行生物特征强化处理,得到所述目标dna数据。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一项或者5-6中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结


本申请涉及一种数据转换方法。所述方法通过获取待转换数据,并将待转换数据输入至预设的DNA编码网络,得到目标DNA数据。其中,DNA编码网络包括编码器和生成器,编码器用于对待转换数据进行DNA编码,生成器用于将编码器输出的初始DNA数据进行生物特征强化处理,得到目标DNA数据。上述方法通过DNA编码网络将输入的待转换数据进行DNA编码及生物特征强化处理,可以得到符合生物特征的DNA数据,克服了传统的DNA硬转换方法存在转换过程复杂导致转换效率低下,且转换后得到的DNA数据仅仅为四种碱基的排列而难以符合生物特征的问题。基的排列而难以符合生物特征的问题。基的排列而难以符合生物特征的问题。


技术研发人员:

刘玉海 贾东霖 张建一 王哲琪 赵艳楠 李永鑫 宋怀明

受保护的技术使用者:

中科曙光南京研究院有限公司

技术研发日:

2021.12.30

技术公布日:

2022/5/17

本文发布于:2024-09-22 10:25:41,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/24561.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   所述   生成器   网络
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议