首页 > 专利信息

DNA活字存储系统和方法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202010688281.X

(22)申请日 2020.07.16

(71)申请人中国科学院北京基因组研究所（国

家生物信息中心）

地址 100101 北京市朝阳区北辰西路一号

院104号楼

(72)发明人陈非　卜东波　马灌楠　王晨阳　

邢晶　

(74)专利代理机构北京北汇律师事务所 11711

代理人高元吉

(51)Int.Cl.

G06F 16/172(2019.01)

G06F 16/174(2019.01)

H03M 7/06(2006.01)

G16B 50/00(2019.01)

(54)发明名称

DNA活字存储系统和方法

(57)摘要

本发明公开DNA活字存储系统和方法。DNA活

字存储方法包括提供内容活字实物库和索引活

字实物库；将目标文件中的待储存数据拆分为多

个数据元素，并针对各数据元素标注索引信息，

将数据元素的内容信息对应至内容活字实物库

中的特定内容活字寡核苷酸片段，将索引信息对

应至索引活字实物库中的特定索引活字寡核苷

酸片段；然后，将内容活字寡核苷酸片段和索引

活字寡核苷酸片段连接构成DNA活字单元，由多

个DNA活字单元构成保存有全部待储存数据元素

的DNA存储文件。本发明的DNA活字实物库可一次

合成，多次重复使用，自由组合，极大降低DNA合

成成本，且可以避免多次设计及合成DNA片段的

人工与时间投入，并避免引入大量纠错序列所带

来的成本负担。权利要求书2页说明书16页序列表31页附图4页CN 111858510 A 2020.10.30

C N 111858510

1.一种DNA活字存储方法，其特征在于，包括以下步骤：

(1)提供内容活字实物库和索引活字实物库，其中，所述内容活字实物库由单独存放的多种内容活字寡核苷酸组成，每种内容活字寡核苷酸的碱基序列分别对应于待储存数据的不同数据元素的内容信息；所述索引活字实物库由单独存放的多种索引活字寡核苷酸组成，每种索引活字寡核苷酸的碱基序列分别对应于不同的索引信息；

(2)将目标文件中的待储存数据拆分为多个数据元素，并针对各数据元素标注索引信息，针对每个数据元素内容信息，根据内容活字关联表将数据元素编码为碱基序列，并根据该碱基序列将数据元素内容信息对应至所述内容活字实物库的内容活字寡核苷酸；针对每个数据元素的索引信息，根据索引活字关联表

将索引信息编码为碱基序列，并根据该碱基序列将索引信息对应至所述索引活字实物库中的索引活字寡核苷酸；

(3)将步骤(2)中的内容活字寡核苷酸和索引活字寡核苷酸连接构成对应于每个数据元素的DNA活字单元，由多个DNA活字单元构成保存有全部待储存数据的存储文库。

(4)对(3)中存储文库中的寡核苷酸进行测序，并根据内容活字关联表、索引活字关联表及相应的解码软件将测序结果解码为储存数据。

2.根据权利要求1所述的DNA活字存储方法，其特征在于，所述待储存数据选自文本数据、图像数据、音频数据和视频数据中的至少一种。

3.根据权利要求1所述的DNA活字存储方法，其特征在于，所述数据元素选自字符、像素点、音频波幅、视频帧中的至少一种；所述索引信息包括数据元素的位置信息和文件属性信息。

4.根据权利要求3所述的DNA活字存储方法，其特征在于，所述数据元素的位置信息包括页码、行和列信息。

5.根据权利要求3所述的DNA活字存储方法，其特征在于，所述文件属性信息包括文件类型、文件名称、文件大小和创建时间。

6.根据权利要求1所述的DNA活字存储方法，其特征在于，在DNA活字单元中内容活字寡核苷酸和索引活字寡核苷酸之间可包含连接序列。

7.根据权利要求6所述的DNA活字存储方法，其特征在于，所述连接序列为重叠序列或酶切接头序列。

8.一种DNA活字存储系统，其特征在于，包括：

a.内容活字实物库和索引活字实物库，所述内容活字实物库由单独存放的多种内容活字寡核苷酸组成，每种内容活字寡核苷酸的碱基序列分别对应于待储存数据的不同数据元素；所述索引活字实物库由单独存放的多种索引活字寡核苷酸组成，每种索引活字寡核苷酸的碱基序列分别对应于不同的索引信息；

b.编码模块，其设置为将目标文件中的待储存数据拆分为多个数据元素，并针对各数据元素标注索引信息，针对每个数据元素内容及其索引信息，利用内容/索引活字关联表及相应的编码软件，将数据元素编码为碱基序列：根据碱基序列，将数据元素内容信息对应至所述内容活字实物库的内容活字寡核苷酸碱基序列；根据碱基序列，将索引信息对应至所述索引活字实物库中的索引活字寡核苷酸碱基序列；

c.解码模块，其设置为根据内容/索引活字关联表和相应解码软件将DNA活字存储文库中的寡核苷酸的测序数据解码为目标文件的待储存数据。

9.根据权利要求8所述的DNA活字存储系统，其特征在于，进一步包括DNA连接系统和DNA测序系统。

DNA活字存储系统和方法

技术领域

[0001]本发明涉及DNA存储领域，具体地涉及一种基于DNA活字思想的存储系统和方法。

背景技术

[0002]DNA存储技术是一种新兴的大数据存储技术，其突破了传统的以固体介质，例如硬盘、光盘、可移动磁盘等为媒介的存储方式。利用DNA碱基天然的信息存储能力，依据一定规则将文本、图片、声音、影像文件等传统数据0-1二进制编码转换为DNA(脱氧核糖核酸)核苷酸四进制编码(A、T、C、G组合)，然后通过人工合成特定序列的DNA来存储文本、图片、声音以及视频文件等数据，并在随后利用相应的解码手段完整读取还原数据。简言之，DNA存储技术是利用人工合成特定序列DNA而实现数据编码存储和读取的技术。相比于现有的数据信息存储方式，DNA存储技术具有数据密度高、保存时间长、配套设备能耗低、便于携带、运输隐蔽性高和便于多重加密等优点。

[0003]DNA保存数据和信息的想法提出较早，但直到2005年以后，随着高通量DNA合成技术和测序技术的飞速发展，DNA存储技术才开始有了实质性的进步。2007年，日本Nozomu Yachie等人首次利用16进制转码技术成功实现了爱因斯坦“E＝mc^2 1905！”文本数据的《科学》杂志发表了George Church研究组的关于DNA存储里程碑式的DNA存储。2012年8月，

研究成果，他们首次应用DNA芯片作为数据存储介质，成功地将多种媒体文件(包括53,400字的HTML文本文件、11张JPG图像和1个Javascript程序)存储到亿万分之一克DNA(1沙克)中；此项研究还报道了一种比特(0-1码)与碱基一一对应的新编码方式，使多媒体大文件DNA存储成为可能，但这种编码方式的出错率还是相对较高的。几乎同时，2013年，欧洲生物信息研究所(EBI)的Nick Goldman研究小组在《自然》杂志报道了他们DNA存储研究的新成果，他们成功地实现了ASCII、PDF、JPG和MP3文件数据的DNA存储，并首次引入纠错机制，实现了上述文件的100％解码复原。

[0004]2015年以后，伴随高通量的DNA合成技术和测序技术日臻完善，DNA合成和测序成本不断下降，DNA存储的研究也随之迎来了一个新的高潮。2016年，德国Blawat等与George Church研究组合作，针对DNA存储的通道模型设计了一种纠错方案，能够处理DNA合成、扩增和测序过程中的所有错误类型，例如插入、删除和交换错误，该方案成功地存储和检索了22M数据，准确率达到了100％。2017年，美国哥伦比亚大学Yaniv Erlich研究团队在《科学》杂志上报道了他们开发的一种基于喷泉码技术的新型DNA存储方法，实现了包含视频文件在内的2.15M多媒体文件的存储；与之前的编码方式相比，该方法弥补了为了拼接分段序列而设置重叠部分的缺陷，降低了冗余程度，使得存储量多出60％。

[0005]由于看到了DNA存储技术未来发展的巨大空间与潜力，美国微软公司陆续投资近亿美元，与华盛顿大学James Bornholt研究组合作，于2016年发布了一种支持数据随机读取的DNA存储体系。该体系采用了一种键-值模式的寻址方式，将存储地址分为高低两部分，增大了随机读取的灵活性，成功实现了42

kb子集数据的随机读取。利用上述DNA存储体系，美国微软公司从2016年开始投资近亿美元，于2018年3月完成了约200MB数据的保存，其中

包括古登堡计划数据库中的100部经典文学作品，创造了DNA存储领域的新纪录。

[0006]尽管DNA存储技术拥有许多传统数据存储技术所不具备的优点，且近年相关研究也取得了长足的发展与进步，但毋庸讳言，与传统数据存储技术相比其缺点也非常明显，主要为两点：首先其价格十分昂贵，另外存储和读取都很耗时，这些都极大地限制它的实际应用。具体地，上述诸多DNA存储技术的设计思想更类似于“雕版印刷”的逻辑思想，其研发主要集中于0-1计算机二进制语言转换为DNA核苷酸四进制语言的编码领域，主要缺点是成本较高，每个存储文件都需要合成编码DNA存储文件的所有序列，这些序列片段无法重复利用，成本高昂。其次，目前的诸多DNA存储技术，在DNA序列合成、测序过程中都极易出现错误，所以需要大量冗余信息进行纠错，这又增加了成本。

发明内容

[0007]为了解决或至少部分解决上述技术问题，本发明基于我国古代四大发明之一“活字印刷”的逻辑思想，将DNA序列单元与待储存数据元素内容信息(字符、像素点、音频波幅等)及标示上述元素的索引信息(位置、文件属性等)一一对应映射，构成内容活字和索引活字，并进一步集成DNA活字单元，从而实现文字、图片、音频、视频等数据信息与四进制DNA碱基信息的相互转码、存储和精准解读。具体地，

本发明包括以下内容。

[0008]本发明的第一方面，提供一种DNA活字存储方法，其包括以下步骤：

[0009](1)提供内容活字实物库和索引活字实物库，其中，所述内容活字实物库由单独存放的多种内容活字寡核苷酸(第一寡核苷酸)组成，每种内容活字寡核苷酸的碱基序列分别对应于待储存数据的不同数据元素内容信息，所述索引活字实物库由单独存放的多种索引活字寡核苷酸(第二寡核苷酸)组成，每种索引活字寡核苷酸的碱基序列分别对应于不同的索引信息；

[0010](2)将目标文件中的待储存数据划分为多个数据元素，并针对各数据元素标注索引信息，针对每个数据元素内容及其索引信息，根据内容活字关联表将数据元素编码为碱基序列，并根据该碱基序列将数据元素对应至所述内容活字实物库的内容活字寡核苷酸，根据索引活字关联表将索引信息编码为碱基序列，并根据该碱基序列将索引信息对应至所述索引活字实物库中的索引活字寡核苷酸；

[0011](3)将步骤(2)中的内容活字寡核苷酸和索引活字寡核苷酸连接构成对应于每个数据元素的DNA活字单元，由多个DNA活字单元构成保存有全部待储存数据元素的存储文库。

[0012](4)对(3)中存储文库中的寡核苷酸进行测序，并根据内容活字关联表、索引活字关联表及相应的解码软件将测序结果解码为储存数据。

[0013]内容活字根据本发明的DNA活字存储方法，优选地，所述待储存数据选自文本数据、图像数据、音频数据和视频数据中的至少一种。

[0014]根据本发明的DNA活字存储方法，优选地，所述数据元素选自字符、像素点、音频波幅、视频帧中的至少一种；所述索引信息包括数据元素的位置信息和文件属性信息。[0015]根据本发明的DNA活字存储方法，优选地，所述数据元素的位置信息包括页码、行和列信息。

[0016]根据本发明的DNA活字存储方法，优选地，所述文件属性信息包括文件类型、文件

本文发布于:2024-09-22 22:38:48，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/426841.html

上一篇：信息通信系统和信息通信方法[发明专利]

下一篇：一种证件OCR识别方法及系统[发明专利]