一种非结构化数据库的系统的制作方法

1.本发明涉及数据库领域，提供了一种非结构化数据库的系统。

背景技术：

2.海量存储的非结构化数据库完全托管的pb级数据仓库服务，让企业用户能够更轻松地分析海量数据，集成数据仓库超高的查询性能、云计算弹性伸缩特性以及大数据平台的综合处理能力，为企业提供云原生的数据仓库服务，并且轻松实现企业内部数据中心部署，其提供完整的sql支持，实现了ansi sql2008标准和2003olap扩展，支持标准的jdbc和odbc接口，支持自定义函数及库内机器学习。
3.现有的数据库系统在企业使用的时候会遇到数据的存储和计算瓶颈问题，在数据量过多过快增长的时候企业无法及时新增新的资源，需要极其复杂的数据库整体迁移的操作，而海量非结构化数据库将元数据、计算和存储三者分离，高效响应高并发复杂查询，体系架构随业务需求动态伸缩，在提供高性能数据仓库服务的同时实现资源的最优配置，其实现跨集、跨数据中心以及跨云中心的数据访问，并保证数据强一致性，用户可灵活合理规划生产数据与实验数据的部署和使用，为企业提供成熟稳定的大数据平台，从而避免了企业的数据库在实际运行过程中资源紧张带来的风险难题。
4.实现标准要求
5.1、系统稳定性，系统在长时间的运行后能否稳定的提供数据的存储和计算服务；
6.2、系统健壮性，系统能否在部分子服务器缺失的前提下提供稳定的数据存储；
7.3、系统高效性，系统在大量数据存储任务提交的前提下能否及时的进行数据访问调用结果，保证结果的高效输出；
8.4、系统准确性，系统对数据的存储保证完整且准确；

技术实现要素：

9.本发明的目的在于解决企业数据库的连续性和高效性的技术问题。
10.为实现上述目的，本发明采用以下技术手段：
11.一种非结构化数据库的系统，包括以下步骤：
12.查询功能模块：顺序扫描法查询，当要在非结构化数据库中查内容包含某一个字符串的文件，遍历每个文档，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为需要的文件，直到扫描完所有的文件；
13.检索功能模块：获取目标数据的规则算法，将非结构化数据中的目标信息提取出来，执行python脚本的数据库结构转化方法，将非结构化数据转换为结构化数据；根据用户输入的检索内容依据出检索规则在此有一定结构的数据在非结构化数据库中搜索进行检索，得到非结构化的数据库中的结构化的数据，然后将这些结构化的数据集中起来，最后得到出结构化的结果数据；
14.存储功能模块：提供以下2中存储方式：
15.a、将非结构化数据以文件的方式存储在非结构化数据库中，采用文件的链接或路径存储的方式，将非结构化的数据存储在数据库表中，最后得到结构化的数据；
16.b、将非结构化数据存储在传统的数据库表的大对象字段中，利用数据库的事务、管理和安全特性，最新的非结构化数据存储技术在磁盘格式、网络协议、空间管理、重做和撤销格式、缓冲区缓存以及智能的i/o子系统等方面发生重大转变，在保证了文件数据的性能的同时，还保留了数据库的优势；；
17.计算功能模块：
18.执行计算、非结构化数据库收集到按照客户端提交的既定算法(如hash算法，均衡算法)对已存储的非结构化文件计算得到文件结果，各个计算结果在计算完成后将计算结果统一存储到目标文件表中，再待客户端发出确认请求；
19.返回计算结果，非结构化数据库返回客户端提交的计算结果，提供统一标准的数据输出格式，如标准sql格式，json格式；
20.资源增减模块：非结构化数据库资源增加/减少操作，当其中有资源的增减时操作，数据库会首先访问存储的元数据来做数据资源的判断，然后再通过平衡算法来对比新增/减少资源得出计算模型，最后执行算法模型达到资源的均衡；
21.操作接口模块：非结构化数据库的操作接口，接口操作均采用restful接口的方式，规定好各请求和返回参数；
22.管理模块：非结构化数据库的维护管理，会开发出图形界面和后端命令行，再通过不同用户角登录的方式来管理非结构化数据库，管理起来更加的便捷；
23.迁移模块，非结构化数据库的迁移，首先元数据会在自身同步机制的作用下无差别的分布在主备服务器上，然后在做迁移的时候可先迁移备用主服务器中的元数据再迁移常用主服务器中元数据，以防止元数据的数据落单，最终迁移计算数据，使计算数据迁移到新的目标端，保证达到迁移的时候服务的连续性和数据的完整性。
24.上述技术方案中，存储功能模块中存储格式采用hdfs的文本格式，空间管理采用分布式文件管理方法，网络协议采用集中式网络资源管理方式。
25.因为本发明采用上述技术方案，因此具备以下有益效果：
26.1：可以存储广泛的数据格式数据，如文本格式，音频格式，视频格式；
27.2：数据来源具有多样性，支持多种数据渠道；
28.3：并行事物处理，运算的速度比结构化数据库更快；
29.4：容量比结构化数据库更大，能达到数十个pb级别；
30.5：服务高可用，支持多个节点同时在线提供服务，数据高可用，支持数据的冗余存储，防止数据意外丢失；
31.6：数据的多级安全访问，支持用户权限，文件权限的多维管控，使用起来更加的安全。
具体实施方式
32.以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。
33.另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。
34.为了实现上述目的本发明采用以下技术手段：
35.一种非结构化数据库的系统，包括以下步骤：
36.查询功能模块：顺序扫描法查询，当要在非结构化数据库中查内容包含某一个字符串的文件，遍历每个文档，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为需要的文件，直到扫描完所有的文件；
37.检索功能模块：获取目标数据的规则算法，将非结构化数据中的目标信息提取出来，执行python脚本的数据库结构转化方法，将非结构化数据转换为结构化数据；根据用户输入的检索内容依据出检索规则在此有一定结构的数据在非结构化数据库中搜索进行检索，得到非结构化的数据库中的结构化的数据，然后将这些结构化的数据集中起来，最后得到出结构化的结果数据；
38.存储功能模块：提供以下2中存储方式：
39.a、将非结构化数据以文件的方式存储在非结构化数据库中，采用文件的链接或路径存储的方式，将非结构化的数据存储在数据库表中，最后得到结构化的数据；
40.b、将非结构化数据存储在传统的数据库表的大对象字段中，利用数据库的事务、管理和安全特性，最新的非结构化数据存储技术在磁盘格式、网络协议、空间管理、重做和撤销格式、缓冲区缓存以及智能的i/o子系统等方面发生重大转变，在保证了文件数据的性能的同时，还保留了数据库的优势；；
41.计算功能模块：
42.执行计算、非结构化数据库收集到按照客户端提交的既定算法(如hash算法，均衡算法)对已存储的非结构化文件计算得到文件结果，各个计算结果在计算完成后将计算结果统一存储到目标文件表中，再待客户端发出确认请求；
43.返回计算结果，非结构化数据库返回客户端提交的计算结果，提供统一标准的数据输出格式，如标准sql格式，json格式；
44.资源增减模块：非结构化数据库资源增加/减少操作，当其中有资源的增减时操作，数据库会首先访问存储的元数据来做数据资源的判断，然后再通过平衡算法来对比新增/减少资源得出计算模型，最后执行算法模型达到资源的均衡；
45.操作接口模块：非结构化数据库的操作接口，接口操作均采用restful接口的方式，规定好各请求和返回参数；
46.管理模块：非结构化数据库的维护管理，会开发出图形界面和后端命令行，再通过不同用户角登录的方式来管理非结构化数据库，管理起来更加的便捷；
47.迁移模块，非结构化数据库的迁移，首先元数据会在自身同步机制的作用下无差别的分布在主备服务器上，然后在做迁移的时候可先迁移备用主服务器中的元数据再迁移常用主服务器中元数据，以防止元数据的数据落单，最终迁移计算数据，使计算数据迁移到新的目标端，保证达到迁移的时候服务的连续性和数据的完整性。
48.上述技术方案中，存储功能模块中存储格式采用hdfs的文本格式，空间管理采用分布式文件管理方法，网络协议采用集中式网络资源管理方式。
49.本发明提供的海量存储的非结构化数据库，有很强的并行数据计算能力和海量数
据存储能力，但是他不擅长高频的小规模数据插入、修改、删除，每次事务处理的数据量不大。这类数据衡量指标是tps，适用的系统是oltp数据库。所以，报表统计分析、运维统计数据，快速生成报表展示都可以使用数据库，其符合几个条件：不需要更新数据，不需要频繁重复离线计算，不需要并发大。有上百亿以上离线数据，不更新，结构化，需要各种复杂分析的sql语句，那就可以选择他，几秒、几十秒立即返回需要的分析结果。例如sum，count，group by，order。
50.通过管理模块，用户可以方便地创建和管理多个非结构化数据库，方便用户实时了解数据仓库的运行和使用情况，实现了灵活高效的数据分布策略，使得用户可以根据业务和数据量的变化，快速地动态调整集中计算服务器的数量，以及每个计算服务器的计算和存储能力，提供了根据使用量进行计费的功能，方便用户控制it预算，通过基础设施管理服务，用户可以管理iaas平台其他基础设施的交互，如将整个数据库集迁移到另外一个私有网络，从而使得数据库融入所在的云生态中。

技术特征：

1.一种非结构化数据库的系统，其特征在于，包括以下模块：查询功能模块：顺序扫描法查询，当要在非结构化数据库中查内容包含某一个字符串的文件，遍历每个文档，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为需要的文件，直到扫描完所有的文件；检索功能模块：获取目标数据的规则算法，将非结构化数据中的目标信息提取出来，执行python脚本的数据库结构转化方法，将非结构化数据转换为结构化数据；根据用户输入的检索内容依据出检索规则在此有一定结构的数据在非结构化数据库中搜索进行检索，得到非结构化的数据库中的结构化的数据，然后将这些结构化的数据集中起来，最后得到出结构化的结果数据；存储功能模块：提供以下2中存储方式：a、将非结构化数据以文件的方式存储在非结构化数据库中，采用文件的链接或路径存储的方式，将非结构化的数据存储在数据库表中，最后得到结构化的数据；b、将非结构化数据存储在传统的数据库表的大对象字段中计算功能模块：执行计算、非结构化数据库收集到按照客户端提交的既定算法(如hash算法，均衡算法)对已存储的非结构化文件计算得到文件结果，各个计算结果在计算完成后将计算结果统一存储到目标文件表中，再待客户端发出确认请求；返回计算结果，非结构化数据库返回客户端提交的计算结果，提供统一标准的数据输出格式，如标准sql格式，json格式；资源增减模块：非结构化数据库资源增加/减少操作，当其中有资源的增减时操作，数据库会首先访问存储的元数据来做数据资源的判断，然后再通过平衡算法来对比新增/减少资源得出计算模型，最后执行算法模型达到资源的均衡；操作接口模块：非结构化数据库的操作接口，接口操作均采用restful接口的方式，规定好各请求和返回参数；管理模块：非结构化数据库的维护管理，会开发出图形界面和后端命令行，再通过不同用户角登录的方式来管理非结构化数据库。2.根据权利要求1所述的一种非结构化数据库的系统，其特征在于，还包括迁移模块，非结构化数据库的迁移，首先元数据会在自身同步机制的作用下无差别的分布在主备服务器上，然后在做迁移的时候先迁移备用主服务器中的元数据再迁移常用主服务器中元数据，以防止元数据的数据落单，最终迁移计算数据，使计算数据迁移到新的目标端。3.根据权利要求1所述的一种非结构化数据库的系统，其特征在于，检索功能模块中获取目标数据的规则算法，具体包括文本检索算法，数字模糊匹配算法，数据流图像识别算法。4.根据权利要求1所述的一种非结构化数据库的系统，其特征在于，存储功能模块中存储格式采用hdfs的文本格式，空间管理采用分布式文件管理方法，网络协议采用集中式网络资源管理方式。

技术总结

本发明涉及数据库领域，提供了一种非结构化数据库的系统。本发明的目的在于解决企业数据库的连续性和高效性的技术问题。该系统主要包括查询功能模块、检索功能模块、存储功能模块、计算功能模块、资源增减模块、操作接口模块、管理模块，提供多种数据存储格式，能有效的解决在使用中数据格式异常的问题，提供多种数据访问/获取方式，使用起来更加快捷方便，支持在线增加/减少节点的操作而不影响整个数据库集。集。