首页 > 学术百科

浅谈常见的NoSQL技术方案和选型

浅谈常见的NoSQL技术⽅案和选型

前⾔

在互联⽹和⼤数据的背景下，越来越多的⽹站、应⽤系统需要⽀撑海量数据存储、⾼并发请求、⾼可⽤、⾼可扩展性等特性要求。传统的关系型数据库已经难以应对类似的需求，各种各样的 NoSQL（Not Only SQL）数据库因此⽽产⽣。

本⽂将分析传统数据库的存在的问题，以及⼏类 NoSQL 如何解决这些问题。在不同的业务场景下，作出正确的数据存储技术选型。正⽂

1. 传统数据库缺点

缺点解释说明

⼤数据场景下 I/O 较⾼因为数据是按⾏存储，即使只针对其中某⼀列进⾏运算，关系型数据库也会对整⾏数据进⾏扫描，从存储设备中读⼊内存，导致 I/O 较⾼

结构化存储不够灵活存储的是⾏记录，⽆法存储灵活的数据结构

表结构 schema 扩展不⽅便如要需要修改表结构，需要执⾏执⾏ DDL（data definition language）语句修改，修改期间会导致锁表，部分服务不可⽤

全⽂搜索功能较弱关系型数据库只能够进⾏⼦字符串的匹配查询，当表的数据逐渐变⼤的时候，即使在有索引的情况下，like 扫表查询的匹配会⾮常慢

难以存储和处理复杂关系

型数据

传统的关系数据库，并不擅长处理数据点之间的关系

2. NoSQL简介

NoSQL，泛指⾮关系型的数据库，可以理解为关系型数据库的⼀个有⼒补充。

NoSQL 在许多⽅⾯性能⼤⼤优于⾮关系型数据库的同时，往往也伴随⼀些特性的缺失。⽐较常见的是事务功能的缺失。数据库事务正确执⾏的四个基本要素 ACID 如下：

名称描述

丁学强

A Atomicity(原⼦性)

C Consistency⼀致性

I Isolation隔离性

国术联盟D Durability持久性

针对传统关系型数据库的不⾜，下⾯介绍常见的 5 ⼤类 NoSQL 解决⽅案：

3. 列式数据库

列式数据库是以列相关存储架构进⾏数据存储的数据库，主要适合于批量数据处理和即时查询。相对应的是⾏式数据库，数据以⾏相关的存储架构进⾏空间分配，主要适合于⼩批量的数据处理，常⽤于联机事务型数据处理。

基于列式数据库的列存储特性，可以解决某些特定场景下关系型数据库⾼ I/O 的问题。

3.1. 基本原理

传统关系型数据库是按照⾏来存储数据库，称为⾏式数据库，⽽列式数据库是按照列来存储数据。

将表放⼊存储系统中有两种⽅法，⽽我们绝⼤部分是采⽤⾏存储的。⾏存储法是将各⾏放⼊连续的物理位置，这很像传统的记录和⽂件系统。

列存储法是将数据按照列存储到数据库中，与⾏存储类似，下图是两种存储⽅法的图形化解释：

3.2. 常见列式数据库

3.2.1. H Ba se

HBase 是⼀个开源的⾮关系型分布式数据库（NoSQL），它参考了⾕歌的 BigTable 建模，实现的编程语⾔为 Java。它是 Apache 软件基⾦会的 Hadoop 项⽬的⼀部分，运⾏于 HDFS ⽂件系统之上，为 Hadoop 提供类似于 BigTable 规模的服务。因此，它可以容错地存储海量稀疏的数据。

3.2.2. BigTa ble

BigTable 是⼀种压缩的、⾼性能的、⾼可扩展性的，基于 Google ⽂件系统（Google File System，GFS）的数据存储系统，⽤于存储⼤规模结构化数据，适⽤于云计算。

3.3. 相关特性

3.3.1. 优点

⾼效的储存空间利⽤率

列式数据库针对不同列的数据特征⽽发明了不同算法，使其⽐⾏式数据库⾼的多的压缩率。普通的⾏式数据库⼀般压缩率在 3：1 到5：1 左右，⽽列式数据库的压缩率⼀般在 8：1 到 30：1 左右。

⽐较常见的，通过字典表压缩数据：

下⾯才是那张表本来的样⼦。经过字典表进⾏数据压缩后，表中的字符串才都变成数字。正因为每个字符串在字典表⾥只出现了⼀次，所以达到了压缩的⽬的。

查询效率⾼

读取多条数据的同⼀列效率⾼，因为这些列都是存储在⼀起的，⼀次磁盘操作可以数据的指定列全部读取到内存中。下图通过⼀条查询的执⾏过程说明列式存储（以及数据压缩）的优点。

意象艺术

执⾏步骤如下：

1. 去字典表⾥到字符串对应数字（只进⾏⼀次字符串⽐较）。

2. ⽤数字去列表⾥匹配，匹配上的位置设为 1。

3. 把不同列的匹配结果进⾏位运算得到符合所有条件的记录下标。

4. 使⽤这个下标组装出最终的结果集。

适合做聚合操作

适合⼤量的数据⽽不是⼩数据

3.3.2. 缺点

不适合扫描⼩量数据

不适合随机的更新

不适合做含有删除和更新的实时操作

单⾏数据⽀持 ACID 的事务操作，多⾏数据的事务操作，不⽀持事务的正常回滚，⽀持（Isolation）隔离性、(Durability）持久性，不能保证 (Atomicity）原⼦性、（Consistency）⼀致性。

3.4. 应⽤场景

列数据库的适⽤场景，以 HBase 为例说明：

适合⼤数据量 (100TB 级数据），有快速随机访问的需求。

适合写密集型应⽤，每天写⼊量巨⼤，⽽读数量相对较⼩的应⽤，⽐如 IM 的历史消息，游戏⽇志等等。

适合不需要复杂查询条件来查询数据的应⽤。HBase 只⽀持基于 rowkey 的查询，对于 HBase 来说，单条记录或者⼩范围的查询是可以接受的。⼤范围的查询由于分布式的原因，可能在性能上有点影响。HBase 不适⽤于有 join，多级索引，表关系复杂的数据模型。

对性能和可靠性要求⾮常⾼的应⽤。

由于 HBase 本⾝没有单点故障，可⽤性⾮常⾼。

适合数据量较⼤，⽽且增长量⽆法预估的应⽤，需要进⾏优雅的数据扩展的应⽤。HBase ⽀持在线扩展，即使在⼀段时间内，数据量呈井喷式增长，也可以通过 HBase 横向扩展来满⾜功能。

存储结构化和半结构化的数据。

4. K-V数据库

4.1. 基本概念

指的是使⽤键值（key-value）存储的数据库，其数据按照键值对的形式进⾏组织、索引和存储。

KV 存储⾮常适合不涉及过多数据关系业务的数据。它能够有效减少读写磁盘的次数，⽐ SQL 数据库存储拥有更好的读写性能，能够解决关系型数据库⽆法存储数据结构的问题。

4.2. 常见K-V数据库

4.2.1. R edis

Redis 是⼀个使⽤ ANSI C 编写的开源、⽀持⽹络、基于内存、可选持久性的键值对存储数据库。Redis 是⽬前最流⾏的键值对存储数据库之⼀。

4.2.2. Ca ssa ndra

Apache Cassandra（社区内⼀般简称为 C*）是⼀套开源的分布式 NoSQL 数据库系统。它最初由 Facebook 开发，⽤于储存收件箱等简单格式数据，集 Google BigTable 的数据模型与 Amazon Dynamo 的完全分布式架构于⼀⾝。Cassandra 是⼀种流⾏的分布式结构化数据存储⽅案。

4.2.3. Memc a c hed

Memcached 是⼀个开放源代码、⾼性能、分配的内存对象缓存系统。⽤于加速动态 web 应⽤程序，减轻关系型数据库负载。它可以应对任意多个连接，使⽤⾮阻塞的⽹络 IO。由于它的⼯作机制是在内存中开辟⼀块空间，然后建⽴⼀个 Hash 表，Memcached ⾃管理这些Hash 表。

Memcached 简单⽽强⼤。它简单的设计促进迅速部署，易于发现所⾯临的问题，解决了很多⼤型数据缓存。

4.2.4. LevelDB

LevelDB 是⼀个由 Google 所研发的键／值对（Key/Value Pair）嵌⼊式数据库管理系统编程库，以开源的 BSD 许可证发布。

4.3. 相关特性

永生的眼睛教学设计

K-V 数据库的相关特性，以 Redis 为例说明：

4.3.1. 优点

性能极⾼

Redis 单机最⾼能⽀持超过 10W 的 TPS。

丰富的数据类型

Redis ⽀持包括 String，Hash，List，Set，Sorted Set，Bitmap 和 Hyperloglog 等数据结构。

丰富的特性

Redis 还⽀持 publish/subscribe，通知，key 过期等特性。

4.3.2. 缺点

Redis 事务不能⽀持原⼦性和持久性（A 和 D），只⽀持隔离性和⼀致性（I 和 C）。

这⾥所说的⽆法保证原⼦性，是针对 Redis 的事务操作，因为事务是不⽀持回滚（roll back），⽽因为 Redis 的单线程模型，Redis 的普通操作是原⼦性的。

4.4 应⽤场景

4.4.1. 适⽤场景

适合存储⽤户信息（⽐如会话）、配置⽂件、参数、购物车等等。这些信息⼀般都和 ID 挂钩。

4.4.2. 不适⽤场景

不适合需要通过值来查询，⽽不是键来查询。Key-Value 数据库中根本没有通过值查询的途径。

不适合需要储存数据之间的关系。在 Key-Value 数据库中不能通过两个或以上的键来关联数据。

不适合需要⽀持事务的场景。在 Key-Value 数据库中故障产⽣时不可以进⾏回滚。

5. ⽂档型数据库

5.1. 基本概念

⽂档数据库⽤于将半结构化数据存储为⽂档的⼀种数据库。⽂档数据库通常以 JSON 或 XML 格式存储数据。

由于⽂档数据库的 no-schema 特性，可以存储和读取任意数据。

由于使⽤的数据格式是 JSON 或者 BSON，因为 JSON 数据是⾃描述的，⽆需在使⽤前定义字段，读取⼀个 JSON 中不存在的字段也不会导致 SQL 那样的语法错误，可以解决关系型数据库表结构 schema 扩展不⽅便的问题。

5.2. 常见⽂档数据库

5.2.1. Mo ngo DB

果蔬气调库MongoDB 是⼀个基于分布式⽂件存储的数据库。由 C++ 语⾔编写。旨在为 WEB 应⽤提供可扩展的⾼性能数据存储解决⽅案。MongoDB 是⼀个介于关系数据库和⾮关系数据库之间的产品，是⾮关系数据库当中功能最丰富，最像关系数据库的 NoSQL。时代经贸

5.2.2. Co uc hDB

CouchDB 是⽤ Erlang 开发的⾯向⽂档的分布式数据库，⽤于存储半结构化的数据，⽐较类似 lucene 的 index 结构。

CouchDB ⽀持 RESTful API，它使⽤ JSON 作为存储格式，JavaScript 作为查询语⾔，MapReduce 和 HTTP 作为 API 的 NoSQL 数据库。其中⼀个显著的功能就是多主复制功能。除此之外，CouchDB 构建在强⼤的 B- 树储存引擎之上。

5.3. 相关特性

⽂档型数据库的相关特性，以 MongoDB 为例进⾏说明：

5.3.1. 优点

新增字段简单不需要像关系型数据库⼀样，先执⾏ DDL 语句修改表结构，程序代码直接读写即可。

容易兼容历史数据。对于历史数据，即使没有新增的字段，也不会导致错误，只会返回空值，此时代码兼容处理即可。

容易存储复杂数据。JSON 是⼀种强⼤的描述语⾔，能够描述复杂的数据结构。

5.3.2. 缺点

相⽐传统关系型数据库，⽂档数据库的缺点，主要是对多条数据记录的事务⽀持较弱，具体体现如下：

Atomicity（原⼦性）：仅⽀持单⾏/⽂档级原⼦性，不⽀持多⾏、多⽂档、多语句原⼦性。

Isolation（隔离性）：隔离级别仅⽀持已提交读（Read committed）级别，可能导致不可重复读，幻读的问题。

不⽀持复杂查询。例如 join 查询，如果需要 join 查询，需要多次操作数据库。

5.4. 应⽤场景

5.4.1. 适⽤场景

数据量很⼤或者未来会变得很⼤。

表结构不明确，且字段在不断增加，例如内容管理系统，信息管理系统。

5.4.2. 不适⽤场景

在不同的⽂档上需要添加事务。Document-Oriented 数据库并不⽀持⽂档间的事务。

多个⽂档之间需要复杂的查询，例如 join 操作。

6. 全⽂搜索引擎

6.1. 基本概念

本文发布于:2024-09-23 07:23:29，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/37943.html

上一篇：基于Unity的倾斜摄影海量快速加载方法及设备的制作流程

下一篇：从传统关系型数据库到NoSQL非关系型数据库（《分布式数据库HBase》导论）

标签：数据数据库关系查询适合需要事务

留言与评论（共有 0 条评论）