存储网络架构——DAS、NAS、SAN、分布式存储组网架构-陌上烟雨遥

物理存储的类型

存储的类型主要包含块存储、文件存储、对象存储、表格存储等

常用的为块存储和文件存储（文件存储可以直接进行文件读写，块存储需要进行文件系统格式化后才可以进行文件读写）

块存储

本质就是直接将磁盘空间通过各种方式提供给主机

可扩展性和课管理性差

读写效率好，延迟低

文件级存储

在硬件存储上建立文件系统，然后直接将文件提供给主机

读写效率低，延迟大

扩展性好、易于管理，价格便宜

NAS网络中所有连接到NAS服务器的电脑，都能够直接访问NAS服务器，NAS服务器提供了文件级的存储服务，就可以通过NAS服务器来共享文件

对象存储

文件存储和对象存储都是用来存储非结构化数据的（图片、视频、音频等），两者最大的不同是数据保管的方式不同

文件系统是以目录树的形式存放文件的，对象存储没有目录结构，存储在对象存储的文件都称为对象，所有对象都放在一个“桶”中（也就是存储空间），是一种非常扁平化的存储方式

每个对象都有由三个部分组成

ID：对象的身份标识，唯一的

Data：真实的数据

Metadata：元数据（元数据是对数据的描述）

元数据的作用

对文件进行分类和标记（可以将一个文件打上多种标记，更加灵活）

信息检索（直接通过标记来找文件，更加快捷）

如何访问

通过对象ID来进行访问，存储到“桶“中的每一个对象都有一个唯一的ID标识（只是一个编号），当想要访问某个对象时，只需要知道其对应的ID就可以，因此对象存储会维护每个ID实际对应的硬盘位置

除了对象和对象真实的信息外，还有对象的元数据

注意实现

对象存储中的文件夹不是一个真正的文件夹，也只是一个对象，但是这个对象代表了一类

在存储时，如果多个用户同时存储了相同的文件，那么在存储后端只有一份关于该文件的数据

存储网络架构

按照服务器类型分为封闭系统和开放系统的存储

封闭系统的存储：主要指的是大型计算机系统

开放系统的存储：指基于Windows、Linux等操作系统的服务器

对于开放系统的存储按照存储的连接方式分为内置存储和外置存储

内置存储：一般指直接和计算机的CPU或主板相连的存储，例如内存、高速缓存等

外置存储：非内置存储就是外置内存

外置存储根据连接的方式分为DAS直连式存储和FAS网络接入存储

FAS网络接入存储又根据网络传输协议分为NAS网络接入存储、SAN存储区域网络

DAS直连式存储

DAS是一种存储设备与使用存储空间的服务器通过总线适配器和SCSI/FC线缆直接相连的技术

DAS的分类

内置DAS

存储设备通过服务器机箱内部的并行/串行总线与服务器相连接（常用IDE和SATA连接协议）

外置DAS

存储设备与服务器基于总线直接连接，通过FC、SCSI等协议进行通信

通过将JBOD（磁盘簇）做RAID，然后与服务器连接，提高数据安全性

DAS的优点

本地数据供给优势明显、成本低、见效快、系统可靠性高

DAS的缺点

存在数据传输距离有限、存储所能连接的设备数量有限、资源共享受限等问题

NAS网络附加存储

NAS是一种将存储设备连接到网络上，通过网络共享协议向主机提供数据和文件服务的一种存储网络架构

特点

文件系统由存储设备维护，用户访问文件系统，不直接访问底层存储

存储设备拥有所有主机上文件与底层存储空间的映射，所以此模式非常利于共享

NAS一般使用用户的业务网络来传输存储数据，可能会影响业务传输

NAS组网

最常用的网络共享协议

CIFS（Window）、NFS（Linux）、FTP、HTTP、NDMP等

优缺点

优点：可以实现跨平台的数据共享

缺点：应用有局限，不太适合对存储有大规模需求的场景（例如：无法在NAS存储上安装操作系统）

SAN存储区域网络

SAN是一种高可用性、高性能的专用存储网络，通过专用的存储网络将服务器和存储设备连接起来（这个网络可以是FC网络，也可以是IP网络，具体取决于服务器和磁盘阵列之间通过什么样的存储协议进行通信）

特点

SAN向主机提供块存储，主机访问块存储（LUN），然后在其中创建文件，文件存储由主机端维护，主机与主机之间的文件系统没有同步

例如：当用户1与用户2访问存储数据时，对于用户2来说，他不知道用户1使用的哪些存储资源，那用户2就有可能写入资源覆盖了用户1的资源

搭建专用于存储的网络，安全性高，成本高

为了使得主机之间使用了哪些存储资源进行同步，这个数据同步的而过程我们称为集群文件系统，是通过在主机上安装相应的软件来实现的；但是集群文件系统使用有限制：所支持主机同步的最大数量为128台主机左右

SAN组网架构

最常用的SAN存储网络

IP SAN（主机通过IP网络可以获取到存储设备上的块存储）

FC SAN（主机通过FC网络可以获取到存储设备上的块存储）

FCoE SAN（RCoE网络是将FC帧封装到以太网种，实现在以太网基础设施上传输光纤信号的功能，成本降低）

IP SAN 与 FC SAN的区别

分布式存储组网

传统存储存在的问题

1、性能瓶颈

集中存储都是使用的专用的存储设备，而专用存储设备主要有控制单元和存储单元组成；控制单元中直接与外界交流的机头，会有数据吞吐量的限制，影响性能瓶颈；存储单元中RAID卡或总线的带宽都有一个上限，这个上限在一定程度上也会影响集中存储的性能瓶颈
2、不同厂家传统存储之间具有差异性，不方便同一管理

3、专用存储设备的成本高（远高于x86服务器价格）

4、传统的SAN、NAS扩展能力受限，不能满足大规模存储应用的需要

分布式存储基本概念–存储资源虚拟化

分布式存储是通过在服务器（称之为存储服务器）上安装相应软件（例如FusionStorage），将各个服务器上的HDD、SSD等存储介质资源虚拟成一个大的存储资源池，将分散的存储资源整合到一起，在保证可靠性的同时提供多种存储服务；在使用分布式存储时一般都会配合使用存储虚拟化

分布式存储组网架构

主要分为前端业务网络、管理网络和后端存储网络

前端业务/租户组网：用于分布式网络与用户网络对接，提供给租户使用

后端存储组网：用于后端存储连接

管理网络：与用户维护网络对接

分布式存储后端网络一般采用10GE，25GE和IB网络；前端网络一般采用GE，10GE，25GE网络

分布式存储如何保证数据的可靠性

传统的RAID在分布式存储中遇到了瓶颈，因此提出了多副本和纠错码等新的数据保护方式

1、多副本

多副本就是创建多个副本，也就是在保存数据时，会将一个数据拷贝多份完全一样的副本，然后分别存放在多个不同的节点上；当某个副本丢失时，可以通过另一个副本复制来恢复数据

一般创建双副本和三副本

2、纠错码（nDxP）

纠删码就是一种纠正数据丢失的校验码，通过校验的方式来恢复数据

nDxP：n个数据盘和x个校验盘

4D2P：4块存储数据，2块做校验

双副本三副本纠删码（2D1P）

存储空间利用率 50% 33.33% D/D+P

整体IO效率 50% 33% D/D+P

最低配置要求 2 3 D+P

可靠性允许1块坏允许2块坏 P块盘

特点

分布式存储通过存储虚拟化将存储设备进行抽象，以逻辑资源的方式呈现，统一提供全面的存储服务

可以在不同的存储形态或者设备类型之间提供统一的功能（即物理资源可以是服务器存储资源、专用存储设备的存储资源等，将其虚拟为统一的逻辑资源）

成本降低、横向扩展能力强、资源部利用率更高、管理方便