物理存储的类型
存储的类型主要包含块存储、文件存储、对象存储、表格存储等
常用的为块存储和文件存储(文件存储可以直接进行文件读写,块存储需要进行文件系统格式化后才可以进行文件读写)
块存储
本质就是直接将磁盘空间通过各种方式提供给主机
可扩展性和课管理性差
读写效率好,延迟低
文件级存储
在硬件存储上建立文件系统,然后直接将文件提供给主机
读写效率低,延迟大
扩展性好、易于管理,价格便宜
NAS网络中所有连接到NAS服务器的电脑,都能够直接访问NAS服务器,NAS服务器提供了文件级的存储服务,就可以通过NAS服务器来共享文件
对象存储
文件存储和对象存储都是用来存储非结构化数据的(图片、视频、音频等),两者最大的不同是数据保管的方式不同
文件系统是以目录树的形式存放文件的,对象存储没有目录结构,存储在对象存储的文件都称为对象,所有对象都放在一个“桶”中(也就是存储空间),是一种非常扁平化的存储方式
每个对象都有由三个部分组成
ID:对象的身份标识,唯一的
Data:真实的数据
Metadata:元数据(元数据是对数据的描述)
元数据的作用
- 对文件进行分类和标记(可以将一个文件打上多种标记,更加灵活)
- 信息检索(直接通过标记来找文件,更加快捷)
如何访问
通过对象ID来进行访问,存储到“桶“中的每一个对象都有一个唯一的ID标识(只是一个编号),当想要访问某个对象时,只需要知道其对应的ID就可以,因此对象存储会维护每个ID实际对应的硬盘位置
除了对象和对象真实的信息外,还有对象的元数据
注意实现
对象存储中的文件夹不是一个真正的文件夹,也只是一个对象,但是这个对象代表了一类
在存储时,如果多个用户同时存储了相同的文件,那么在存储后端只有一份关于该文件的数据
存储网络架构
按照服务器类型分为封闭系统和开放系统的存储
封闭系统的存储:主要指的是大型计算机系统
开放系统的存储:指基于Windows、Linux等操作系统的服务器
对于开放系统的存储按照存储的连接方式分为内置存储和外置存储
内置存储:一般指直接和计算机的CPU或主板相连的存储,例如内存、高速缓存等
外置存储:非内置存储就是外置内存
外置存储根据连接的方式分为DAS直连式存储和FAS网络接入存储
FAS网络接入存储又根据网络传输协议分为NAS网络接入存储、SAN存储区域网络
DAS直连式存储
DAS是一种存储设备与使用存储空间的服务器通过总线适配器和SCSI/FC线缆直接相连的技术
DAS的分类
内置DAS
存储设备通过服务器机箱内部的并行/串行总线与服务器相连接(常用IDE和SATA连接协议)
外置DAS
存储设备与服务器基于总线直接连接,通过FC、SCSI等协议进行通信
通过将JBOD(磁盘簇)做RAID,然后与服务器连接,提高数据安全性
DAS的优点
本地数据供给优势明显、成本低、见效快、系统可靠性高
DAS的缺点
存在数据传输距离有限、存储所能连接的设备数量有限、资源共享受限等问题
NAS网络附加存储
NAS是一种将存储设备连接到网络上,通过网络共享协议向主机提供数据和文件服务的一种存储网络架构
特点
文件系统由存储设备维护,用户访问文件系统,不直接访问底层存储
存储设备拥有所有主机上文件与底层存储空间的映射,所以此模式非常利于共享
NAS一般使用用户的业务网络来传输存储数据,可能会影响业务传输
NAS组网
最常用的网络共享协议
CIFS(Window)、NFS(Linux)、FTP、HTTP、NDMP等
优缺点
优点:可以实现跨平台的数据共享
缺点:应用有局限,不太适合对存储有大规模需求的场景(例如:无法在NAS存储上安装操作系统)
SAN存储区域网络
SAN是一种高可用性、高性能的专用存储网络,通过专用的存储网络将服务器和存储设备连接起来(这个网络可以是FC网络,也可以是IP网络,具体取决于服务器和磁盘阵列之间通过什么样的存储协议进行通信)
特点
SAN向主机提供块存储,主机访问块存储(LUN),然后在其中创建文件,文件存储由主机端维护,主机与主机之间的文件系统没有同步
例如:当用户1与用户2访问存储数据时,对于用户2来说,他不知道用户1使用的哪些存储资源,那用户2就有可能写入资源覆盖了用户1的资源
搭建专用于存储的网络,安全性高,成本高
为了使得主机之间使用了哪些存储资源进行同步,这个数据同步的而过程我们称为集群文件系统,是通过在主机上安装相应的软件来实现的;但是集群文件系统使用有限制:所支持主机同步的最大数量为128台主机左右
SAN组网架构
最常用的SAN存储网络
IP SAN(主机通过IP网络可以获取到存储设备上的块存储)
FC SAN(主机通过FC网络可以获取到存储设备上的块存储)
FCoE SAN(RCoE网络是将FC帧封装到以太网种,实现在以太网基础设施上传输光纤信号的功能,成本降低)
IP SAN 与 FC SAN的区别
分布式存储组网
传统存储存在的问题
1、性能瓶颈
集中存储都是使用的专用的存储设备,而专用存储设备主要有控制单元和存储单元组成;控制单元中直接与外界交流的机头,会有数据吞吐量的限制,影响性能瓶颈;存储单元中RAID卡或总线的带宽都有一个上限,这个上限在一定程度上也会影响集中存储的性能瓶颈
2、不同厂家传统存储之间具有差异性,不方便同一管理3、专用存储设备的成本高(远高于x86服务器价格)
4、传统的SAN、NAS扩展能力受限,不能满足大规模存储应用的需要
分布式存储基本概念–存储资源虚拟化
分布式存储是通过在服务器(称之为存储服务器)上安装相应软件(例如FusionStorage),将各个服务器上的HDD、SSD等存储介质资源虚拟成一个大的存储资源池,将分散的存储资源整合到一起,在保证可靠性的同时提供多种存储服务;在使用分布式存储时一般都会配合使用存储虚拟化
分布式存储组网架构
主要分为前端业务网络、管理网络和后端存储网络
前端业务/租户组网:用于分布式网络与用户网络对接,提供给租户使用
后端存储组网: 用于后端存储连接
管理网络: 与用户维护网络对接
分布式存储后端网络一般采用10GE,25GE和IB网络;前端网络一般采用GE,10GE,25GE网络
分布式存储如何保证数据的可靠性
传统的RAID在分布式存储中遇到了瓶颈,因此提出了多副本和纠错码等新的数据保护方式
1、多副本
多副本就是创建多个副本,也就是在保存数据时,会将一个数据拷贝多份完全一样的副本,然后分别存放在多个不同的节点上;当某个副本丢失时,可以通过另一个副本复制来恢复数据
一般创建双副本和三副本
2、纠错码(nDxP)
纠删码就是一种纠正数据丢失的校验码,通过校验的方式来恢复数据
nDxP:n个数据盘和x个校验盘
4D2P:4块存储数据,2块做校验
双副本 三副本 纠删码(2D1P) 存储空间利用率 50% 33.33% D/D+P 整体IO效率 50% 33% D/D+P 最低配置要求 2 3 D+P 可靠性 允许1块坏 允许2块坏 P块盘 特点
分布式存储通过存储虚拟化将存储设备进行抽象,以逻辑资源的方式呈现,统一提供全面的存储服务
可以在不同的存储形态或者设备类型之间提供统一的功能(即物理资源可以是服务器存储资源、专用存储设备的存储资源等,将其虚拟为统一的逻辑资源)
成本降低、横向扩展能力强、资源部利用率更高、管理方便
原文链接:https://blog.csdn.net/m0_49864110/article/details/130449735