一、云存储系统简介
作为近来兴起的“云计算”的一大重要组成部分,“云存储”承担着最底层收集、存储和处理数据的任务。云存储提供的是存储服务,存储服务通过网络将本地数据存放在存储服务提供商(SSP)提供的在线存储空间。在此基础上,展开着上层的云平台、云服务等业务。与传统的存储设备相比,云存储不仅仅是一个硬件,而且是一个网络设备、存储设备、服务器、应用软件、公共访问接口、接入网和客户端程序等多个部分组成的系统[1]。需要存储服务的用户不再需要建立自己的数据中心,只需向SSP申请存储服务,从而避免了存储平台的重复建设,节约了昂贵的软硬件基础设施投资。
云存储平台整体架构可划分为4个层次,自底向上依次是:存储层、基础管理层、应用接口层以及访问层。各层的作用如下图所示。
图1:云存储架构层次
与传统的购买存储设备和部署存储软件相比,云存储方式存在着成本低,见效快、易于管理、方式灵活等优点。但是,由于云存储系统面向多种类型的网络在线存储服务,用户规模大、服务范围广、网络环境复杂多变,云存储也面临着安全、数据完整性、复制时间和成本、可靠性等方面的挑战[2]。
随着研究的不断深入,出现了HDFS、Swift、Ceph等云存储系统。
HDFS(Hadoop分布式文件系统)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统[3]。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用[4]。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的,Apache Hadoop Core项目的一部分。
Swift(OpenStack Object Storage)是OpenStack开源云计算项目的子项目之一,被称为对象存储,提供了强大的扩展性、冗余和持久性。Swift 构筑在比较便宜的标准硬件存储基础设施之上,无需采用 RAID(磁盘冗余阵列),通过在软件层面引入一致性散列技术和数据冗余性,牺牲一定程度的数据一致性来达到高可用性和可伸缩性,支持多租户模式、容器和对象读写操作[5],适合解决互联网的应用场景下非结构化数据存储问题[6]。
Ceph[7]是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式的存储系统。“统一的”意味着Ceph可以一套存储系统同时提供对象存储、块存储和文件系统存储三种功能,以便在满足不同应用需求的前提下简化部署和运维。而“分布式的”在Ceph系统中则意味着真正的无中心结构和没有理论上限的系统规模可扩展性。在实践当中,Ceph可以被部署于上千台服务器上。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。