3

文件类数据存储系统架构优化实践经验

 2 years ago
source link: https://www.51cto.com/article/717416.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

文件类数据存储系统架构优化实践经验

作者:twt社区 2022-08-30 07:39:37
GPFS是一种高性能的并行文件系统,其底座很多也是使用FC组网的SAN存储。GPFS大多适用于高性能计算场景,或者是和企业其他IT技术生态捆绑使用。另一方面,GPFS在构建同城或异地容灾时,也有一定的局限性,很多也是基于底层SAN存储来做的数据级容灾。

需求分析和技术路线篇

对于很多中小金融机构来讲,由于历史原因,企业的存储形态往往较为单一,存储系统并未做分类和分级建设。比如,对于集中式存储来讲,只有SAN存储,而并未使用NAS存储。这样一来,对于文件共享场景,很多企业有用到GPFS来构建分布式集群文件系统来满足业务系统文件共享场景需求。

实际上,GPFS是一种高性能的并行文件系统,其底座很多也是使用FC组网的SAN存储。GPFS大多适用于高性能计算场景,或者是和企业其他IT技术生态捆绑使用。另一方面,GPFS在构建同城或异地容灾时,也有一定的局限性,很多也是基于底层SAN存储来做的数据级容灾。

如果从企业的存储系统发展来看,随着企业存储管理的精细化,可以看到,GPFS和NAS的使用场景也开始逐渐分流,两种技术分别适用于不同的业务场景中,可以说两者是“术业有专攻”。对于低时延的高性能场景或者是多业务系统之间文件交互场景,即插即用的NAS存储可以说带来了极大的便利。此外,集中式的NAS存储也有成熟的双活以及异步复制解决方案,很好的匹配了企业的文件高可用性建设需求。

此外,在海量非结构化数据存储优化方面,对象存储技术扮演了重要角色。近年来,对象存储凭借其优异的成本优势、强大的横向和快速扩展能力以及丰富的服务接口特性在国内取得了快速发展,同时交付了很多成功案例。而对于传统的银行业,对象存储也有不少落地案例。从应用场景来看,主要用于对接ECM内容管理平台和备份系统的分层建设中。

一、背景和必要性

目前,我行的非结构化数据主要存储在构建于传统集中式块存储之上的IBM GPFS并行文件系统中。这些非结构化数据的文件数量和容量随着业务规模的发展呈逐年激增的趋势,而这种使用存储的方式灵活性不高,同时带来了过高的成本开销。

GPFS构建在FC SAN存储之上,消耗了较多的SAN存储资源以及中间的FC交换网络资源。而从使用场景来看,GPFS主要用于前端的应用服务器集群,随着行里云平台的广泛使用,这种应用服务器外联FC SAN存储的架构也给应用服务器入云带来了制约,进而由于消耗了更多的物理服务器也会带来额外的成本开销。另外,由于GPFS和数据库类的应用争抢存储资源,也给这些联机交易类系统带来了一定的性能冲击。随着行里的业务种类越来越丰富,不同类型数据的合理存放成为亟待解决的问题。

针对上述问题,我行2018年引入了中低端NAS存储设备,用于存储文件类的数据,为数据的分类存储提供了便利,使得存储的使用方式更趋于合理化。然而,按照我行存储资源池的分级架构建设规划,需要额外建设具备双活能力的高端NAS存储系统,满足GPFS场景中重要业务系统的文件共享需求和同城双活的高可用需求。为此,我行近两年来构建了高端NAS同城双活架构,同时,异地部署了一台低端NAS存储,进而实现了依托NAS存储复制技术的3DC高可用架构。而现有的中低端NAS存储,可以继续承载GPFS场景中的一般重要业务系统的文件存储需求。

除了非结构化数据存储架构优化之外,我行另一个需要逐步优化的场景是系统间的文件交互。目前,我行使用专门的文件传输工具进行各系统间的文件传递,软件架构较为复杂,同时运维难度也略大。此外,由于各业务系统分布在不同的网络区域,跨区的文件传输流量也会给各区域的边界防火墙带来性能压力。为此,我们可以借助NAS存储构建文件交互平台,不但省去了文件在各系统间的频繁传递,提高业务系统效率,同时,依托NAS存储的多网络区域覆盖能力,可以避免产生跨区流量,进而规避对边界防火墙的性能冲击。

下面两张图分别是NAS引进前、后的文件类数据存储系统高可用架构图:

图片

图一 构建在SAN存储复制技术上的文件高可用架构

图片

图二 依托NAS存储3DC方案构建的文件高可用架构

实际上,在我行的整体存储体系和存储架构规划中,SAN存储、NAS存储和对象存储有其各自的定位和应用场景。SAN存储适用于存储结构化数据,如数据库类应用,满足其高并发、低延迟的高性能需求。NAS存储适用于多服务器共享文件场景或构建文件传输平台,对性能要求没有SAN存储高,但成本要低。对象存储适用于存储海量非结构化数据(文件、影印件、音视频等),当文件数量达到数十亿、存储容量达到几十PB以上的量级时,其性能和总体拥有成本较之于NAS更具优势。

二、技术路线对比

对于文件类数据存储的解决方案,实际上我们从业界不难看到基本包括分布式集群文件系统、分布式NAS存储、传统集中式NAS存储以及对象存储等。

这些存储技术各具特色,分别适用不同的业务场景。比如分布式集群文件系统或者称为并行文件系统解决方案,例如:GPFS、Cephfs、GlusterFS、HDFS、GFS等。对于这些集群文件系统,有些存在元数据节点,有些则是没有元数据节点的对称架构,另外在文件的分片尺寸上也略有区别,但总体上来讲,这些分布式文件系统或者是分布式NAS存储基本适用于高性能计算场景或者是大文件处理场景中。而对于一般文件共享场景以及多系统文件交互场景,采用传统集中式NAS存储则更为便捷。

如果从文件规模角度来看,对于文件数量在千万级以下,文件容量在百TB级别,传统NAS技术可以承载。而对于文件数量在亿级别,文件容量在几十PB以上的情况下,采用对象存储则更能凸显价值。

对象存储可以说是云存储中一个重要技术分支,是近年来在国内发展最快的存储形态之一。无论是在传统行业还是互联网行业都有很多落地案例。在架构体系形态上,由于对象存储用于存储和处理海量的非结构化数据,例如文件、图片、音视频、影印件等,所以要求其有强大的扩展能力,而无疑采用分布式架构更便于横向、快速的扩展。在应用形态上,对象存储暴露给前端的主要是S3协议,一种面向Web的RESTful API接口,需要前端应用针对这种特别的接口进行定制化开发。而为了兼容老的应用,对象存储在前端还可以进行特别“包装”,从而可以提供丰富的NAS接口协议,甚至和Hadoop大数据平台还有S3A接入适配协议。

从对象存储在银行业的应用场景来看,可以分为两个大类,分别是业务系统处理和历史数据备份及归档。在业务系统支持上,对象存储可以对接ECM内容管理平台,作为后端的数据存储系统。这样一方面可以有效发挥其处理海量非结构化数据的性能和成本优势。另一方面,对象存储还可以提供丰富的业务附加功能,如业务元数据Metadata标签,便于对业务数据做标记,提高业务数据快速检索能力。另一个场景可以用在备份系统的分层建设中。对象存储可以作为备份系统中磁带介质层的上层,用于作为近线备份的存储,提升历史数据的检索效率。此外,在大数据平台场景中,对象存储凭借S3A适配协议可以实现和大数据平台的对接,提供历史数据归档能力。

三、存储分类分级建设

通过项目实施,实现了我行NAS文件存储资源池的分级建设。随着NAS应用的推广和落地,逐渐降低了块存储使用成本,提高了存储的使用灵活度,实现不同类型业务数据的合理存储。特别是借助高端NAS存储设备构建同城双活架构,实现了重要业务系统对于文件存储的高可用需求。较之于先前的GPFS方案,在RPO同为0的情况下,RTO指标得到极大提升。最后,利用NAS存储构建业务系统间文件交互平台,显著提升了业务处理效率。

可以说,在企业IT基础架构优化中,很难有一种技术可以完美替代另一种技术。就如同对象存储的引入并不是对现有企业存储架构的彻底颠覆,而是一种技术的有力补充,分类分级建设的存储资源池可以匹配各自适用的业务场景。传统集中式SAN存储以其高并发、低延迟的特性,适用于数据库类业务场景。NAS文件存储资源池用于解决文件共享或者是系统间的文件交互场景。而对于音频、视频等非结构化数据的处理,采用对象存储则更为合理。正是这些技术的相互补充,才得以最大化地发挥各种技术的效能,从而更好地支撑前端业务系统的稳定、高效运行。

GPFS迁移实践篇

在计划进行GPFS向NAS转型前,要对目标NAS存储做好规划和设计。为了保证NAS存储可以很好地支撑业务需求,同时确保NAS存储系统自身的架构健壮性和性能,可以从容量、性能、架构以及规范等层面对NAS存储进行详细设计。

而对于GPFS向NAS的迁移,要以项目管理的方式进行工作推进。首先是人员的准备,要明确各个条线的工作职责,从而便于各条线做好配合,进而可以保证项目的交付质量。对于具体的迁移工作,要按迁移前、迁移中和迁移后做好整个迁移工作的闭环管理。此外,要做好经验总结,通过持续的PDCA,可以使后续的迁移工作更顺畅和高效。

一、目标NAS存储的规划和设计

在进行GPFS向NAS技术转型之前,要对目标的NAS存储做好规划。可以从容量设计、性能设计、架构设计、规范设计等方面对目标NAS存储提前进行规划。

具体来讲,对于容量设计方面,要以GPFS台账为依据,梳理GPFS文件总容量,此外,需要考虑存储容量年增长率因素,评估出满足业务至少3-5年的存储容量需求。对于性能设计,可以利用存储性能监控工具,形成GPFS业务系统的性能基线,并充分考虑波峰(带宽和OPS),以此作为存储配置的依据。在做性能统计时,有几个注意事项。一是GPFS业务系统在存储上往往较为分散,不同的业务系统服务器会分布在不同的存储设备上,这也是汇总性能数据的一个难点和要注意的地方。二是要特别关注交易量大的系统,抓住带来存储性能消耗的几个关键系统。三是要建立典型业务高峰时点的性能基线,如季度结息、年终决算、双十一等。四是在做性能分析时,要注意辨别共用存储资源的情况。例如GPFS和数据库业务共用存储前端口的情况,在做性能数据收集时,要收集GPFS涉及LUN的性能,而不是端口的性能数据。因为端口属于共用资源,除了GPFS流量,还包括数据库业务贡献的流量。对于架构设计,存储系统首先没有单点故障,然后用于承载重要系统的NAS存储构建基于存储复制技术的3DC架构。

此外,为了提升NAS存储系统各张网络的健壮性和性能,建议构建功能独立、物理隔离的网络。对于业务网络,可以通过LACP链路聚合的方式扩充存储侧的网络带宽。最后,对于规范设计方面,要充分利用NAS存储提供的租户特性,实现各业务系统的安全隔离。有关NAS存储的架构设计将在后续的文章中进行更详细地说明。

下图是华为高端NAS双活系统网络拓扑图,从图中可以看出,正是采用了四网分离的网络架构,即业务网络、复制网络、仲裁网络、管理网络分离,才得以保障各张网络的高可用和高性能。

图片

图三 华为高端NAS双活系统网络拓扑图

二、迁移原则

在GPFS向NAS迁移工作实施前,为了保证迁移质量,同时提升迁移效率,首先制定了迁移的四大原则。

第一是“先做减法”原则,一方面,对于已下线及待下线的系统,积极推动系统下线流程,然后回收所用存储资源。另一方面,推动各业务系统历史数据清理,降低数据迁移量。

第二是“以静制动”原则,对于有改造计划的系统,待系统改造完成后,再决定是否迁移或回收老系统所用存储资源。

第三是“分批推进”原则,为了平稳、高效地完成迁移任务,合理划分迁移批次。此外,迁移工作要由易到难,从简到繁,不断积累经验。

第四是“精细方案”原则,首先,迁移方案要做实做细,要做好迁移前、迁移中、迁移后整个迁移工作的闭环管理。此外,针对不同业务系统,需要定制最佳的个性化迁移方案。比如对于文件目录很深、文件数量特别大的系统,可以采用分批次的迁移方案。

三、迁移方案

如前所述,为了做好整个数据迁移工作的闭环管理,下面将从迁移前的准备工作、迁移实施过程以及迁移后的收尾工作等环节对迁移方案进行展开陈述。

(一)迁移前的准备工作

人员是项目实施的关键因素,在迁移项目中,各个技术条线要做到分工明确,进而才可实现通力合作。系统条线作为提供和保障IT基础设施的技术条线,将作为整个迁移项目的项目经理角色,负责牵头整个数据迁移项目。应用条线配合确认和推进已下线和待下线系统的下线流程,同时,在数据迁移完成后,配合进行必要的业务验证工作。网络条线在迁移工作中负责开通相关的网络访问关系,提供网络方面的技术支持。生产管理条线则负责组织落实相关变更的方案评审以及对外的监管报备工作。

决定迁移项目质量的另一个关键因素是要有一份清晰且精准的GPFS台账。关于台账的准备,可以采用管理维度和技术维度相辅相成的策略。对于管理维度,日常运维工作中形成的完整且及时更新的GPFS台账作为基线。而对于技术维度,一方面可以通过运维自动化平台,编制GPFS文件系统信息导出脚本,形成GPFS全量信息报表。另一方面,可以借助CMDB平台导出GPFS相关报表。通过上述管理和技术的融合,最终形成一份全量的GPFS台账,从而可以指导后续的迁移工作。

(二)迁移实施

  • 目标NAS存储分配到位

对于一般重要业务系统分配低端NAS存储,NAS存储采用本地部署方案,而对于重要系统则分配高端NAS存储,采用NAS同城双活架构。

  • 数据迁移操作流程

将分配的目标NAS存储挂载到临时目录上,如/qianyi

将GPFS挂载点目录下的内容全部拷贝到上述的目标路径下

待拷贝完成后,卸载掉GPFS以及目标NAS文件系统

将目标NAS文件系统挂载到原GPFS挂载点上

对于停机窗口充足的系统,建议在第二步开始前,停止使用GPFS的应用程序。对于停机窗口有限的系统,第三步的拷贝可以使用rsync等支持增量拷贝以及断点续传的命令。对于目录结构深、海量小文件的系统,可以分批次进行数据迁移,如先迁移近期使用的文件及目录,后续再分批次迁移历史文件。

(三)迁移收尾工作

数据迁移完成后,需要组织应用人员进行业务验证,验证新的目标存储可以正常承载业务运行。

为了应对可能发生的遗漏文件的快速查找需求,需要将原GPFS目录挂载到临时目录下,具体操作步骤如下:

图片

待新的NAS投产且平稳运行后,经过一段时间的观察期,可以组织对先前GPFS资源的回收。

四、遇到的问题和解决方法

在做数据迁移时,要充分考虑每个业务系统的文件生成和访问特性。因为不同的系统对不同日期目录的操作方式会有差异,这也是为什么要针对各个系统做定制化的迁移方案。

比如,有的系统在数据迁移窗口期间不会访问历史日期目录,只会在当前日期目录下生成文件。对于这样的业务系统,我们可以利用短暂的窗口,先将GPFS和NAS的挂载点进行切换。这样一来,新的文件就会直接落地到NAS上,然后再迁移其他的目录和文件。

在windows操作系统中做数据拷贝时,我们往往会遇到内存资源不足的情况,这个一般是与一次性拷贝的文件太多有关。对于这个问题,可以在每天的业务空闲时段,按目录分批次进行拷贝。

对于windows操作系统,在挂载NAS存储(映射网络驱动器)时,你会发现重启服务器后,之前挂载的网络驱动器不见了。这是因为在映射网络驱动器时,没有注意有些附加选项。如下图,在映射网络驱动器时,注意要把“登录时重新连接”选项勾选上。然后,注意选择使用其他凭据连接,这样会弹出访问NAS存储的用户名和密码,同时要注意选择让windows记住用户名和密码。

图片

图四 Windows映射网络驱动器

另外,对于Linux或AIX操作系统,同样也要注意把NFS的Mount挂载命令写入开机自启文件里,如对于Suse Linux操作系统,是/etc/init.d/after.local文件;对于红帽Linux,是/etc/rc.d/rc.local;AIX一般可以写入/etc/filesystems文件里。这里面如果是AIX HA场景,因为一般NFS文件系统是随服务IP一起的,所以可以把NFS的挂载和卸载命令写入ha的启停脚本里。

在做数据迁移时,有时会遇到拷到目标目录中的文件时间戳、文件的属主属组或是权限会发生改变,这是因为在执行拷贝时没有用对选项。比如对于cp命令,注意使用-a选项,这个选项包含了-p all的功能,也就是拷贝时会保留文件或目录的上述元数据信息。

在数据迁移过程中,还有个典型问题,就是由于没有更改GPFS的挂载点定义,而只是临时将GPFG文件系统卸载掉。这样一来,在系统重启时,会造成GPFS和NAS的挂载点冲突。如果GPFS成功挂载了,那么新的业务文件就会写入到GPFS文件系统中,进而给整个迁移工作带来麻烦。这也是前文提到的一定要做好迁移工作的闭环管理,注意按上文方法彻底调整GPFS的挂载点。

五、迁移总结

目前,GPFS迁移NAS的工作还在平稳、高效地推进中。通过项目实施,也收获了不少经验。

从技术维度来看,一是对于目标NAS存储设备的架构规划要以目前业务系统的实际需求出发,特别注意性能基线的建立。二是要结合应用场景,灵活使用存储的特性,比如租户隔离特性。三是在迁移前针对各个系统定制个性化的迁移方案,在迁移中注意文件属性保留的拷贝选项,在迁移后要调整GPFS的配置,尤其是更改其挂载点。

从管理维度来看,一是要将每一个存储迁移工作以项目管理的方式进行推进,做好各技术和管理条线的职责分工,各专业条线通力合作,才能实现高质量的项目交付。二是对于迁移工作,要“巧干”,首先制定工作原则。例如文中提到的“先做减法”、“以静制动”,这实际上也是对业务系统以及历史数据生命周期管理的实践和完善,借存储迁移项目的契机,可以促进对业务系统下线的推动,同时完成历史数据的清理。三是对迁移工作要做好闭环管理,特别要重视迁移后的收尾以及总结。

NAS存储使用经验和效果篇

数据只有做好分类存储和管理,才能发挥基础设施的最大效能。为此,行里从2018年开始引入中低端NAS存储,到目前NAS存储的3DC架构落地,完备的NAS存储资源池为我行非结构化数据存储系统架构优化提供了基础设施平台。通过近年来NAS存储的推广使用,逐渐降低了块存储使用成本,提高了存储的使用灵活度,实现了不同类型业务数据的合理存储。

如果说FC网络是传统集中式SAN存储的核心,那么IP网络无疑是NAS存储的关键。因此,在配置NAS存储时,特别是对于跨数据中心的NAS双活架构的搭建,提前规划好各张不同功能的网络就显得尤为重要了。此外,通过结合业务使用场景,充分利用华为NAS存储提供的租户特性,不但实现了业务系统间的安全隔离,同时也实现了基于单个业务系统的细粒度灾备切换能力。

一、技术方案

从2018年开始引入中低端NAS存储,到高端NAS双活系统投产,以及如今的NAS 3DC架构的落地,完备的NAS存储资源池为我行非结构化数据存储系统架构优化提供了基础设施平台。如上图二是我行两地三中心的NAS存储架构,最左面是采用本地部署模式的低端NAS存储系统,右面部分是华为的两地三中心NAS架构,它是采用cascade串行级联模式的数据复制架构。

下面将重点剖析NAS双活架构。两台华为高端18500双活NAS设备分别部署在我行生产机房和同城灾备机房,构建同城NAS双活系统,为我行新核心、重要以及重要支撑系统提供文件交互、文件共享服务和文件高可用容灾服务。

(一)网络架构

如图三是华为高端NAS双活系统网络拓扑图。

整个网络架构共涉及4个网络平面,分别是业务网络平面、复制网络平面、仲裁网络平面以及管理网络平面。每张网络的拓扑和功能介绍如下:

  • 业务网络平面

高端NAS双活系统同时接入新核心区和业务三区,其中A、B控接入业务三区;C、D控接入新核心区,形成两个故障漂移组(fail group)。每个控制器通过2条10GbE光纤接入业务交换机,形成一个20GbE的端口组(LACP)。接入同一网络区域的控制器之间采用A-A(双active)互备的工作模式,当任一个控制器出现硬件故障或业务网络中断时,存储系统会自动将业务地址切换到另一个活动的控制器上,切换时间控制在5秒以内,对前端业务系统可以做到无感知。

  • 复制网络平面

每台存储通过4个40GbE的全互联连接接入2台40GbE的内部复制交换机,两中心的4台复制交换机通过2条平行连接的10GbE DWDM线路连接,构建了NAS同城双活数据复制链路。通过存储系统内部的配置,共形成8条负载均衡的冗余ISL(Inter Switch Link)数据复制链路。

  • 仲裁网络平面

每台存储设备通过2块仲裁网卡,和2台仲裁物理服务器(HA主备架构)构建成2个独立vlan的高可用仲裁网络。对于仲裁模块,从仲裁网络链路到仲裁软件,再到底层的仲裁服务器均实现了双冗余,规避了仲裁系统的单点故障,从而极大提升了仲裁的高可用性。

图片

图五 复制和仲裁链路

  • 管理网络平面

每台存储通过2个管理网口接入网管网,用于存储设备的日常管理和存储监控管理。

如上所述,高端NAS双活系统的网络按照功能划分为四个物理隔离的平行网络平面,每个网络平面只承载各自功能模块的流量。这样的网络架构设计,既保证了各个网络的安全性,也提升了每个网络平面的吞吐性能。

业务网络平面既可以支持两中心大二层打通的网络架构,也支持不打通大二层,使用各中心独立IP地址的方案。为了遵从我行整体的网络规划,我们采用了后者即独立IP的方案。两种网络架构在存储端的RTO指标是一致的,而最主要的区别主要在于大二层打通的架构可以获得更好的主机端全局的RTO指标。在大二层打通的情况下,当发生站点切换时,主机侧可以无感知的恢复NAS连接。而对于独立IP的方案,需要主机侧重新执行NAS存储的挂载。为了进一步提升该方案中主机侧的RTO指标,利用我行自动化灾备切换系统编排NAS站点切换流程,定制了各系统的切换脚本。脚本的核心逻辑是这样的:第一,更改客户端操作系统中的NAS自动挂载命令。将主站点的挂载命令注释掉,同时去掉从站点挂载命令的注释。第二,卸载主站点的NAS挂载。如果遇到卸载失败的情况,需要判断是否有进程占用,如果有应用进程占用导致无法卸载,则需要停止应用程序再卸载主站点的NAS挂载。第三,挂载从站点的NAS。如果在第二步中停止了应用程序,则需要在从站点的NAS成功挂载后启动应用程序。对于回切流程,也按照上述同样的逻辑进行回切脚本设计。

(二)软件架构

在软件层面,为了提升安全性和易管理性,华为高端NAS系统采用基于租户的方式实现业务系统逻辑隔离。租户是文件系统、网络逻辑端口的存储资源集合。针对我行的实际业务场景,设计了两类租户,一类是业务系统交互,另一类是业务系统独自使用。对于业务系统间交互的租户,会按照业务系统网络区域配置不同的逻辑端口,业务系统会使用同区域的网络端口接入NAS存储,从而提升存储访问效率,同时还能规避边界网络防火墙的跨区流量。

除了安全性、易管理性和性能因素外,租户也是华为高端NAS双活系统细粒度站点级容灾的底层支撑要素。每个租户在双活架构下会配置双活租户pair对,由于双活租户pair是双活系统的最小单元,因此,可以实现基于单个业务系统的站点级灾备切换方案。下图是双活租户pair的管理界面,从中可以清晰的看到双活租户pair以及文件系统双活pair的运行状态。

图片

图六 双活租户PAIR和文件系统双活PAIR

NAS存储的另一层数据保护是基于文件系统的快照功能。通过快照技术,可以实现一定时间段内对文件历史版本的回溯以及找回被误删除的文件等。可以针对每个业务系统的需求定制不同的快照和快照保留策略。此外,可以灵活定制每个文件系统的快照预留空间,当快照预留空间剩余不足时,最早的快照将被自动清除。

在数据备份方面,使用NDMP协议实现Server-Free的备份架构。在这种架构下,业务数据可以从NAS存储端直接备份到磁带库中,而不通过前端客户机操作系统中转。因此,不但可以提升数据备份效率,更重要的是,可以大幅降低数据备份对业务系统的性能影响。

二、NAS存储使用规范

NAS存储在权限管理和控制方面,总体来说,主要包括客户端授权以及用户管理两方面。在用户管理方面,通过综合考虑我行的实际业务特性、应用场景和使用规模,最终选择了本地用户管理策略,也就是说NAS存储未接入AD域或者使用LDAP。所以对于CIFS协议来讲,通过使用NAS存储本地用户实现Windows客户端的用户管理和文件系统共享权限控制。而对于NFS协议,在客户端IP授权之外,则采用客户端本地的传统SYSTEM级ACL策略实现文件的权限控制。

基于上述权限控制方案,结合我行实际的业务场景,制定出了详细的NAS使用规范。主要分为上文提到的单业务系统使用场景和不同业务系统间的文件交互场景。对于单业务系统使用场景,需要应用系统集群的各节点服务器使用同样的应用用户访问NFS共享,考虑到Linux操作系统的ACL授权机制,需要各节点的这个应用用户有相同的UID和GID设置。而对于不同业务系统间的文件交互场景,NAS存储端按照实际业务需求控制不同业务系统客户端服务器对同一共享文件系统的读写和只读权限,共享文件系统中的文件和目录权限通过设置子目录实现细粒度的权限控制。各业务系统在共享文件系统挂载点目录下建立独立的子目录,各子目录由对应的业务系统的实际需求进行权限设置。原则上,禁止跨业务系统子目录进行写入、删除和更改操作,跨业务系统子目录只允许只读操作。

除了NAS的权限和用户管理,对于客户端的挂载也要按照最佳实践进行配置。

首先,对于客户端NFS文件系统本地挂载点的选择,要避免使用“嵌套”目录,也就是说客户端挂载点是根文件系统(根目录)下的独立空目录,不能是其他非根文件系统下的子目录。这样在技术上可以规避上层文件系统异常对NFS共享文件系统的影响。另外,NFS的挂载选项里有很多可以调优的参数,这里面可以根据实际情况,结合NAS厂商白皮书提供的建议进行设置。最后,为了提高文件访问性能,高端NAS存储接入了多个网络区域,以便提供给不同网络区域中的业务系统使用,从而规避边界防火墙对跨网络区域文件访问的性能影响。因此,各网络区域中的客户端要通过相应区域的存储前端业务网络接入。

三、收效和总结

NAS存储系统自投产以来运行平稳高效,其中的高端双活NAS存储平台已经承载了和新核心银行系统交互的50多个业务系统场景。截至目前,已经完成了六个批次系统的GPFS迁移,项目收效良好。

通过项目实施,实现了我行NAS文件存储资源池的分级建设。随着NAS应用的推广和落地,逐渐降低了块存储使用成本,提高了存储的使用灵活度,实现不同类型业务数据的合理存储。特别是借助高端NAS存储设备构建同城双活架构,实现了重要业务系统对于文件存储的高可用需求。较之于先前的GPFS方案,在RPO同为0的情况下,RTO指标得到极大提升。最后,利用NAS存储构建业务系统间文件交互平台,显著提升了业务处理效率。

责任编辑:武晓燕 来源: twt企业IT社区

Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK