中国中元国际工程有限公司 北京市 100089
摘要:公司业务数量不断增加,业务复杂度不断提升,公司超融合平台所面临的风险和威胁也越来越大,由于计划外系统中断造成的停机会给公司带来的经济与信誉等诸多方面的损失。同时,由于主机故障、系统故障、软件逻辑错误、人为操作失误和病毒攻击(例如勒索病毒)等众多风险高发引发灾难,极大的威胁了系统的安全和服务的连续性。因此,需要能够提供灾备服务作为防范各类风险的最后一道屏障,帮助发生系统灾难后快速的恢复IT应用系统保障工作得以正常开展。
关键词:备份;容灾;演练
前言:公司的业务承载方式主要三种,分别是超融合、VMware、物理机。具体情况如下:
a)超融合:目前超融合分为2个集群,共100多台虚拟机。
b)VMware:目前VMware共有32台虚拟机,主要承载加密锁以及一些老旧应用。
c)物理机: 5台物理服务器,承载一些老旧应用。
除了业务承载的超融合、VMware以及物理机需要备份之外,本次备份对象还包括SQL server数据库数据和群晖NAS中的数据。根据统计来看,数据总量为115T。
在数据资产备份方面,公司本部现在无有效的数据保护方式,如果出现硬件故障、软件故障、数据丢失、逻辑写错、勒索等问题,带来的损失无法估量。
背景:
《网络安全法》围绕“以数据为中心的安全”做了广泛而具体的规定,《网络安全法》的第二十一条对数据安全作出明确说明:网络运营者应当按照网络安全等级保护制度的要求,防止网络数据泄露或者被窃取、篡改。采取数据分类、重要数据备份和加密等措施。这充分说明了企业数据安全、企业信息安全已经成为关乎国计民生的重要方面。
《网络安全法》第四十二条规定:网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。这充分说明了对于可能的企业局域网滥用或误用文件的行为,尤其是不适当或越权访问共享文件的行为,将会给企业数据安全带来严重风险。这是因为,一旦员工不小心或故意删除、恶意修改共享文件,将会导致共享文件彻底丢失而无法恢复,这样给企业信息安全带来巨大风险。
1.1需求分析
1.1.1数据备份需求
为保障突发情况下的数据不丢失,需要针对所有业务数据进行定期备份,以确保数据的安全性和完整性。同时,备份的数据需要部署单独部署在一个集群中,以确保在灾难发生时能够快速恢复数据。同时,需要对备份数据进行定期测试,以确保数据的可恢复性和业务系统的稳定性。
建设目标
本次拟部署一套应用级备份容灾系统,实现数据资产的持续保护、业务的连续性和有效的灾难演练,从而实现以下建设目标:
1、数据资产的持续保护:
实现数据资产分钟级的持续保护,对于业务系统、SQL server、群晖NAS数据通过分钟级的磁道复制技术实现本地化的灾备和保护。
2、保障业务的连续性:
如果出现因数据丢失或错误等不可抗力因素导致的本地业务系统发生故障,亦或是因为服务器物理故障或是硬件老化等问题出现的服务器宕机,需要在本地超融合集团实现业务的整机恢复。
3、快速有效的灾难演练:
灾备系统作为应用系统运维和安全管理的最后的一道防线,不仅能要实现可靠的应用级备份,还要实现快捷、方便的灾难演练。最终目标为通过对运维人员进行简单的培训即可实现自主演练、随时检验备份点的完整性以及可用性,并且熟练整个的应用系统恢复过程。当发生紧急故障需要恢复时,能够快速的、自如的、熟练的应对。
2建设内容
此次备份容灾的建设内容主要由后端备份服务器集群和前端备份容灾系统两部分组成:
后端备份服务器集群:通过3台分布式存储组建后端存储集群,能够支持物理机、VMware以及超融合的多个业务系统数据进行备份和存储的需求,确保数据的安全性和可靠性。
前端备份容灾系统:在本次虚拟机上安装备份容灾系统,作为数据备份和恢复的核心平台。备份容灾系统将负责数据备份、数据恢复、备份数据的管理和监控等功能,确保数据的安全性和可恢复性。
3方案设计
3.1建设原则
安全性原则:应该采用多重安全措施,确保备份数据的安全性和完整性,防止数据泄露和损坏。
可靠性原则:应该具备高可靠性,能够在灾难发生时快速恢复业务系统正常运行,确保业务的连续性。
可扩展性原则:应该具备可扩展性,能够随着业务数据量的增加而进行扩容和升级,以满足业务的需求。
经济性原则:应该具备经济性,能够在保证系统可靠性的前提下,尽可能降低建设和运维成本。
合规性原则:应该符合国家相关法律法规和标准,确保数据的合规性和安全性。
3.2建设依据
3.2.1政策法规
《中华人民共和国网络安全法》
《中华人民共和国数据安全法》
3.2.2技术标准与规范
《信息安全技术 信息系统灾难恢复规范》GB_T 20988-2007
《信息安全技术 网络安全等级保护基本要求》(GB/T 22239-2019)
《信息安全技术 网络安全等级保护测评要求》(GB/T 28448-2019)
3.3总体架构
本次超融合备份容灾方案拟部署一套备份容灾软件和一套备份服务器集群(3节点)。数据库服务器、物理服务器安装代理软件(agent),通过agent定期将增量数据自动同步至备份服务器集群上;VMware通过无代理方式备份容灾到超融合平台,由超融合平台自带备份软件将数据同步到备份服务器集群上;群晖NAS通过NFS/CIFS直接挂载到备份容灾软件,然后同步数据到备份服务器。同时,将腾出的群晖NAS和旧磁带库进行冷备份。
3.4详细设计
3.4.1备份容灾场景设计
本次备份容灾设计方案主要有四类,分别是VMware备份容灾设计方案、超融合备份容灾设计方案、物理机及数据库备份容灾设计方案以及群晖NAS备份容灾设计方案
3.4.1.1VMware备份容灾设计方案
针对VMware的虚拟化平台,可通过超融合自带的管理平台进行无代理备份及恢复。
1)备份过程
该方式下超融合平台主要通过对接VMware的CBT和VDDK接口,将VMware虚拟机数据以QCOW2文件格式备份到超融合平台,完成VMware虚拟机的备份。过程如下:
首先,超融合平台提供VMware虚拟机的纳管功能,通过超融合平台可以访问VMware虚拟机控制台和查看VMware虚拟机基本信息及资源使用情况;然后,超融合平台提供与VMware虚拟机双向迁移的能力,开始进行备份操作。这时,在超融合平台上创建一个新虚拟机,将VMware虚拟机通过增量备份方式,不断把虚拟机数据同步到超融合平台,当增量数据足够小时,并将最后一次增量备份同步到超融合平台最后,完成VMware虚拟机备份。
2)恢复过程
VMware恢复支持恢复到超融合平台和恢复VMware平台两种恢复方式:
恢复到超融合平台:当VMware虚拟机出现误删或者故障时,可以一键恢复虚拟机到VMware环境,RPO最优为15分钟。过程如下:
在目标端按配置文件创建虚拟机。
恢复虚拟机镜像文件。
启动虚拟机,并对虚拟机做兼容性处理。
恢复VMware平台:当VMware集群出现故障时,可以快速在超融合平台上拉起虚拟机,恢复业务;RTP最优为15分钟。当VMware集群恢复正常时,支持将超融合平台上的虚拟机回迁到VMware集群中,迁移过程中业务不中断,迁移后数据不丢失。过程如下:
连接目标端vCenter,支持迁移到不同于备份之前的vCenter上,迁移平台要求为vCenter兼容虚拟机版本。
在目标端按指定的配置创建虚拟机。
不断备份虚拟机,写入目标端。
直到增量数据较小时,关闭原虚拟机,同步最后一次增量数据。
在目标端启动虚拟机。
3.4.1.2超融合备份容灾设计方案
针对超融合平台的虚拟机,可通过超融合自带的备份软件进行无代理备份,从而将整体数据复制到后端备份服务器集群。
1)备份过程
超融合平台提供快速备份机制。采用首次全量备份+非首次增量备份+bitmap技术超融合数据的实现快速备份。过程如下:
首次,超融合平台会对整个虚拟机系统进行完整的备份,包括虚拟机的硬件配置、软件环境、数据等全部内容。同时,超融合平台还会生成一个备份元数据文件,用于记录备份的信息。
之后,超融合平台只会备份虚拟机系统中发生变化的内容,例如新建、修改或删除的文件、虚拟机硬件的变化等。同时,超融合平台还会更新备份元数据文件,以便记录变化的信息。
最后,超融合平台会将备份数据复制到后端备份服务器集群中,同时还会对备份数据进行加密处理,以确保数据的安全性。
此外,超融合平台还支持定时备份和实时备份,可以根据业务需求灵活选择备份策略。同时,超融合平台还可以通过多种方式进行备份数据的监控和管理。
2)恢复过程
针对已备份的超融合虚拟机,可以通过查找备份文件恢复虚拟机到最近的业务正常运行点实现业务恢复。过程如下:
在业务恢复位置上新建空白镜像,QEMU进程会通过该空白镜像拉起虚拟机,此时业务可正常运行。
业务运行过程中,优先从恢复位置读取数据,如果恢复位置没有该数据,需要从备份文件池中将该位置数据迁移到恢复位置中,然后进行数据读取。
业务运行过程中,虚拟机新产生的数据,则直接写入新镜像中。
在恢复虚拟机进行业务运行的同时,虚拟机QEMU进程中还会有一个默默在后台持续将备份恢复池的数据搬运到恢复位置上的虚拟机镜像中,我们称之为备份数据整理,数据整理完成后,该虚拟机恢复为普通虚拟机。
3.4.1.3物理机及数据库备份容灾设计方案
针对物理机、数据库的数据,需要在操作系统上安装备份容灾的代理软件(agent),源机和备份服务器之间agent点对点方式复制数据,从而完成业务备份。
1)备份过程
后端备份容灾系统通过前端代理软件(agent)读取到主机数据,通过选取需要备份的主机并制定策略进行备份,过程如下:
首先,安装安装代理软件(agent),同时对物理机、数据库进行相关的备份前配置操作。
接着,登录到备份容灾系统,添加主机并进行代理授权,完成后即可制定相关备份任务,然后设置如备份时间、备份方式以及备份保留等策略。
等到任务执行时间,备份容灾系统会对主机发起相关的备份操作,每个任务执行结束后的时间将形成一个恢复时间点,随后即可根据该时间点进行主机的恢复;
2)恢复过程
针对已备份的物理机、数据库,可以将备份系统中备份的虚拟机完整恢复到超融合平台中,从而实现业务恢复。过程如下:
登录备份系统,选择需要恢复的虚拟机时间点创建恢复任务,该模式一个任务支持一个或多个虚拟机进行恢复。
选择恢复的超融合平台,选择超融合平台的宿主机以及要恢复虚拟机的相关配置,如虚拟机名称、配置、网络、存储等。
恢复任务执行完毕后,即可登录到超融合平台查看瞬时恢复的虚拟机。
3.4.1.4群晖NAS备份容灾设计方案
针对群晖NAS数据,可直接通过NFS/CIFS网络协议挂载的方式,挂载到容灾备份软件,然后复制到后端备份服务器集群。
1)备份过程
该备份主要涉及网络挂载,过程如下:
首先需要在群晖NAS上配置NFS/CIFS网络协议,以便可以被其他设备挂载。
使用容灾备份软件提供的NFS/CIFS挂载功能,将群晖NAS挂载到软件中。
在挂载完成后,可以使用容灾备份软件提供的复制功能,将群晖NAS的数据复制到后端备份服务器集群中。
2)恢复过程
针对已备份的NAS数据,可以直接当作NAS来进行挂载,完成数据恢复。过程如下:
使用容灾备份软件提供的NFS/CIFS挂载功能,将群晖NAS从软件中卸载。
在卸载完成后,可以使用容灾备份软件提供的导入功能,将备份的群晖NAS数据导入到群晖NAS中。
为确保恢复的数据准确无误,可以使用群晖NAS提供的数据验证功能,对恢复的数据进行验证处理。
3.4.2演练方案设计
3.4.2.1演练方案技术要点说明
(1) 业务应用恢复中,需实施应用系统配置参数修改以匹配灾备环境IP地址变化。
(2) 灾难恢复演练主要由数据恢复、应用恢复及业务验证三阶段组成, IT基础架构团队担负数据和系统平台资源恢复,业务运维团队担负应用恢复,业务部门用户(或业务运维团队)担负业务验证。
(3) 演练业务应用终端手工配置DNS服务器地址,开通网络访问权限,基于IP方式直接访问灾备中心主机。
(4) 该模拟切换演练不做基于DNS的内网互联网网络切换
(5) 被演练的相关业务系统按照预先设置顺序依次实施灾备恢复演练。
3.4.2.2演练总体流程
演练实施总体流程及相关任务见下图,主要分为演练启动、演练实施及演练收尾三个阶段
灾难恢复演练实施阶段的技术操作流程如下图, 可划分为灾备数据恢复,灾备应用恢复和业务验证等步骤。
3.4.2.3模拟演练系统配置
备份容灾平台提供模拟演练的自动化功能,支持提前根据演练流程和规划创建演练计划,设置业务系统直接的启动先后顺序,并提供业务模拟环境在线测试,不影响生产环境,演练完成后输出演练报告给灾备管理进行辅助决策。
3.4.3关键能力设计
3.4.3.1主机快速接管
可以结合现有超融合平台构建容灾服务器,将业务系统的整机备份数据镜像文件转换为虚拟磁盘文件挂接到此平台的虚拟机中,当需要接管时以虚拟机的形式启动 OS 及 OS 中的业务系统,在原服务器恢复前暂时接管业务系统,保障业务连续性。
3.4.3.2CDP连续数据保护技术
CDP 连续数据保护技术记录被保护服务器磁盘数据的每一次写操作,备份窗口间隔为 0,即如录像机一样可回溯任意历史点的磁盘状态,达到 RTP=0 的高指标。创新性的根据对备份时磁盘读写频率的大数据分析给出的图形化的磁盘数据风险等级曲线,可简单明确的选择低风险的时间点做恢复。
3.4.3.3异构主机恢复技术
服务器硬件损坏、当前的硬件配置不能适应业务要求需要升级、迁移业务系统到其它的硬件/虚拟平台,就会面临一个问题:业务系统运行的操作系统对硬件存在的依赖。备份灾备系统独有的虚拟 PCI 总线设备兼容技术,在备份灾备系统中内置各 PCI 硬件厂商和各虚拟化平台中使用的 PCI 设备驱动数据库,在恢复/迁移到不同的设备时,自动识别目标硬件/虚拟化平台的 PCI 设备,并虚拟化此 PCI 硬件,动态注入对应的驱动到操作系统中,让操作系统能在新的硬件配置上正常启动,从而突破对硬件的依赖,实现硬件无差异的恢复/迁移,让客户再无硬件差异带来的困扰,任意选择需要的服务器。
3.4.3.4快速验证
备份灾备系统提供 3 个层面的验证和演练,在满足不同层次的验证要求的同时,无需过多的前提条件:
第一层:文件验证,用户仅需要验证数量较少的个别文件是否为预期的数据状态。通过如下的 2 种方式,获取想要的数据文件:
A.将备份点映射为网络路径,通过指定的用户名/密码访问此路径,获取想要的文件,手动确认其数据状态;
B.将备份点映射为在线访问地址,可使用浏览器在 Web 中打开所有的文件夹/文件,点击文件即可将文件下载到指定的路径。
第二层:临时整机验证,指定备份点的时间,将此备份时间点的数据集虚拟为磁盘,并以虚拟机的方式启动此时间点的 OS 和 OS 中的业务系统(仅需要 OS 的一次启动的时间),用户可如虚拟机一样使用完整的业务流,验证业务系统和相关支撑数据是否符合预期。
结束语
通过本项目的实施,实现对数据资产的持续保护,对于本地的所有的操作系统、业务系统、SQLserver数据库、群晖NAS数据通过磁道复制技术实现本地化的备份保护,并提供恢复能力。