10

数据异构复制技术场景及发展趋势

 2 years ago
source link: https://www.51cto.com/article/722105.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

数据异构复制技术场景及发展趋势

2022-11-05 08:34:20
数据复制行业的主要应用领域包括数据合规性和大数据采集应用等,此外系统迁移也较为普遍。数据合规性应用包括容灾、备份、治理、归档、加密、脱敏、数据库审计、分级分类、等级保护等领域。

​数据,是指任何以电子或者其他方式对信息的记录,可以是数字、文字、图像、声音等等。可复制可流通且被开发利用的数据,才算是财富,否则可能会成为企业的负担。数据复制作为数据流通、交换、共享、保护、集成、计算分析、管理等领域的关键应用,在帮助数据实现价值最大化的过程中发挥着重要贡献。

本文来自:中国数据复制行业白皮书(2022年)

数据复制的过程主要包含了数据抓取、数据传输和数据复原三个环节。数据抓取环节主要指对生产端的变化数据进行识别和提取,要求识别颗粒度细且对生产系统影响小数据传输环节主要指对数据进行分段拆分组合、加密、压缩等,实现准确、高效、安全地传输数据;数据复原主要指目标端的数据接收和数据写入,其核心在于快速写入的同时,保证数据的一致性、可用性。

数据复制应遵守三大原则∶一是合规性,包括数据安全、数据一致性、数据加密传输、数据分级分类、等保、归档管理等;二是时效性,包括数据实时或周期性复制、快速恢复、RTO 合规,满足可用性、供数要求等;三是多样性,包括复制数据格式多样性,以及涵盖系统层、数据库层、存储层等多层的数据复制,满足用户生产环境多平台、多功能、个性化的需求。

数据复制行业的主要应用领域包括数据合规性和大数据采集应用等,此外系统迁移也较为普遍。数据合规性应用包括容灾、备份、治理、归档、加密、脱敏、数据库审计、分级分类、等级保护等领域。容灾备份也称为灾备,或灾难恢复,作为数据复制的典型应用场景之一,灾备用于保障用户的数据安全和业务连续性。衡量灾备系统的性能指标是RPO(数据恢复点目标)和RTO(恢复时间目标)。根据RTO和RPO的不同,灾备系统可分为定时备份系统和容灾系统,而数据复制能力在根本上决定了RPO/RTO,也决定了整体灾备系统能力。

1、数据复制基础知识

数据复制是将一组数据从一个数据源拷贝到其它一个或多个数据源。根据计算机网络体系结构(OSI),数据源在IT系统中所处的层级不同,数据复制主要可分为存储硬件层数据复制、操作系统层数据复制和数据库层数据复制。

图片

同步复制∶也称为全同步复制,要求每一个I/O写入操作在执行下一个操作处理之前,在源端和目标端都能完成。特点是数据丢失少,会影响生产系统性能,除非目标系统物理上离生产系统比较近。

图片

异步复制∶在处理下一个I/O写入操作前,不等待数据复制到目标系统中。特点是复制的数据与源数据有时间差,但这种复制对生产系统性能影响较小。

半同步复制∶介于全同步复制与异步复制之间,主库在执行完客户端提交的事务后不是立刻返回给客户端,而是等待至少一个从库接收到并写到relay log中才返回给客户端。相对于异步复制,半同步复制提高了数据的安全性,同时它也造成了一定程度的延迟,这个延迟最少是一个TCP/IP往返的时间。

序列化传输复制∶由于网络传输的数据必须是二进制数据,但调用方请求的出入参数都是对象,对象无法直接在网络中传输,所以需要提前把它转成可传输的二进制,并且转换算法是可逆的,而序列化是将对象的状态信息转换为可以存储或传输形式的过程。

上述数据复制方式各有优缺点,也各有其应用场景,从用户角度分析,无论采用哪种复制方式,对于数据的采集,要求尽量不影响数据生产端业务逻辑,保障业务运行和数据收集互不影响,即做到非入侵的数据采集。

2、系列数据复制技术

根据计算机网络体系结构,数据源所处层级可分为存储硬件层、操作系统层和数据库层。

存储硬件层的数据指存储设备内的所有数据,可能对应多个操作系统层的数据。操作系统层的数据是指由操作系统内部的卷层和文件系统进行组织和管理的数据,可能存储在若干存储设备中。数据库层的数据通常是业务系统及应用程序储存在数据库中、需要随时查询或使用的数据。

根据获取数据的层级不同,数据复制软件也可分为存储硬件层数据复制软件、操作系统层数据复制软件和数据库层数据复制软件。具体情况如下∶

A.存储硬件层复制技术​

存储硬件层复制主要指基于存储磁盘阵列之间的直接镜像,是通过存储系统内建的固件或操作系统,利用IP网络或光纤等传输介质连结,将数据以同步或异步的方式复制到目标端。

存储硬件层复制的优势在于复制工作仅在存储硬件层面进行,与操作系统层无关,因此可以避免服务器的性能开销过大的问题,适用于关键任务和高端交易应用,也是目前最广泛用于容灾场景的数据复制技术之一。存储硬件层复制的劣势在于主要适用于同品牌且同型号的同构存储系统,并需配备低延迟和大带宽的物理链路,成本较高,给异地复制带来极大困难。

B.操作系统层复制技术​

在英方实践中,根据数据捕获环节的不同,操作系统层复制可以分为字节级复制和块级复制。

图片

字节级复制技术是指对生产服务器文件系统的I/O操作信息进行实时捕获,生成序列化I/O操作日志并发送至目标服务器,操作日志包括I/O操作发生的时间、发起的进程、操作具体针对的文件、文件具体操作的位置以及操作的内容。目标服务器收到I/O操作日志后进行数据的写入,完成数据复制。该技术具有对计算机资源占用小、复制颗粒度细等优势,能够实现高实时性的数据复制,在容灾以及持续数据保护领域有较强的优势。

图片

块级复制技术是指在生产服务器的文件系统之下和磁盘驱动之上的卷层设置驱动模块,实现磁盘数据变化的捕捉。通过对生产服务器磁盘空间进行划分,构建磁盘位图,将发生数据变化的位图信息发送至目标服务器并与前次位图信息进行整合,实现数据的复制。和字节级复制相比,块级复制颗粒度较粗,单次传输数据量较大,适用于具有海量文件的文件系统或者非标准化文件系统的场景,在定时备份领域具有较强的优势。

C.数据库层复制技术

数据库层复制通常采用逻辑复制的方式,将源数据库中的重做日志和归档日志解析出SQL语句后,发送至目标数据库,在目标数据库上重做SQL语句实现数据复制。

图片

逻辑复制的优点在于可以实现不同品牌数据库之间的数据复制,且能实现数据库读写分离、多活,适用于各种数据库数据容灾、高可用、读写分离等场景。

不管是哪种数据复制,都有其优缺点,用户可根据生产环境以及项目规划,选择合适的技术产品以达到目的。上述三类层级的复制技术优缺点如下∶

图片

3、数据复制技术发展趋势

数据爆发式的增长,数据应用场景的不断丰富,数据交易的可持续发展,是推动数据复制技术高速发展的基础条件。在新基建及新一代信息技术等大环境下,数据复制技术也表现出了三大发展趋势。

A.软硬件解耦的数据复制技术​

数据复制技术最早是由存储硬件及数据库厂商开发,作为其存储硬件或数据库软件的辅助工具,通常与存储硬件或数据库绑定,通常只用于本公司的存储硬件或数据库之间的数据复制。

其优点在于对本公司的存储或数据库产品的兼容良好、稳定性高、数据复制速度快,但在灵活性和可扩展性上有所欠缺。

随着信息技术的发展,各行业信息系统不断升级和迭代,存储及数据库类型多样化,数据量的提升也带来了分级存储、分级备份的需求,与硬件或数据库绑定的复制技术功能单一、缺乏灵活性等缺点逐渐显现。

软硬件解耦的数据复制技术可以实现不同存储硬件、不同数据库之间的数据复制,在信息系统升级、数据分级存储等场景下具有较强的优势,有望成为未来数据复制行业的重要发展方向。同时,在国内信息系统软硬件安全可信的趋势下,国产存储设备和数据库纷纷涌现,软硬件解耦的数据复制技术也将在信息系统国产化进程中发挥重要作用,加速国产化进程。

B.云端数据复制技术​

云计算相较于传统IT架构,具有资源配置效率高、运维难度低、多地多中心布局、业务冗余能力强等优势。随着云计算技术和新型基础设施的逐步成熟,越来越多的企业开始将业务系统、数据应用等迁移上云。数据复制技术也从本地数据复制向云端数据复制发展。和本地IT 架构不同的是,云计算架构将底层硬件设备虚拟化后形成统一的计算资源、存储资源和网络资源,企业在云端的业务系统均统一部署在数据中心的虚拟平台上,因此云端复制和本地复制相比,传输环境存在较大的差异,云端复制的传输具有带宽窄、传输不稳定等特点,对复制技术的压缩能力、断点续传能力提出了更高的要求。

同时,云端复制还需兼顾数据隐私及安全问题,特别是在公有云的场景下,云供应商有较大的权限,可以对数据进行管理。因此在云端复制场景下,数据的脱敏、加密、备份也是云端复制技术需要考虑的重要问题。例如,不要将数据全部存储于云平台,考虑将重要数据在本地进行备份。

C.大数据平台实时复制技术​

大数据平台是为了满足大数据的存储、运算、分析、展现的软件平台,主要功能包括数据接入、数据计算和处理、数据存储、查询检索、分析和可视化、安全管理、数据交换和流通等。

大数据平台拥有特殊的文件系统、数据库及数据处理模块,以适配大数据的查询、存储和计算。以Hadoop为例,Hadoop平台采用HDFS分布式文件系统和HBase分布式数据库,通过Hive数据仓库进行数据的存储、查询和分析,与传统的数据库结构存在较大的差别,因此传统的数据库数据复制技术无法实现大数据平台间的数据实时复制,亦无法实现由传统数据库向大数据平台的数据实时复制。随着大数据技术不断演进和应用持续深化,以数据为核心的大数据产业生态正在加速构建。

4、异构复制技术应用场景

在开源软件及信息技术路线多样化发展潮流下,数据复制异构场景逐渐增多。
异构复制因为技术和产品架构的不同,数据复制过程中存在数据库、操作系统、桌面用户数据、迁移过程的复杂性、大量非结构化数据、迁移过程的安全性等诸多挑战,涵盖包括字符集不兼容,中英文转换难、数据治理难度高、兼容性差等系列难点。

场景一∶文件异构迁移和复制​

文件异构的场景下,又细分为“异构服务器/操作系统之间、异构NAS存储之间、对象存储数据迁移和复制”三类应用场景。

场景二:数据库异构迁移和复制​

异构数据库的迁移和复制,其应用场景可细分为“异构平台经Kafka或直接复制迁移、异构数据融合与异构数据库迁移”。

场景三∶整机异构迁移和复制​

整机迁移即操作系统迁移,该场景整合了字节级迁移与块级两种复制技术,可为用户提供整机在线热迁移。

场景四:HDFS异构迁移和复制​

HDFS的英文全称是Hadoop File System,作为大数据文件系统的主要应用场景,在容灾方面难以做到底层的实时复制和容灾。

网上下载链接:https://www.info2soft.com/whitepaper

责任编辑:武晓燕 来源: 架构师技术联盟

</article


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK