31

太忙没空去看湖景?来看阿里云DLA如何快速构建数据湖

 3 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzI0NTIxNzE1Ng%3D%3D&%3Bmid=2651220195&%3Bidx=1&%3Bsn=c7b61b5e003589cdbf0cff20bec948c0
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

一、数据湖方案的价值

数据湖方案相比较数据库、数据仓库、Hadoop等,数据湖要处理的数据类型更加开放、更加复杂。数据湖主要是对海量的结构化、半结构化、非结构化、二进制数据进行存储,同时还需要对这些数据进行管理和价值挖掘。接下来可以看下云上沉淀的典型数据湖方案:

方案一:一站式端到端数据湖存储、管理、分析&计算方案

  • 场景:企业在构建数据湖方案时,期望构建完整、通用、可扩展的解决方案,。

  • 方案价值:满足 数据摄入、数据存储、数据管理、数据价值挖掘一体化能力。

3aMVRv7.png!mobile

方案二:OSS 大规模数据(自由编程)清洗&机器学习方案

  • 场景:企业对存储在OSS上面的大规模数据需要进行多种计算负载处理。

  • 方案价值:Serverless Spark完全弹性;原生支持Spark全部生态能力。

2QRJbae.jpg!mobile

方案三:不同类型数据源联邦查询分析方案

  • 场景:期望MySQL、MongoDB等数据库的数据和存储在OSS上面的行为日志数据进行关联分析。

  • 方案价值:DLA Serverless SQL(兼容Presto)支持15种以上的数据源的联邦分析。

I7zAzii.png!mobile

二、构建数据湖方案面临的挑战

上面的两个数据湖方案是各大企业在阿里云上面通过实践沉淀下来的。当前企业在落地数据湖方案具体会遇到的挑战主要包括:

  • 如何构建数据的统一管理视图?

  • 如何构建多租户的权限管理?

  • 如何自动化的构建元数据?

  • 如何简单的进行数据入湖?

结合用户的这些挑战和痛点,阿里云数据湖分析服务DLA的数据湖管理功能可以有效的提高构建数据湖的效率,接下来一起把这些功能玩转起来吧

三、DLA高效的数据湖管理功能

阿里云数据湖分析服务DLA的数据湖管理功能定位为帮助用户构建统一、安全、高效、开放的数据湖解决方案。从下面的数据湖方案整体架构图可以看出:

  • 存储对接:数据湖管理向下管理好数据湖存储的数据;

  • 分析与计算支持:数据湖管理向上为多种数据湖计算引擎提供统一的元数据系统。

AzaqMzN.png!mobile

数据湖管理核心功能包括:元数据管理、元数据爬取、数据入湖、实时数据湖。下面一起来看下这些功能是如何高效的帮助构建数据湖的。

3.1 元数据管理

为了对数据湖的数据进行安全的管理和挖掘价值,需要一套同时具备基本管理能力、多租户权限管理能力、扩展能力、开放能力的统一元数据系统。阿里云数据湖分析服务DLA的元数据系统具备这些能力。

3.1.1 DLA元数据管理介绍

下面是数据湖分析服务DLA的元数据管理系统的架构图,整个元数据管理包含四个层次: 存储层核心服务层接入层生态层

uaaEryN.png!mobile

3.1.2 DLA元数据管理上手

1) 可视化全局管理视图: 支持“创建Schema”、查看库表信息、查询数据等。

2EZbuaR.png!mobile

2) 创建元数据:支持元数据爬取、数据入湖、 SQL手动创建SQL自动创建

3) 权限管理:目前支持通过JDBC进行权限的GRANT和REVOKE,通过阿里云OpenAPI也在研发中。

3.2 元数据爬取

用户基于OSS进行数据湖存储时,数据具有规模大、格式丰富、动态变化、非结构化字段多的特点,这种情况下手动创建的可行性及成本会比较高。

3.2.1 DLA元数据爬取介绍

元数据爬取功能可以自动为OSS上面的数据文件创建及更新数据湖元数据,方便分析和计算。

  • 自动探索格式: 自动探索文件数据字段及类型、自动映射目录和分区

  • 增量发现: 自动感知新增列及分区

  • 规模扩展:数据爬取任务可以自动弹性伸缩资源来保证元数据爬取任务端到端的延迟;

  • 成本:免费使用。

ey2amiU.png!mobile

3.2.2 DLA元数据爬取10分钟上手

使用DLA的元数据爬取可以通过DLA的控制台:

  • 创建任务:左侧选择要爬取的具体OSS路径,右侧配置爬取的元数据要存储到DLA元数据系统的Schema名称即可,其他高级选项根据实际需求调整。

AjIjeyJ.png!mobile

  • 任务管理:支持查看任务的运行状态、配置的修改、跳转到DLA的SQL窗口进行快速的数据查询。

vyARZr6.png!mobile

3.3 数据入湖

企业期望对存储在消息中间件、Database的数据都有归档存储到数据湖OSS中进行统一计算分析。简单易用的数据入湖功能成为普遍的需求。

3.3.1 DLA数据入湖介绍

阿里云数据湖分析DLA的数据入湖包含DataBase一键建湖、实时数据湖两个重要功能。

1) DataBase一键建湖:主要支持全量、增量、多库合并三种模式,支持 OLTP的MySQL、SQLServer、POLARDB等,同时支持NoSQL的mongoDB等;

MfqUrmV.png!mobile

2) 实时数据入湖:对于云kafka、Loghub等消息中间、数据库的CDC数据可以通过“实时数据入湖”方案构建数据湖。

全链路数据延迟可达分钟级别,打造T + 0 数据湖; 一份数据存储在OSS,通过DLA Meta增量管理,降低存储成本低

363eii3.png!mobile

3.3.2 Database一键建湖

使用一键建湖可以通过DLA的控制台,同时可以通过数据管理DMS进行。

  • 创建一键建湖:左侧选择数据源,可以包括RDS、PolarDB、MongoDB、ECS自建数据库;右侧配置源库的验证信息,以及在DLA生成的元数据名称即可。

6fAz6z.png!mobile

  • 任务管理:对于周期运行的建湖任务可以进行全局的管理,以及对建好的湖进行分析。

vmy22qV.png!mobile

四、展望与总结

数据湖分析DLA 是 Serverless的架构,支持 【按需与保留】 资源使用,打造最具性价比的数据湖分析平台;

提供一站式的数据湖分析与计算服务,支持 ETL、机器学习、流、交互式分析,可以与OSS、数据库等多种数据源搭配使用;功能包括:数据入湖,元数据管理与自动发现,支持双引擎:【SQL(兼容Presto)分析、Spark计算服务】。其中数据湖管理这块会朝着更易用、更开放、更可靠方向迭代。

注:数据湖管理控制台使用链接,数据湖管理及DLA的帮助文档。

fQrAjaj.png!mobile

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK