数据建仓的常见过程与痛点
一般企业业务增长到一定范围之后,企业会尝试搭建自己的数据仓库,全面梳理业务系统,建立数据标准,生成不同类型的主题库,挖掘企业的数据价值。大部分阿里云用户将RDS、POLARDB作为业务系统数据库,随着业务数据的增长,RDS、POLARDB存储的数据越来越多。由于RDS、POLARDB计算能力有限,如果直接使用RDS、POLARDB搭建数据仓库,将会占用线上业务的计算资源从而会影响业务的运行。如果使用自建开源大数据生态体系(例如Hive、Spark等),需要专门的大数据工程师来操作和运维,且操作流程也不像使用MySQL一样简单,使用成本极高。
基本概念
一键建仓是指通过DLA控制台配置RDS、POLARDB数据源和OSS数据仓库(创建Schema),系统按照您设定的数据同步时间自动、无缝的帮您把RDS、POLARDB中的数据同步到OSS中,DLA自动识别RDS、POLARDB中的表结构,创建对应的OSS表和目录,无需任何手动建表操作。未来您可以基于OSS的表进行数据分析,不影响RDS、POLARDB线上业务。
一键建仓流程
优势及特点
一键同步RDS、POLARDB中的上千张表数据,无需任何额外的适配工作。
提供Serverless的服务形态,用户无需维护任何实例,零运维成本。
同步过程中,RDS、POLARDB中的数据存储在OSS中,搭建数据仓库过程中不会对RDS、POLARDB业务系统产生任何压力。
数据的查询分析引擎兼容MySQL协议,使用门槛极低,帮您实现人人都是数据分析师的目标。
步骤一
步骤二
步骤三
步骤四
步骤五
步骤六
步骤七
1.打开DLA的Schema管理页面,这里显示了您所有的数据库。
2.点击“创建Schema”按钮进入建库向导选择页面,选择其中的“一键建仓”,点击“使用向导创建”;因为一键建仓其实是在打通您的RDS数据和OSS数据,因此需要您的RDS和OSS授权;
3.请在页面左边选择需要建仓的RDS(建仓的数据来源);右边的服务器名,端口会自动填写,然后需要您填写数据库账户的用户名、密码以及要同步的RDS的库名,并进行“测试链接”;
4.接着需要填写与OSS相关的一些“建仓配置”:Schema: 这份数据在DLA里面新建一个什么名字的Schema;数据位置: 这份数据放在您的哪个bucket的哪个路径下;同步时间: 每天几点帮您定时同步RDS的最新数据到OSS上面。
5.在Schema列表中,点击通过一键建仓新建的Schema的“详细信息”按钮,再点击“配置”按钮;如果有修改一键建仓配置可以点击更新;为了防止对线上业务造成影响,只有您点击“立即同步”按钮后,数据才会立即同步到DLA进行分析;
6.点击“立即同步“,可在”监控中心“的”任务列表“中查看正在运行的一键建仓任务,任务执行完成即可在Schema中发现新同步的表;
7.最后再验证一下数据是不是真的过来了?果然有数据了,搞定!
总结
这里我们介绍了DLA最新引入的一键建仓的功能,一键建仓的作用就是为了让数据在RDS、POLARDB 里面的客户可以方便、快速、没有后顾
之忧地对业务数据进行分析,希望这个功能的引入能够让大家把RDS、POLARDB里面的数据更好的分析起来。
钉钉扫码,咨询详情