高效的数据工作台
支持交互式的SQL查询、作业依赖调度、作业管理等,全部在数据工作台搞定。
支持多种数据源
内置直接支持分析HBase、Redis、Mongodb、RDS、POLARDB等数据源的数据,ETL和数据回流等工作,拒绝繁琐配置,直接数据工作台关联对应数据库即可。
一键数据归档
支持将多种数据源的数据归档到Spark构建离线数仓,满足任意复杂数据处理需求,并支持结果数据回流回流在线查询库。
X-Pack Spark 分析引擎产品架构
适用场景:精准广告推荐系统、大数据风控系统、用户画像、离线数据仓库、物联网实时处理及计算、海量数据精细化运营、日志大数据分析...
X-Pack Spark 分析引擎企业级能力
流式处理及入库
Spark Streaming为数据库提供流式ETL入库(延迟秒级别)
生态打通
Spark的多数据源能力,提供外部数据源批量入库、联邦分析能力
算法及Code
支持python、java、scala、R、SQL多语言,支持复杂的数据过程处理(类似PL/SQL)、机器学习等
离线数仓(复杂分析)
一键归档数据到Spark,为数据库添加PB级别离线数仓能力,支持复杂分析,提供天/月级别的报表等
非结构化处理
搭配HDFS/OSS存储为数据库添加非结构化数据存储处理能力(CSV、XML、Parquet多种存储)
X-Pack Spark 典型案例
推荐业务场景
大数据风控系统
构建离线数仓
价值:
性能:某用户场景下流吞吐峰值达到20万条/秒;
查询能力:HBase自动同步到Solr对外提供全文检索的查询;
一站式解决方案:Spark服务原生支持通过SQL读取HBase数据能力进行ETL,Spark + HBase + Solr一站式数据处理平台。
价值:
Spark同时支持事中及事后风控;
Spark友好对接HBase、RDS、MongoDB多种在线库。
操作数据库层:最原始的数据,在消息中间件类似kafka、loghub,或者在在线数据库比如POLARDB、RDS、MongoDB、HBase等;
明细宽表层:使用Spark批量ETL或者Spark Streaming后的表构建明细宽表;
公共汇总宽表层:在Spark中按照定的业务主体做分类和建模,比如按天/月报表、做模型训练等;
公共维表层:静态的维表;
数据应用层:离线数仓梳理好的高度汇总的数据,存储在在线库中对外提供查询服务。
X-Pack Spark 免费专家支持