Spark-应用案例介绍
更新时间 2021-09-10 19:13:59    浏览 0   

TIP

本文主要是介绍 Spark-应用案例介绍 。

# Spark基本介绍(阿里云和相关案例))

# 概述

RDS、NoSQL相关的数据库服务擅长在线存储查询场景,X-Pack Spark服务通过外部计算资源的方式,为Redis、Cassandra、MongoDB、HBase、RDS存储服务提供复杂分析、流式处理及入库、机器学习的能力,从而更好的解决用户数据处理相关场景问题。

wxmp

X-Pack Spark服务具有以下几个特点:

  • 数据工作台:支持交互式、作业管理、工作流、资源管理、元数据管理,从测试、开发、上线一站式开发体验
  • Spark多源connector:一键关联cassandra、hbase、mongo、redis、rds等集群,免去调试的烦恼,更加便捷的分析其他数据库的数据
  • 可维护性:支持小版本升级、监控、报警,免去Spark集群维护
  • 离线数仓能力:支持一键归档在线库rds、polardb、mongo、cassandra、hbase数据到Spark,构建统一的数仓;支持HiveMeta管理数仓数据;
  • 成本:X-Pack Storage支持基于云盘、D1的HDFS、以及OSS,分级存储满足不同容量、成本场景需求;计算节点支持弹性伸缩,最低化成本消耗

ApsaraDB 在线数据库擅长在线查询场景,X-Pack Spark为在线数据库用户提供混合负载的能力,主要包括:

wxmp
  • 流式处理及入库:Spark Streaming为数据库提供流式ETL入库(延迟s级别);
  • 生态打通:Spark的多数据源能力,提供外部数据源批量入库、联邦分析能力;
  • 复杂计算及算法:支持SQL、python、java、scala、R多语言,支持复杂的数据过程处理(类似PL/SQL)、机器学习等;
  • 离线数仓(复杂分析):一键归档数据到Spark,为数据库添加PB级别离线数仓能力,支持复杂分析,提供天/月级别的报表等;
  • 非结构化处理:搭配HDFS/OSS存储为数据库添加非结构化数据存储处理能管理(CSV、XML、Parquet多种存储)。

# 典型场景

# 1、统一数据ETL服务

  • 场景:在业务的选型和发展中,不同类型的数据会存储在不同的数据库中,数据孤岛对于企业发展不利,统一的数据ETL服务能够让数据之间产生连接交互,产生更多的价值。
wxmp
  • 价值及优势:

    • 丰富数据源:支持阿里云包括数据库、消息中间件、oss基本所有数据源
    • ETL能力:支持批流统一、多源联邦ETL、支持SQL&Python&scala等语言
    • 数据管理能力:支持元数据管理、工作流依赖、作业定时调度、报警等

# 2、 大数据用户画像及推荐场景

  • 场景:随着积累的用户越来越多,推出商品推荐功能,需要实时对用户行为日志进行ETL分析、存储以及模型计算等。
wxmp
  • 价值及优势:

    • spark多源处理能力可以对接基本所有的数据系统,比如RDS、Cassandra、MongoDB、HBase、Redis,以及kafka、loghub等
    • spark 流、批、机器学习统一的能力,可以一站式解决计算问题
    • Cassandra/HBase适合作为用户画像的统一宽表存储
    • mongoDB作为商品信息的存储,Redis作为推荐结果的加速层

# 3、 物联网日志处理平台

  • 场景:对于车联网、物联网、游戏行业,会有百万终端百TB级数据不间断写入,数十亿级数据量下在线查询,以及对冷数据的大数据计算挖掘的需求
wxmp
  • 价值及优势:

    • 冷热分离存储降成本:比如3个月的热数据存储在云Cassandra&hbase*phoenix这样的大数据在线存储库(基于SSD盘),全量的冷数据存储在X-Pack Spark数据仓库(HiveMeta)(基于本地盘D1机型,以及oss存储);
    • 存储及计算一体化:写入云Cassandra&hbase*phoenix&mysql在线库的数据,通过log实时归档 (opens new window)到X-Pack Spark数据仓库(HiveMeta)来做大数据的计算分析;

# 4、 大数据风控系统

  • 场景:在电商、游戏、广告、金融等行业都需要记录用户的行为日志以及订单明细,做风控处理,风控处理会包括事前风控、事中风控、事后风控,这样一套具有存储、计算、机器学习能力的平台
wxmp
  • 价值及优势:

    • 存储、计算、机器学习一体化:在线存储针对不同的数据类型可以选择MongoDB&Cassandra&HBase,比如mongoDB适合存储json、Cassandra适合实时在线使用SQL存储宽表、HBase适合做KV在线存储;而Spark作为业界最成熟的大数据统一平台支持流、批计算、机器学习能力
    • 事前、事中、事后风控同时支持:基于在线存储的风控结果可以做事前风控、利用spark streaming可以做事中风控、x-pack spark的数据仓库能力可以用来做全量数据的时候风控
    • 模型训练及仿真一体化:spark mllib及计算能力可用来做模型的训练,同时x-pack spark的离线数仓能力可以用来对规则及模型做仿真评测

# 5、数据中台构建

  • 场景:企业前期在快速支持业务时,数据会存储在不同的系统中,比如Cassandra、MongoDB、HBase、RDS、polardb、kafka、loghub、tablestore、adb等中,之后会有构建统一的数据仓库的需求。X-Pack Spark的数仓Storage、及多源connector的能力很适合。
wxmp
  • 价值及优势:

    • X-Pack Spark多数据源:X-Pack Spark支持对接基本全部的消息中间件、NoSQL、OLTP、OLAP等数据系统
    • 异构数据源归档能力:支持对Cassandra、MongoDB、HBase、RDS等数据源进行一键归档
    • X-Pack Spark数据仓库能力:X-Pack Spark内置HiveMeta用来管理大量复杂的数仓表
    • X-Pack Spark Storage能力:支持高效盘HDFS、本地盘HDFS、OSS存储不同成本的存储介质
    • X-Pack Spark Storage资源弹性:支持计算资源根据计算复杂弹性伸缩
    • X-Pack Spark开发者能力:支持SQL、Python、scala、java等语言进行分析计算开发

# 参考文章

  • https://help.aliyun.com/document_detail/93899.html
更新时间: 2021-09-10 19:13:59
  0
手机看
公众号
讨论
左栏
全屏
上一篇
下一篇
扫一扫 手机阅读
可分享给好友和朋友圈