大数据-技术体系构成 | 智能后端和架构

大数据-技术体系构成

更新时间浏览

TIP

本文主要是介绍大数据-技术体系构成。

大数据技术体系
1、概述
2、关系型数据库采集
3、非关系型数据库采集
参考文章

# 大数据技术体系

# 1、概述

# 企业级大数据体系

wxmp

# Google大数据技术栈

wxmp

# Hadoop与Spark开源大数据技术栈

wxmp

# 大数据架构

wxmp

# 2、关系型数据库采集

# Sqoop1架构

wxmp

# Sqoop2架构

wxmp

# CDC(增量数据收集）

# 应用场景

wxmp

# 开源实现Canal

wxmp

# 多机房同步系统Otter

基本原理
S、E、T、L四阶段模型
跨机房部署

# 3、非关系型数据库采集

非关系型数据指日志、网页、视频等数据。

# Flume

# 基本思想和特点

插拔式架构，已扩展
各组件可定制化
声明式配置
语意路由
内置事务，高可靠性

# 基本架构

Flume的数据流通过一系列Agent的组件构成，经过过滤、路由操作后，传递给下一个或多个Agent，直至目标系统。

wxmp

# Agent构造

Agent内部由三个组件构成，分别是Source、Channel、Sink。

wxmp

Source 从Client或上一个Agent接收数据，写入Channel。 Flume提供了很多Source实现，包括

Avro Source
Thrift Source
Exec Source
Spooling Directory Source
Kafka Source
Syslog Source
Http Source
自定义Source

2）Channel 缓冲区，暂存Source写入的数据，直到被Sink发送出去。 Flume提供了几种实现：

Memory Channel 内存中缓存，性能高，断电数据易丢失，内存不足，Agent会崩溃。
File Channel 磁盘文件缓存Event。
JDBC Channel
Kafka Channel

3） Sink 从Channel读取数据，发送给下一个Agent。 Flume提供以下几张实现：

HDFS Sink
HBase Sink
Avro/Thrift Sink
MorphineSolrSink/ElasticSearch Sink
Kafka Sink

# Flume高阶组件

包括Interceptor、Channel Selector和Sink Processor wxmp

# 数据流构建方法

# 如何构建

1）确定流式数据获取方式 2）根据需求规划Agent 3）设置每个Agent 4）测试构建的数据流拓扑 5）在生产环境部署该数据流拓扑

# 数据流获取方式

RPC
TCP或UDP
执行命令

# 常见拓扑架构

1）多路合并 wxmp

2）多路复用 wxmp

# 参考文章

https://blog.csdn.net/nalw2012/article/details/108188819

← 大数据-技术框架方案大数据-技术架构总结 →

扫一扫手机阅读

可分享给好友和朋友圈