SparkMLLib-基础介绍
更新时间 2021-09-10 19:13:59    浏览 0   

TIP

本文主要是介绍 SparkMLLib-基础介绍 。

# Spark MLlib 简单介绍

# 1.机器学习介绍

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习算法是从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。

# 机器学习可分为以下几种类别

• 监督学习:输入数据被称为训练数据,它们有已知的标签和结果。常见的算法包括回归分析和统计分类

• 无监督学习:输入数据不带标签或者没有一个已知的结果。常见算法有聚类

• 半监督学习:输入数据由带标签和不带标签组成。有分类和回归

• 强化学习:输入数据作为作为来自环境的激励供给模型,且模型做出反应。反馈作为环境的惩罚或奖赏。包括Q学习,时序差分学习。

# 常见算法

• 分类和回归-----线性回归、逻辑回归、贝叶斯分类、决策树分类等

• 聚类----KMeans聚类、LDA主题、KNN等

• 关联规则-----Apriori、FPGrowth等

• 推荐-----协同过滤、ALS等

• 神经网络-----BP、RBF、 SVM等

• 深度神经网络等

# 2.spark介绍

引用官网一句话:Apache Spark™ is a unified analytics engine for large-scale data processing.

Spark, 是一种"One Stack to rule them all"的大数据计算框架, 期望使用一个技术堆栈就 完美地解决大数据领域的各种计算任务。Spark使用Spark RDD、 Spark SQL、 Spark Streaming、 MLlib、 GraphX成功解决了大数 据领域中, 离线批处理、 交互式查询、 实时流计算、 机器学习与图计算等最重要的任务和问题。

wxmp

• Spark Core用于离线计算

• Spark SQL用于交互式查询

• Spark Streaming用于实时流式计算

• Spark MLlib用于机器学习

• Spark GraphX用于图计算

# 3.spark MLlib介绍

spark MLlib 是spark中可以扩展的机器学习库,它有一系列的机器学习算法和实用程序组成。包括分类、回归、聚类、协同过滤、等,还包含一些底层优化的方法

• 机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。

• 特征工程:特征提取、特征转换、特征选择以及降维。

• 管道:构造、评估和调整的管道的工具。

• 存储:保存和加载算法、模型及管道

• 实用工具:线性代数,统计,数据处理等。

wxmp

# 【----------------------------】

# 参考文章

  • https://blog.csdn.net/liudongdong19/article/details/81912497
  • https://blog.csdn.net/Luomingkui1109/article/details/86475955
更新时间: 2021-09-10 19:13:59
  0
手机看
公众号
讨论
左栏
全屏
上一篇
下一篇
扫一扫 手机阅读
可分享给好友和朋友圈