博客
关于我
Spark权威指南(中文版)----第27章 回归
阅读量:710 次
发布时间:2019-03-21

本文共 2173 字,大约阅读时间需要 7 分钟。

Spark权威指南(中文版)是一部深入浅出的Spark 2.x版本框架指南,涵盖了其中各个核心模块,是当今市场上最优质的学习材料之一。无论您是Spark新手还是经验丰富的从业者,这本书都能为您提供宝贵的知识资源。

回归分析:从分类的延伸展开

回归分析是分类之外更基本的机器学习任务。它不仅仅是根据一组特征预测一个数值,而是通过特征的线性或非线性组合来预测一个目标变量(通常是连续型或类别型)。从数学角度看,回归任务的输出空间是连续的,这意味着优化过程需要专注于预测值与实际值之间的误差度量,而不是准确率。尽管如此,回归和分类在很多概念上有相似之处,这使得学习回归分析的知识非常有益。

回归的典型应用场景

在实际业务中,回归分析有许多应用场景。例如,您可以通过分析电影的特征(如上映时间、预告片播放量等)来预测其观众人数;利用公司历史数据、市场趋势和季节因素来预测未来的收入;或者通过查看作物生长区域的气候数据,预测特定地块的作物产量。

MLlib中的回归模型

MLlib提供了多种回归模型,涵盖了从传统的线性回归到更复杂的树模型。以下是主要的回归模型类型:

  • 线性回归:简单但强大的模型,假设变量之间的关系是线性的。
  • 广义线性回归:扩展了线性回归的概念,支持多种误差分布和链接函数,如Gaussian、Binomial、Poisson等。
  • 保序回归:专注于有序分类任务。
  • 决策树:捕捉非线性关系的树状结构化模型。
  • 随机森林:基于多个决策树的集成方法,具有强大的预测能力。
  • 梯度提升树:结合了梯度提升方法的升级版,性能优佳。
  • 生存回归:用于预测个体生存概率的任务。

了解这些模型的工作原理和使用方法,是掌握回归分析的关键。

模型可伸缩性评估

回归模型在不同数据量下都有良好的表现。这一点通过下面的表格得以体现:

模型 特征数量 训练样本数量 备注
线性回归 1-1000万 无限制 具有良好的泛化能力
广义线性回归 4096 无限制 支持多种误差分布和链接函数
保序回归 N/A 百万级别 适用于有序分类任务
决策树 数百次 无限制 非线性模型结构
随机森林 万级别 无限制 集成多棵决策树模型
梯度提升树 数百次 无限制 性能优越
生存回归 1-1000万 无限制 预测生存概率

不同类型模型各有优势,选择时需综合考虑性能和应用场景。

数据准备

以下是准备回归数据的示例代码:

// Scala代码示例val df = spark.read.load("/data/regression")# Python代码示例import pyspark.ml.regressiondf = spark.read.load("/data/regression")

线性回归实例

线性回归是回归分析的基础,通过以下代码可以实现:

import org.apache.spark.ml.regression.LinearRegressionval lr = new LinearRegression()  .setMaxIter(10)  .setRegParam(0.3)  .setElasticNetParam(0.8)val lrModel = lr.fit(df)# Python代码示例from pyspark.ml.regression import LinearRegressionlr = LinearRegression().setMaxIter(10).setRegParam(0.3).setElasticNetParam(0.8)lrModel = lr.fit(df)

模型训练后可通过summary获取训练结果,包括残差、R平方等度量指标。

广义线性回归扩展

广义线性回归扩展了线性回归的能力,支持多种误差分布和链接函数。以下是一个广义线性回归的示例:

import org.apache.spark.ml.regression.GeneralizedLinearRegressionval glr = new GeneralizedLinearRegression()  .setFamily("gaussian")  .setLink("identity")  .setMaxIter(10)  .setRegParam(0.3)  .setLinkPredictionCol("linkOut")# Python代码示例from pyspark.ml.regression import GeneralizedLinearRegressionglr = GeneralizedLinearRegression()  .setFamily("gaussian")  .setLink("identity")  .setMaxIter(10)  .setRegParam(0.3)  .setLinkPredictionCol("linkOut")

广义线性回归提供了更高级的模型定制能力,您可以根据误差分布和链接函数选择适合任务的模型。

通过这些内容,您不仅能理解回归分析的基本概念,还能通过实际代码实现来探索不同模型的特点和应用场景。在实际应用中,分析数据特点、选择合适的模型类型,并通过调参优化模型性能,是回归分析的关键步骤。

转载地址:http://pszrz.baihongyu.com/

你可能感兴趣的文章
NHibernate学习[1]
查看>>
NHibernate异常:No persister for的解决办法
查看>>
Nhibernate的第一个实例
查看>>
NHibernate示例
查看>>
nid修改oracle11gR2数据库名
查看>>
NIFI1.21.0/NIFI1.22.0/NIFI1.24.0/NIFI1.26.0_2024-06-11最新版本安装_采用HTTP方式_搭建集群_实际操作---大数据之Nifi工作笔记0050
查看>>
NIFI1.21.0_java.net.SocketException:_Too many open files 打开的文件太多_实际操作---大数据之Nifi工作笔记0051
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_日期类型_以及null数据同步处理补充---大数据之Nifi工作笔记0057
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_补充_插入时如果目标表中已存在该数据则自动改为更新数据_Postgresql_Hbase也适用---大数据之Nifi工作笔记0058
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_补充_更新时如果目标表中不存在记录就改为插入数据_Postgresql_Hbase也适用---大数据之Nifi工作笔记0059
查看>>
NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052
查看>>
NIFI1.21.0_Postgresql和Mysql同时指定库_指定多表_全量同步到Mysql数据库以及Hbase数据库中---大数据之Nifi工作笔记0060
查看>>
NIFI1.21.0最新版本安装_连接phoenix_单机版_Https登录_什么都没改换了最新版本的NIFI可以连接了_气人_实现插入数据到Hbase_实际操作---大数据之Nifi工作笔记0050
查看>>
NIFI1.21.0最新版本安装_配置使用HTTP登录_默认是用HTTPS登录的_Https登录需要输入用户名密码_HTTP不需要---大数据之Nifi工作笔记0051
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增加修改实时同步_使用JsonPath及自定义Python脚本_03---大数据之Nifi工作笔记0055
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_插入修改删除增量数据实时同步_通过分页解决变更记录过大问题_01----大数据之Nifi工作笔记0053
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表或全表增量同步_实现指定整库同步_或指定数据表同步配置_04---大数据之Nifi工作笔记0056
查看>>
NIFI1.23.2_最新版_性能优化通用_技巧积累_使用NIFI表达式过滤表_随时更新---大数据之Nifi工作笔记0063
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现update数据实时同步_实际操作05---大数据之Nifi工作笔记0044
查看>>