51

R中用线性回归进行预测建模

 5 years ago
source link: http://shujuren.org/article/736.html?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

byyeuya.png!web

预测模型对于预测未来结果和估算实际难以量化的指标非常有用。例如,数据科学家可以使用预测模型基于降雨和温度预测作物产量,或确定具有某些特征的患者是否更可能对新药物反应严重。

在我们具体讨 论线性回归 之前,让我们自己回顾一下典型的 数据科学工作流程 。很多时候, 我们将从我们想要回答的问题开始 ,并执行以下操作:

  • 收集与问题相关的一些数据(更多数据几乎总是更好)。
  • 如果需要,可以将数据清理,扩充和预处理为方便的形式。
  • 对数据进行探索性分析以更好地了解数据。
  • 使用您的发现作为指南,构建数据某些方面的模型。
  • 使用该模型回答您开始的问题,并验证您的结果。

线性回归是数据科学家用于预测建模的最简单和最常见的监督机器学习算法之一。 在这篇文章中,我们将使用线性回归来构建一个模型,该模型从人们易于研究的树木测量指标来预测樱桃树的体积。

我们将在此博客文章中使用R来探索此数据集并学习线性回归的基础知识。 如果您不熟悉R,我们建议从R Data Analyst路径获取R基础知识和R编程:中级课程。 它也有助于获得一些非常基本的统计知识,但如果你知道平均值和标准偏差是什么,你就可以跟随它。 如果您想自己练习构建模型和可视化,我们将使用以下R包:

  • datasets 该软件包包含各种练习数据集。 我们将使用其中一个“tree”来学习构建线性回归模型。
  • GGPLOT2 我们将使用这个流行的数据可视化包来构建我们的模型图。
  • GGally 该包扩展了ggplot2的功能。 我们将使用它来创建绘图矩阵,作为我们最初的探索性数据可视化的一部分。
  • scatterplot3d 我们将使用此包来显示具有多个预测变量的更复杂的线性回归模型。

无论如何,他们如何测量树木的体积?

树数据集包含在基础R的数据集包中,它将帮助我们回答这个问题。 由于我们正在使用现有的(干净的)数据集,上面的步骤1和2已经完成,因此我们可以跳到第3步中的一些初步探索性分析。这个数据集是什么样的?

data(trees) # 从datasets包中获取tree数据集
head(trees) # 查看数据集前面几行

iuy2Afe.png!web

str(trees) # 查看变量的结构

J7NzYfa.png!web

该数据集由31个描述黑樱桃树的3个数值变量组成:

  • 树干周长(in)
  • 高度(英尺)
  • 体积(ft3)

这些指标对于研究树木生态学的林务员和科学家来说是有用的信息。 使用基本的林业工具测量树木高度和周长相当简单,但测量树木体积要困难得多。 如果您不想实际减少和拆除树木,您必须采取一些技术上具有挑战性和耗时的活动,如爬树和进行精确测量。 能够从高度和/或周长准确预测树木体积将是有用的。

ZJfuArR.jpg!web

为了确定我们是否可以建立预测模型,第一步是查看我们的预测变量和响应变量(在这种情况下是周长,高度和体积)之间是否存在关系。 让我们做一些探索性的数据可视化。 我们将使用GGally包中的ggpairs()函数创建一个绘图矩阵,以查看变量如何相互关联。

ggpairs(data = trees, columns = 1:3, title = "trees data")

iEZ7F3r.png!web

ggpairs()函数给出了每个变量组合的散点图,以及每个变量的密度图和变量之间的相关强度。 如果您之前使用过ggplot2,这个符号可能看起来很熟悉:GGally是ggplot2的扩展,它提供了一个简单的界面来创建一些像这样复杂的图。

当我们查看这些图时,我们可以开始了解数据并提出问题。 相关系数提供有关变量与关系有多接近的信息; 相关系数越接近1,关系越强。 散点图让我们可视化变量对之间的关系。 散点图中点具有清晰的视觉模式(与看起来像无形的云相反)表明关系更强。

我们的问题:

哪些预测变量似乎与响应变量相关?从ggpairs()输出看,周长似乎与体积有关:相关系数接近于1,并且这些点似乎具有线性模式。 高度和体积之间可能存在关系,但看起来较弱:相关系数较小,散点图中的点更加分散。

变量之间关系的形状是什么?这种关系似乎是线性的; 从散点图中,我们可以看到随着树周长的增加树木体积不断增加。

这种关系是强大的,还是淹没信号的数据中的噪音?高度和体积之间的关系不是那么清楚,但是周长和体积之间的关系似乎很强。

现在我们对数据有了一个很好的整体把握,我们可以继续进行第4步并做一些预测建模。

形成一个假设

一个假设是对我们认为我们的数据发生了什么的有根据的猜测。 在这种情况下,让我们假设樱桃树的周长和体积是相关的。 我们形成的每个假设都有相反的结论:“零假设”(H0)。 在这里,我们的零假设是周长和体积无关。

在统计学中,零假设是我们使用我们的数据来支持或拒绝的假设; 我们不能说我们“证明”一个假设。 我们称之为周长和体积与我们的“替代”假设(Ha)相关。

总结一下:

  • H0:周长和体积之间没有关系
  • Ha:周长和体积之间有一些关系

我们的线性回归模型将用于检验我们的假设。 如果我们找到足够强的证据来拒绝H0,那么我们就可以使用该模型来预测来自周长的樱桃树体积。

构建线性回归模型

线性回归描述了感兴趣的响应变量(或因变量)与一个或多个预测变量(或独立变量)之间的关系。 它有助于我们将信号(我们可以从预测变量中学习关于响应变量的信息)与噪声分离(我们无法从预测变量中了解响应变量)。 随着我们的前进,我们将深入探讨模型如何做到这一点。

BvyM3mr.png!web

原文链接: https://www.dataquest.io/blog/statistical-learning-for-predictive-modeling-r/

版权声明:作者保留权利,严禁修改,转载请注明原文链接。

数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。 平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。 您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。 我们努力坚持做原创,聚合和分享优质的省时的数据知识! 我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK