Excel应用大全 |相关

SIMPLE HEADLINE

变量

变量这个词，常出现在计算机、数学和统计等相关领域，在不同的环境中代表的意义也不同。例如，《全国人口普查条例》第十二条规定了普查内容：“人口普查主要调查人口和住户的基本情况，内容包括姓名、性别、年龄、民族、国籍、受教育程度、行业、职业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等。”这些内容就是变量。

统计学不是研究个体的学科，而是研究总体的。例如，对于一个班级里的某一个学生，民族是确定的，但是对于全班总体而言，其中每一个学生的民族都可能不尽相同，民族这个变量会因为总体里面的个体不同而变化，这就是变量的特点。一个班里有 50 个学生，男生30 人，女生 20 人，如果对 30 个男生的身高做研究，那么身高这个变量就包含 30 个变量值，如果对 20 个女生的体重做研究，那么体重这个变量就包含 20 个变量值。

相关关系

ENJOY THE SUMMER

直方图是一组数据中所有数据的频次分布图，这组数据可以是一个班的学生体重，也可以是工厂出产的一批足球的直径，也可以是一个城市居民的收入，这个数据组也可以称为一个变量。集中趋势、离散趋势和正态分布等都可以用来描述变量，但都是针对一个变量进行描述。如果想研究两个变量之间关系，即一个变量发生变化时另一个变量会如何变化，就需要用到变量之间的相关关系。

例如，保险公司的精算师们经年累月地在研究什么因素会影响到寿命，什么因素会导致意外的发生，体重超过多少会引发疾病，车速多少会引起交通事故，等等。现在的人们上车第一件事就是系安全带，会在意外来临时保障安全，其实很多年以前人们没有这个意识，是保险公司通过大量的案例分析出来，系安全带后出交通事故比不系安全带的事故致死率要低很多。所以保险公司为了能少做理赔，最终推动了“上车一定要系安全带”这条法规的立法。

中国有句古话：有其父必有其子。虽然孩子的性格、外貌等特征并不全是由父亲决定的，也有母亲的因素，还有成长环境的影响，但是孩子和父亲的确有很大的关联。

散点图与相关性

最常用来展示两个变量之间关系的是散点图。散点图可以展示一组数据的两个变量之间的关系。散点图的做法很简单，某个同学的身高是 160cm，体重是 50kg，画在散点图上就是 X 轴 160 所在直线和 Y 轴 50 所在直线的交点。如果有多名同学，那么数据点也相应增多，如图 7-60 所示。

图7-60学生身高体重散点图

从散点图中可以直观看出变量之间的关系，如图 7-61 所示。如果所有点之间的关系可以近似地表现为一条直线，那么就称为数据线性相关。

图7-61线性相关

再观察图 7-62，也可以用直线近似表现所有点，但是这些点到直线的距离比较远，与图 7-61 相比是较弱的线性相关。

图7-62较弱的线性相关

如果散点图很松散，毫无规律，如图 7-63 所示，那么两个变量之间是完全不相关的。

图7-63不相关　

观察图 7-61 和图 7-62，无论相关的强弱关系如何，两条近似的直线都是从左下向右上方倾斜的，称为正相关，具体表现为一个变量数值增加，另一个变量的数值也增加。相反，如果直线是从左上向右下方倾斜，那么就是负相关，具体表现为一个变量的数值增加，另一个变量的数值减少，如图 7-64 所示。

图7-64负相关

相关系数的计算

从散点图可以很容易地看出两个变量之间相关关系的正负方向和关系强度，当数据点分布很接近模拟线时，就是强相关；当数据点在线附近松散分布时，就是弱相关。仅凭肉眼只能观察到定性的内容，如果要知道强相关究竟有多强，弱相关究竟有多弱，就需要定量地分析，“相关系数”就是相关性的度量单位。

相关系数是对两个变量之间的相关关系的方向和强度的度量，通常用字符 r 表示，相关系数在任何统计软件中都会很容易得到。

从散点图的数据点分布是集中还是分散能看到两个变量的关系强弱，其实，这也是离散趋势的表现形式。离散趋势表现为一个横轴方向的离散，而散点图表现为横轴和纵轴两个方向同时离散，如图 7-65 所示。

图7-65离散趋势从一维发展为二维

因此，可以用测量数据变动幅度的方法来研究相关关系，即从均值入手。

图 7-66 是 9 名学生身高体重的数据，变量为身高 X 和体重 Y。计算出身高的均值为165，体重的均值为 58。

图7-66 9 个学生的身高（单位：cm）体重（体重：kg）数据　

画出这组数据的散点图，用空心点表示，将均值点（165, 58）用实心点标出，如图7-67所示。

图7-67 9 个学生的身高体重散点图

注意:图 7-67 中的均值点并不是一个学生数据所在的点，而是根据身高均值和体重均值虚拟出来的，是相关系数计算中的重要参照点，可以将其想象为辅助线。每个点都与均值点有一定的距离，将这些距离加总就是整体偏离幅度。注意如何计算每个点与均值的距离呢？以第 5 行的牛静涵同学为例，牛同学身高为 170，体重为 80，相当于均值点在横轴方向往右移动了 5（170-165）的距离，记为 a ；同时在纵轴方向往上移动了 22（80-58）的距离，记为 b，如图 7-68 所示。