相关系数是衡量两个变量之间线性相关程度的统计量,其计算公式如下:
\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \]
其中:
\( x_i \) 和 \( y_i \) 分别表示两个变量的样本值。
\( \bar{x} \) 和 \( \bar{y} \) 分别表示两个变量的均值。
\( r \) 表示相关系数。
具体计算步骤如下:
收集数据 :收集两个变量的数据。计算均值:
计算两个变量的平均值 \( \bar{x} \) 和 \( \bar{y} \)。
计算离差:
计算每个变量值与平均值的离差,即 \( x_i - \bar{x} \) 和 \( y_i - \bar{y} \)。
计算乘积和:
将每个离差相乘,并计算它们的总和。
计算分母:
计算两个离差平方的和,再分别计算每个离差平方的和。
计算相关系数:
将乘积和除以分母,得到相关系数 \( r \)。
相关系数的值介于 -1 和 1 之间,其中:
-1 表示完全负相关。
0 表示没有线性关系。
1 表示完全正相关。
相关系数的绝对值越大,表示两个变量之间的线性相关程度越高;如果相关系数接近于 0,则表示两个变量之间没有明显的线性关系。
示例
假设有两个变量的数据如下:
变量 X: [1, 2, 3, 4, 5]
变量 Y: [2, 4, 6, 8, 10]
计算均值
\( \bar{x} = \frac{1+2+3+4+5}{5} = 3 \)
\( \bar{y} = \frac{2+4+6+8+10}{5} = 6 \)
计算离差
\( x_i - \bar{x} \): [-2, -1, 0, 1, 2]
\( y_i - \bar{y} \): [-4, -2, 0, 2, 4]
计算乘积和
\( \sum (x_i - \bar{x})(y_i - \bar{y}) = (-2)(-4) + (-1)(-2) + (0)(0) + (1)(2) + (2)(4) = 8 + 2 + 0 + 2 + 8 = 20 \)
计算分母
\( \sum (x_i - \bar{x})^2 = (-2)^2 + (-1)^2 + (0)^2 + (1)^2 + (2)^2 = 4 + 1 + 0 + 1 + 4 = 10 \)
\( \sum (y_i - \bar{y})^2 = (-4)^2 + (-2)^2 + (0)^2 + (2)^2 + (4)^2 = 16 + 4 + 0 + 4 + 16 = 40 \)
\( \sqrt{10 \times 40} = \sqrt{400} = 20 \)
计算相关系数
\( r = \frac{20}{20} = 1 \)
因此,变量 X 和变量 Y 之间的相关系数为 1,表示它们之间存在完全正相关。