在实际数据分析工作中,单因子线性回归是一种最基础、最常用的建模方法。它用于刻画一个自变量与一个因变量之间的线性关系。与编程工具相比,Excel 提供了图形界面与统计分析插件,可以在无需编写代码的情况下完成完整的建模流程。
一、准备与导入数据
直接打开包含数据的 Excel 工作簿文件。
如果使用 .csv 文件,请按以下步骤进行操作。
1、打开 Excel。
2、选择“数据”选项卡,点击“自文本/CSV”。
3、选择文件 .csv 文件,如“单因子线性回归.csv”。
4、在预览界面确认分隔符正确后,点击“加载”。
5、数据将以表格形式导入到工作表中。
二、数据检查与清理
无论使用 .csv 还是 .xlsx,在建模前必须确认数据有效:
• 两列数据均为数值型
• 不含空值
• 不包含单位符号
1、检查是否为数值
若单元格左上角出现绿色提示,可点击提示按钮,选择“转换为数字”。
确保两列数据均为数值型,否则回归分析会失败或结果失真。
2、检查空值
(1)选中数据区域。
(2)点击“开始”选项卡,在“编辑”组中选择“查找和选择 → 定位条件”,然后在弹出的对话框中选择“空值”。
(3)删除包含空值的整行。
数据清理完成后,保存文件。
三、绘制散点图
散点图用于观察变量之间是否呈现近似线性趋势。
1、选中两列数据(包含列名)。
2、点击“插入”选项卡,在“图表”组中选择“插入散点图(X、Y)或气泡图”,再选择“散点图”。
生成图表后,应观察点的分布是否大致沿一条直线排列。若明显呈现非线性趋势,则不适合使用线性回归模型。
四、添加线性趋势线
在散点图基础上添加回归线。
1、右键点击任意一个散点,选择“添加趋势线”。
2、在右侧设置面板中选择“线性”。
3、勾选“显示公式”。
4、勾选“显示 R 平方值”。
图表中将显示线性方程:y = a * x + b,同时显示 R² 值。
其中:
a 为斜率,表示自变量每增加 1 个单位,因变量平均变化量。
b 为截距,表示当自变量为 0 时的预测值。
R² 表示模型对因变量变动的解释比例,越接近 1,拟合效果越好。
这是使用图形方式得到的回归参数。
五、使用“数据分析”工具进行回归
趋势线方法适合快速观察,但若需要完整统计报告,应使用“回归分析”工具。
1、启用分析工具库(若尚未启用)
(1)点击“文件 → 选项”,点击“加载项”。
(2)底部“管理”选择“Excel 加载项”,点击“转到”。
(3)勾选“分析工具库”。
(4)点击“确定”。
“数据”选项卡的右侧将出现“分析”组。
2、执行回归分析
(1)选择“数据”选项卡,点击“分析”组中的“数据分析”按钮。
(2)选择“回归”,点击“确定”。
(3)在弹出的窗口中设置:
输入 Y 区域:选择销售额列。
输入 X 区域:选择温度列。
勾选“标签”(若包含列名)。
选择“输出区域”或“新工作表”。
点击“确定”。
Excel 将生成完整回归报告。
输出结果包含若干统计指标。
首先查看“R Square”(决定系数),该值表示模型对因变量方差的解释比例。若 R Square 接近 1,说明线性模型对数据拟合较好。
其次查看“Coefficients”(回归系数)部分:
Intercept(截距) 对应截距 b。
自变量名称对应斜率 a。
模型表达式为:y = a * x + b。
若斜率为正,说明温度上升时销售额增加;若为负,则说明存在反向关系。
还可以关注“Significance F”(整体显著性水平),其值越小,表示整体回归模型越显著。
六、计算回归参数与预测值
除插件方式外,也可使用 Excel 内置函数。
1、计算斜率
=SLOPE(known_y's, known_x's)
函数说明:第一个参数为因变量区域(Y 值),第二个参数为自变量区域(X 值)。返回值为线性回归方程中的斜率 a。
实例(以上图中的图表为例,下同):
2、计算截距
=INTERCEPT(known_y's, known_x's)
函数说明:参数同 SLOPE 函数,返回值为线性回归方程中的截距 b。
实例:
3、计算决定系数 R²
=RSQ(known_y's, known_x's)
函数说明:参数同 SLOPE 函数,返回值为决定系数 R²。
实例:
另外,Excel 还提供更完整的线性回归函数 LINEST:
=LINEST(known_y's, known_x's, const, stats)
参数说明:
• known_y's:因变量区域
• known_x's:自变量区域
• const:是否计算截距(TRUE 表示计算,FALSE 表示截距为 0)
• stats:是否返回附加统计量(TRUE 表示返回完整统计结果)
返回值为数组:
• 若只有一个自变量:第一行依次为“斜率、截距”;若多个自变量:第一行依次为“各自变量系数、截距”
• 第二行及以下:标准误、R²、F 值等统计量(当 stats=TRUE 时)
实例:
=LINEST(B2:B9, A2:A9, TRUE, TRUE)
4、计算预测值
公式结构:
实例:
说明:如上图所示,在表格中,E2 为斜率,E3 为截距,D12 为待预测的自变量值。
然后使用自动填充下方单元格。
七、其他相关函数简介
1、计算样本数量
=COUNT(value1, [value2], …)
2、计算残差平方和
=SUMSQ(number1, [number2], …)
3、计算均方误差
4、计算两区域差值平方和
=SUMXMY2(array_x, array_y)
5、计算平方根
6、检查是否为数值
7、统计空值数量
八、工程注意事项
1、线性回归对异常值敏感,极端数据会明显改变斜率。
2、样本量过小可能导致 R² 虚高。
3、若散点图呈明显弯曲趋势,应考虑非线性模型。
4、建模前必须确保数据为数值类型且无缺失值。
📘 小结
本文完整演示了在 Excel 中完成单因子线性回归的规范流程,包括数据导入、清理、可视化、趋势线添加、回归分析插件使用以及预测计算。Excel 适用于小规模数据与教学场景,能够直观展示模型结构与统计指标。掌握这一流程,有助于理解回归分析的基本思想,并为进一步的数据建模实践奠定基础。