你是否想过——
医生如何根据体检报告判断你是否患病?银行怎么知道你贷款会不会逾期?淘宝又凭什么给你推荐心仪的商品?
答案就藏在一种强大的统计分析方法中判别分析。
今天,我们就用最简单的方式,带你了解这个“预测未来”的神奇工具。
判别分析,听起来很高深,其实原理并不复杂。
想象一下:你要判断一个水果是苹果还是梨。你会怎么看?看颜色、摸硬度、闻香味……综合这些特征,你就能做出判断。
判别分析做的就是类似的事——根据多个特征(变量),把研究对象划分到已知的类别中。
它通过建立判别函数,寻找不同类别数据的最佳分界线,从而对新样本进行预测。
常见的判别分析方法有三种:
根据患者的血压、血糖、心率等指标,判断是否患病、患的是哪种病。医生做出准确诊断,背后可能就有判别分析的功劳。
企业根据你的年龄、收入、消费习惯,把你划分到合适的消费群体,然后推送你感兴趣的商品——没错,大数据“杀熟”的背面,就是精准营销。
银行根据你的收入、信用记录、负债情况,判断你的信用等级,决定是否给你贷款。你的“信用分”,很可能就是用类似方法算出来的。
通过分析岩石的化学成分、物理性质,判断岩石类型,帮助找到矿产资源。
根据图像的像素、颜色、纹理,判断它是动物、植物还是建筑物——这是人工智能看懂世界的基础。
理论知识讲完了,我们来点实操。
以经典的鸢尾花数据为例:我们有花萼长度、花萼宽度、花瓣长度、花瓣宽度4个指标,以及已知的鸢尾花类别(Setosa、Versicolour、Virginica)。
操作步骤:
第一步:数据录入把数据整整齐齐录入Excel表格。
第二步:计算各类别均值用=AVERAGEIF(类别列, "Setosa", 花萼长度列),分别计算每个类别下各变量的均值。
第三步:计算组间离差矩阵组间离差矩阵反映的是不同类别之间的分离程度。首先,用=AVERAGE(花萼长度列)算出各变量的总体均值(可以顺便在第二步完成后计算)。然后,借助Excel的矩阵运算函数(如MMULT、TRANSPOSE),结合各类别的样本数、各类别均值与总体均值的差值,计算出组间离差矩阵。这个矩阵将用于后续判别系数的求解。
第四步:计算组内离差矩阵这一步稍微复杂,需要用数组公式计算每个类别下各变量的离差矩阵,再把各类别的矩阵相加。
第五步:求判别函数系数用矩阵乘法和逆矩阵运算,结合组内离差矩阵和组间离差矩阵,计算判别函数的系数。
第六步:计算判别得分在原始数据中新增一列,用得到的判别系数乘以样本数据,计算每个样本的得分。
第七步:判别分类比较每个样本在不同判别函数下的得分,得分最高的类别,就是预测结果。
看得有点晕?没关系,我们来看一个实际案例。
某银行想根据客户信息判别信用等级(高信用、中信用、低信用),收集了20个已知信用等级的客户数据:
按照上面说的方法,银行算出判别函数的系数。
这时来了一位新客户:
月收入:2.2万元
信用卡使用年限:3年
逾期次数:3次
负债收入比:0.5
把他的数据代入判别函数,计算得分。结果显示:“中信用”类别的得分最高。
于是,银行判定他为“中信用”等级,可以给他贷款,但额度不会太高,利率也可能上浮一些。
判别分析就像一位经验丰富的“分类大师”,帮我们从数据中寻找规律,预测未来。
在人工智能和大数据时代,这种方法的生命力越来越强。虽然现在很多工作已经被机器学习取代,但理解它的原理,能帮我们更好地理解数据科学的世界。
下次当你收到精准的购物推荐,或者拿到银行的信用额度时,不妨想想——这背后,可能就站着“判别分析”这位默默无闻的功臣。