1、前言
2、什么是线性关系?
3、CORREL相关性函数
4、某金和某银的相关性
前言
CORREL是用于计算两组等长数值数据的相关系数,核心作用是衡量两组数据的线性相关程度,通俗来讲就是判断两组数据 “同步变化” 的紧密程度,结果范围为[−1,1]。
使用场景有很多,例如广告投入与销量的关系、温度与冷饮销量的关系、股票价格与大盘指数的关系。通过合理使用 CORREL,可从海量数据中发现潜在规律,为决策提供数据支持。
什么是线性关系?
两组数据的变化有固定的“比例感”,一个数据变,另一个数据跟着变,而且变化的“节奏”大致有规律,不是忽快忽慢、忽跟忽不跟。
整体趋势能大致连成一条直线,而不是弯弯曲曲的曲线、或者毫无规律的乱点,这就是线性关系。
比如下图,数据2比数据1多5,计算后就是完全为1的线性正相关。
结果为0不代表两组数据无关联,仅代表无“线性”关联,正数是表示正相关,负数是表示负相关。
CORREL只能检测直线关系,对于曲线关系(如二次函数)可能误判为无线性相关。
例如圆的半径与面积的关系是非线性的,此时CORREL可能接近0。
相关性≠因果性,高相关系数仅表示两个变量同步变化,但不代表存在因果关系,需结合业务逻辑分析。例如冰淇淋销量与溺水人数正相关,但两者均由气温驱动,无直接因果。
CORREL相关性函数
公式:CORREL(第一组数值,第二组数值)
数值:仅数值型数据参与计算,两列数组应长度完全一致。如果某一组数组和和另外一个数组是有线性函数关系,好像长度不一致也能计算,或者是程序晕掉了。
每组数据至少要有两个数据,但是此时运算也没有任何价值,数据越多才越有价值,而且单个异常值可能显著扭曲相关系数。
相关系数是两列数据通过每个值和每组平均值的差经过一系列计算得出。
背后计算虽然复杂,但是我们使用起来简单啊,又有东西汇报了,又能乱吹一通!
某金和某银的相关性
导出一段时间某金和某银对应基金的净值走势,发现它们近期确实有强的正相关性,甚至我们可以每个月的数据都得到一个相关性系数,然后连成趋势图。然而知道了这些,进入市场还是容易被当成“韭菜”割掉。