西安高端网站建设,seo网络营销策略,免费cn域名注册,网站后台被百度蜘蛛抓取核心比喻#xff1a;两个人的关系亲密程度想象你在观察班上小明和小红的关系#xff1a;场景设定连续5天记录他们的互动次数小明主动找小红的次数#xff1a;[2, 5, 3, 6, 4]次/天小红主动找小明的次数#xff1a;[3, 6, 4, 7, 5]次/天问题#xff1a;他们的互动模式有多相…核心比喻两个人的关系亲密程度想象你在观察班上小明和小红的关系场景设定连续5天记录他们的互动次数小明主动找小红的次数[2, 5, 3, 6, 4]次/天小红主动找小明的次数[3, 6, 4, 7, 5]次/天问题他们的互动模式有多相似1. 相关系数是什么一句话定义相关系数是一个数字衡量两个变量一起变化的程度和方向。关键特性范围-1 到 1 之间方向正数同向变化你多我也多负数反向变化你多我少零没有线性关系强度越接近 ±1关系越强越接近 0关系越弱2. 三种直观理解方式方式一跳舞的比喻相关系数 1完美双人舞完全同步相关系数 0.8基本合拍偶尔错步相关系数 0各跳各的没有配合相关系数 -0.8镜像跳舞你进我退方式二散步的比喻相关系数 1两人并排走步调完全一致相关系数 0一个人逛街一个人跑步各走各的相关系数 -1一人向东一人向西速度相同方式三成绩的比喻回到小明小红我们把数据画出来天数 1 2 3 4 5 小明 2 5 3 6 4 小红 3 6 4 7 5肉眼观察第1天小明2次小红3次第2天小明5次小红6次小明高的时候小红也高小明低的时候小红也低看起来是正相关3. 相关系数怎么算无需公式恐惧让我们一步步手工计算小明和小红的相关系数。第一步画个图找中心计算平均值小明平均(25364)/5 4次小红平均(36475)/5 5次想象坐标系横轴小明的次数纵轴小红的次数中心点(4, 5)第二步看每个点偏离中心的情况第一天小明2次比平均少2小红3次比平均少2 第二天小明5次比平均多1小红6次比平均多1 第三天小明3次比平均少1小红4次比平均少1 第四天小明6次比平均多2小红7次比平均多2 第五天小明4次平均小红5次平均发现规律小明偏离的方向和大小 小红偏离的方向和大小第三步计算相关系数的核心思想相关系数 “他们偏离的同步程度”计算三个关键量1. 小明的波动程度方差(2-4)² (5-4)² (3-4)² (6-4)² (4-4)² (-2)² (1)² (-1)² (2)² (0)² 4 1 1 4 0 102. 小红的波动程度(3-5)² (6-5)² (4-5)² (7-5)² (5-5)² (-2)² (1)² (-1)² (2)² (0)² 4 1 1 4 0 103. 两人波动的“配合程度”协方差(2-4)×(3-5) (5-4)×(6-5) (3-4)×(4-5) (6-4)×(7-5) (4-4)×(5-5) (-2)×(-2) (1)×(1) (-1)×(-1) (2)×(2) (0)×(0) 4 1 1 4 0 10第四步标准化得到相关系数配合程度 10 相关系数 ——————————————— ———————————— 1 √(小明波动×小红波动) √(10×10)结论相关系数 1完全正相关4. 相关系数结果解读指南相关系数数值表相关系数ρ关系强度生活例子0.8 ~ 1.0极强正相关身高和体重0.6 ~ 0.8强正相关学习时间和成绩0.4 ~ 0.6中等正相关广告投入和销量0.2 ~ 0.4弱正相关降雨量和伞销量0.0 ~ 0.2极弱或无相关鞋码和智商0.0无线性相关圆的半径和角度-0.2 ~ 0.0极弱负相关年龄和玩具购买-0.4 ~ -0.2弱负相关练习时间和错误数-0.6 ~ -0.4中等负相关车速和到达时间-0.8 ~ -0.6强负相关室内温度和取暖费-1.0 ~ -0.8极强负相关商品价格和需求量重要提醒相关系数只测线性关系# 这个例子中 X [-2, -1, 0, 1, 2] Y [4, 1, 0, 1, 4] # Y X² # 相关系数 0 # 但有明显的抛物线关系非线性相关 ≠ 因果冰淇淋销量和溺水人数正相关不是因为冰淇淋导致溺水真实原因夏天第三变量5. 相关系数在现实中的应用应用1学习成绩分析老师发现数学和物理成绩ρ 0.85强相关数学和语文成绩ρ 0.35弱相关数学和体育成绩ρ -0.10基本无关结论数学好的学生物理通常也好但和语文、体育关系不大。应用2股票投资投资者发现股票A和股票Bρ 0.9高度相关股票A和黄金ρ -0.6中等负相关策略同时持有A和黄金可以对冲风险。应用3健康研究研究发现吸烟量和肺癌风险ρ 0.7强正相关运动量和心脏病风险ρ -0.65强负相关建议少吸烟、多运动。6. 相关系数的“兄弟姐妹”皮尔逊相关系数最常用我们刚才算的就是这个适用于线性关系、连续数据、正态分布斯皮尔曼秩相关系数处理单调但非线性关系把数据排序后计算例子Y随X增加而增加但不是直线肯德尔秩相关系数类似斯皮尔曼但计算方式不同对小样本更稳健简单选择指南数据看起来是直线 → 用皮尔逊数据看起来一起增减但不是直线 → 用斯皮尔曼不确定或样本小 → 用肯德尔7. 相关系数计算速查表手动计算四步法算均值x̄, ȳ算偏差(xᵢ - x̄), (yᵢ - ȳ)算三个和Sxx Σ(xᵢ - x̄)²Syy Σ(yᵢ - ȳ)²Sxy Σ(xᵢ - x̄)(yᵢ - ȳ)代公式Sxy ρ ——————— √(Sxx·Syy)计算器/Excel方法ExcelCORREL(A列, B列)Pythonnumpy.corrcoef(x, y)[0,1]计算器统计模式 → 输入数据 → 按r键8. 常见误解与真相误解1ρ0.8 意味着“80%相关”真相ρ0.8是非常强的相关但不是百分比。ρ²0.64表示一个变量的变化能解释另一个变量64%的变化。误解2ρ越大越好真相看情况如果预测地震我们希望ρ接近1如果投资多元化我们希望ρ接近0不相关资产。误解3ρ显著≠关系强真相样本很大时ρ0.1也可能统计显著但实际意义很小。误解4ρ1 意味着数据点全在直线上真相完全正确ρ1或-1时所有点都在一条直线上。9. 相关系数决策树10. 一句话记住相关系数“相关系数是关系的温度计正数是温暖一起变化负数是寒冷反向变化零度是室温没啥关系绝对值大小是温度高低关系强弱”记住相关系数就像关系的指纹它能快速告诉你两个变量是如何共舞的但不会告诉你谁在领舞因果也不会告诉你舞蹈的复杂步法非线性关系。