在统计学中最有兴趣的问题研究 *** 之一-变量间相关性分析的 *** 。通过散点图和相关系数分析。相关分析的之一阶段,用散点图把相互对应的连续性数据(X,Y)用作表平面上的点来表示的图形, 可以确认两个变量之间的关系。散点图详情可以点击链接-六西格玛工具之散布图,参考之前发布的专题文章;而相关系数则定量表示两个变量之间线形关系的指标,并不表示函数关系。
相关分析可以量化两个变量之间的线性关系的程度。决定两个来自不同变量源的响应(或输出)之间线性关系的 *** 。也代表两个变量间的线性关联程度。由一个Pearson 相关系数 (r), 通常叫作相关系数(r)来衡量两个变量间的联系强度,在这里-1≤ r ≤1。
图1
1)r< 0意味着一个负线性相关。
2)r> 0意味着一个正线性相关。(即是Y随着X的增加而增加)。
3)r=-1意味着一个完全负线性关系
4)r=1意味着一个完全正线性关系
5)r=0意味着无线性关系
6)r=0并不意味着无关系。
绝对相关系数越接近于 1,数据点越紧密地落于一条直线上。如果相关系数接近于 0,则表明不存在线性关系。
注意事项
-若有一堆的X,且X是历史数据,想知道可能哪些X影响Y,可以考虑使用相关性分析;
-不能用来测量非线性关系的强弱程度;
- 相关并不意味着一定存在因果关系。只有受控试验才能确定因果关系;
- 单个极值能对系数产生极大影响。找出异常值并分析其影响;
- 要确定模型与数据的拟合程度,可通过将相关系数平方并乘以 100 计算出 (R2) 的方差百分比;
-作为回归分析的之一步;,应和图表技术一起使用。
案例应用
由于市场上对电芯的能量密度有较高的要求。研发技术工程师想了解当前新开发的一款软包电芯的能量密度容量之间的关系。
1.散布图分析。路径:图形 > 散点图
图2
2)相关性分析。路径:统计 > 基本统计 > 相关
图3
图4
解析:从上面图2可以看出,随着容量的提升,容量也在不断的提升。能量密度与功率(容量)是正相关关系。可以从容量提升方面去考虑提升能量密度;从图3,4可以看出,P值=0.000,P 值都小于 0.05,证明存在变量间存在相关性; 容量和能量密度的相关系数(r)为0.652。(注:r值表示相关强度,当超过0.8才认为够强;P值则代表显著性,并不代表够强;多个变量的相关性分析同样适用上述 *** )
1) SGS制造业专业委员会首期成员;
2)国内某新能源上市公司CQO,锂电及质量领域的一名老兵;
3)资深六西格玛黑带(SSBB)。