Question 1000372: QQ-plot图里的x轴y轴是什么意思

统计/机器学习 概率分布 描述性统计 数据可视化

我想用QQ-plot判断这个样本是不是正态分布的。画出来基本一条直线,所有差不多是正态。我不明白的是图里的横轴、纵轴都是意思?为什么数字还不一样?

谢谢!


Answer

Answer 1:

QQ是Quantile-Quantile,就是分位数比上分位数的意思。

假如在你的样本中,-5的分位数是0.05,在标准正态分布中对应分位数是0.05的数(一般称作z-score)是-1.64,那么在QQ plot中(-1.64, -5)就是一个点。通过以上方法,可以每个样本点描绘出来,这就是QQ plot。

所以y轴就是你的样本的范围,x轴就是标准正态分布下的z-score。


Question 1002616: boxplot里的横线是什么意思?

统计/机器学习 概率分布 描述性统计 数据可视化

统计学得不好,请教大家,boxplot里的这些横线,还有box的大小都是什么意思?

第3个boxplot的外面还有一个点,这个又是什么意思呢?



Answer

Answer 1:

我就用题主的图举例了

box plot的中间是个box

box的上边缘是Q3,也就是第三四分位数,或者说第75百分位数。

box的下边缘是Q1,也就是第一四分位数,或者说第25百分位数。

box的中间的线是中位数。所以整个box是占据了整个数据集的一半。

boxplot其实有很多种,不同的box对box外的那两个横线的定义不大一样。

Tukey Boxplot是比较常见的一种,它的最上面的线是Q3+1.5IQR,最下面的线是Q1-1.5IQR。

IQR是四分位距,IQR=Q3-Q1。

任何在最下限或者最上限之外的点都会被标出(比如题主的例子),被标出的点称为离群点(outlier)



Question 1003025: 雷达图中各个属性的相对位置会影响面积大小吗?

统计/机器学习 数据可视化

比如说雷达图里有六个属性,顺时针数过去是A,B,C,D,E,F,如果调整一下顺序,换成A,C,F,D,B,E,但是数值不变,雷达图的面积会变吗?会影响视觉效果吗?

Python雷达图教程想到的。


Answer

Answer 1:

我觉得有影响。交换属性的顺序之后,面积不一定相等。

比如有四个属性,A,B,C,D,满分是1分。

A是0.9,B是0.05,C是0.9,D是0.05。雷达图如左图。总面积为0.09。

A是0.9,B是0.9,C是0.05,D是0.05。雷达图如右图。总面积为0.45125。


面积差很多,只是调整了属性的顺序而已。

Answer 2:

有影响的,雷达图的面积不具备一致性

上面两个图就是一样的数据,只是调整了各个指标的位置次序,视觉效果截然不同

所以雷达图是有误导性的,经常被一些“数据魔术师”利用

Answer 3:

改正下,面积是不一样的。三角形两边的边长$A,B$以及夹角$\theta$,面积是$\frac{AB}{2}sin\theta$。

所以雷达图总面积

$area=((AB)+(BC)+(CD)+(DE)+(EF)+(FA))\frac{sin60^o}{2}$

$\neq((AC)+(CF)+(FD)+(DB)+(BE)+(EA))\frac{sin60^o}{2}$


来自sofasofa(一个专业的机器学习社区),建议去sofa社区阅读,这里只是记录。防止网站在网络中走失。