Question 1000180: R语言里怎么求一个样本的众数
统计/机器学习 描述性统计 RR语言里面求一个数组s的平均值是mean(s),求数组s的中位数是median(s)。但是要求s的众数,mode(s)返回的却是这个变量的类型。请问R语言里什么命令是求数组的众数的?
Answer
的确有些奇怪,R里并没有自带的求众数的函数的。
不过我们可以自己动手写一个。有两个常用方法。
方法一:自己定义一个函数。
FindMode <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}
注意这里返回的是字符型。
举个例子,比如s=c(1,2,1,1,2,3)的众数是1.
> FindMode(s)
返回"1"。
输入的样本也可以是字符类型,比如s=c("China","USA","China","England")
> FindMode(s)
返回"China"。
注意:如果有多个元素出现的次数并列第一,那么它只将返回最早出现的那个,比如s=c("man","woman","woman","man")
> FindMode(s)
返回"man"。
方法二:直接使用下面的命令。
> s = c("China","USA","China","England")
> names(sort(-table(s)))[1]
返回"China".
Question 1000278: R里面求方差的函数var求的是样本方差还是总体方差
统计/机器学习 描述性统计 RR用了这么久了,也从来都没有想过var这个函数求的是什么方差。总体方差就的分母是n,样本方差的分母是n-1。那问题来了,挖掘机到底...不是,var到底是哪种方差?
哥先谢过了!
Answer
R里的方差var是计算样本方差,也就是分母是n-1。这个不难,自己一试就发现了
> var(c(1,2,3))
[1] 1
Question 1000528: 有序分类变量的相关系数
统计/机器学习 描述性统计数值变量的相关系数是皮尔逊相关系数,那如果是有序分类变量呢,也可以用皮尔逊相关系数吗?
Answer
当然也可以用Pearson $\rho$。
但是针对于有序分类变量,另外一个很适用的叫做Kendall $\tau$,也叫做肯达尔秩相关系数。与皮尔逊系数类似,肯达尔秩相关系数的范围也是-1到1。-1表示完全负相关,1表示完全正相关。公式为
$$\tau=2\frac{有序对的个数-逆序对的个数}{n(n-1)}$$
对于样本$A=\{a_1,a_2,\cdots, a_n\}$与样本$B=\{b_1,b_2,\cdots,b_n\}$。如果存在一对$(i,j)$,当$a_ i \lt a_j $时,$b_i \lt b_j$;或者当$a_i>a_j$时,$b_i\gt b_j$;这样的一对就称作有序对。反过来就是一个逆序对。
比如样本$A=\{1, 3, 5\}$,$B=\{4 , 6, 3\}$
有序对为
$a_1 < a_2$,$b_1 < b_2$
逆序对为
$a_1 < a_3$,$b_1 > b_3$
$a_2 < a_3$,$b_2 > b_3$
所以上面两个数列的Kendall $\tau$为
$$\tau=2\frac{1-2}{3\times2}=-\frac{1}{3}$$
PS,感谢s3040608090发现笔误,现在已经更正。
除了弼码温提到的Kendall $\tau$,另一个也许更常用的是Spearman秩相关系数,也称为Spearman $\rho$。
对于两组样本,先对它们取序。
$A=(1, 2, 5, 3, 7)$,$B=(2, 10, 50, 11, 20)$这两组数,取序之后的结果为
$A'=(1, 2, 4, 3, 5)$,$B'=(1, 2, 5, 3, 4)$,然后再对$A'$和$B'$求正常的皮尔逊相关系数
$$\frac{\text{Cov}(A', B')}{\sigma_{A'}\sigma_{B'}}$$
$A'$和$B'$的皮尔逊相关系数就是$A$和$B$的Spearman秩相关系数。
Question 1000540: 标准误和标准差有什么区别?
统计/机器学习 描述性统计Answer
标准差(Standard Deviation)描述总体或者样本中数据的分散程度。
标准误(Standard Error)就是某个样本统计量的标准差。换句话,可以认为描述估计值和真实值的偏差程度。
比如说,你有一个样本(1,8,5,3,6,7,4,5,4,6)。
这个样本的标准差$\sigma=2.025$。
现在你要根据这个样本来估计总体的均值,均值的点估计是4.9。那么怎么衡量这个估计值和真实值的偏差程度呢?我们就需要用到标准误。因为这个样本的标准差是2.025,样本数量是10,那么标准误就是
$$SE=\frac{\sigma}{\sqrt{n}}=\frac{2.025}{\sqrt{10}}=0.6403.$$
Question 1000748: 对两个相关系数做显著性的假设检验?
统计/机器学习 假设检验 描述性统计我有三组数据Y,A还有B。假设它们都是1000个数据点。Y和A的相关系数是0.78,Y和B的相关系数是0.75。有没有什么假设检验的方法,来判断A是更显著的?
类似于,H0是Correlation(Y,A) > Correlation(Y,B)。
最好是能够得到p值。
谢谢!
Answer
可以考虑做bootstrap。
对$Y$有放回的抽样,抽出1000个,记为$Y_b$;对$A$有放回的抽样,抽出1000个,记为$A_b$;对B有放回的抽样,抽出1000个,记为$B_b$。
然后计算$Cor(Y_b,A_b)$和$Cor(Y_b,B_b)$。
重复$N$次。得到$N$个$Cor(Y_b,A_b)$和$N$个$Cor(Y_b,B_b)$。下面就是常规的单侧T检验了,可以得到你要的p value。
Ps. 题主有个概念弄错了,你这个情形下做假设检验,原假设应该是$Cor(Y,A) = Cor(Y,B)$,对立假设是$Cor(Y,A) > Cor(Y,B)$。
Question 1000832: 估计标准差的标准差?
统计/机器学习 描述性统计我们在估计总体的均值的时候,也会给出估计值的标准差。那这个标准差,作为一个统计量,它本身有没有标准差呢?该如何估计均值的标准差的标准差呢?
Answer
其实样本的方差就是服从卡方分布。
假设估计的方差是$s^2$,真实的方差是$\sigma^2$,样本数量是$n$。
$$(n-1)\frac{s^2}{\sigma^2}\sim \chi^2_{n-1}$$
所以方差的期望是$$\sigma^2$$
方差的方差是$$\frac{2\sigma^4}{n-1}$$
Question 1001275: 余弦相似的定义是什么?怎么计算?
统计/机器学习 推荐系统 描述性统计假设我有个item,并且有它们的各属性的评分,比如
A = [2, 3, 4]
B = [1, 4, 2]
怎么求它们的余弦相似?余弦相似的定义是什么?
谢谢!
Answer
把两个物品的属性看成向量,那么这两个物品的余弦相似就是这两个向量夹角的余弦。
余弦的定义如下
$$\cos(\theta)=\frac{<A, B>}{|A||B|}$$
用你的例子的话就是
$$\cos(\theta)=\frac{2\times 1+ 3\times4+4\times 2}{\sqrt{2^2+3^2+4^2}\sqrt{1^2+4^2+2^2}}$$
余弦的取值范围是-1到1。若1,说明这两个物品极其相似;若-1就说明完全相反。
Question 1002054: 一个连续变量和一个二元变量的相关系数怎么求?
统计/机器学习 描述性统计一个连续变量和一个二元变量的相关系数怎么求?
还是用皮尔逊相关系数?
Answer
可以把它看作是逻辑回归,连续变量是自变量,二元变量是因变量,回归系数或者logloss都能反映出两个变量的相关性
Question 1002390: 中位数的置信区间有什么办法求解?
统计/机器学习 描述性统计对于均值,我们一般很好处理置信区间。那么对于中位数,怎么得到它的置信区间呢?
有什么常用的方法吗?
Answer
有个蒙特卡洛加bootstrap的方法。用bootstrap(sample with replacement )造N(比如10000)份新的sample,分别算出median 。再把这10000个median排序,第250和第9750的median区间就是(0.025,0.975)的median置信区间。
参考https://stats.stackexchange.com/questions/21103/confidence-interval-for-median
可以只考虑rank。
比如一共有$n$个数
第$\frac{n}{2}-\frac{1.96\sqrt{n}}{2}$个数作为0.95置信区间的下界
第$\frac{n+2}{2}+\frac{1.96\sqrt{n}}{2}$个数作为0.95置信区间的上界
均值的置信区间可以求是因为中心极限定理。中位数有类似的定理存在吗?如果没有的话我想可以观察一下你研究的总体样本中位数的分布,然后求出方差计算置信区间。
Question 1002472: Fisher Information的统计意义是什么?
统计/机器学习 概率论 描述性统计Fisher Information是未知参数的信息量,这个怎么理解,它的统计意义是什么?
Answer
Suppose likelihood is $L(X; \theta)$, log likelihood is $l(X; \theta)$, then
(1) Fisher Information is second moment (and variance) of the gradient of log likelihood
Fisher information $I(\theta)= \mathbb{E}[(\frac{\mathrm{d}l}{\mathrm{d}\theta})^2| \theta] = Var(\frac{\mathrm{d}l}{\mathrm{d}\tilde{\theta}}| \theta)$
since $\mathbb{E}(\frac{\mathrm{d}l}{\mathrm{d}\theta}| \theta)=0$ (Proof)
(2) Fisher information is related to asymptotic distribution of MLE $\hat{\theta}_{MLE}$
By CLT and slutsky theorem, we can conclude that $$\sqrt{n}(\hat{\theta}_{MLE}-\theta) \overset{p}{\to} N(0, I(\theta)^{-1})$$
Applications: Cramer Rao Bound
Under regularity conditions, the variance of any unbiased estimator ${\hat{\theta }}$ of $\theta$ is then bounded by inverse of Fisher information $I(\theta)$ with
$$Var(\hat{\theta}) \geq \frac{1}{I(\theta)}$$
Note that this CR lower bound is just a "theoretical" lower bound, which means that it may not be applicable (i.e. fail to satisfy regularity conditions) or attainable (can't reach lower bound)
e.g.
CR applicable but not attainable for estimating $\sigma^2$ when $X \overset{i.i.d} \sim N(\mu, \sigma^2)$ since $var(s^2)= \frac{2\sigma^4}{n-1} > \frac{2\sigma^4}{n} = $CR bound.
Reference:
Question 1002523: 为什么样本方差是除以n-1
统计/机器学习 描述性统计为什么样本方差是除以n-1,而不是n?
Answer
首先,我们先看看方差的计算公式
$$\text{Var}(X) = \frac{\sum_{i=1}^n(X_i-\mu)^2}{n}$$
其中$\mu$是这个总体的真实均值。但是往往$\mu$是未知的,所以我们用样本均值$\bar X$来代替$\mu$,也就是
$$S_* = \frac{\sum_{i=1}^n(X_i-\bar X)^2}{n}$$
那么这个$S_*$是正确的估计吗?我们可以计算$S_*$的期望来对比一下$\text{Var}(X)$。
$$\begin{eqnarray}\mathbb{E}(S_*)&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\bar X)^2}{n}\right)\nonumber\\&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\mu + \mu -\bar X)^2}{n}\right)\nonumber\\&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\mu)^2}{n}+\frac{\sum_{i=1}^n2(X_i-\mu)(\mu - \bar X)}{n}+\frac{\sum_{i=1}^n(\mu-\bar X)^2}{n}\right)\nonumber \\&=&\text{Var}(X) + \mathbb{E}\left(\frac{\sum_{i=1}^n2(X_i-\mu)(\mu -\bar X)}{n}+\frac{\sum_{i=1}^n(\mu-\bar X)^2}{n}\right)\nonumber\\&=&\text{Var}(X) + \mathbb{E}\left(-2(\bar X-\mu)^2+(\bar X -\mu)^2\right)\nonumber \\&=&\text{Var}(X) -\mathbb{E}\left((\bar X-\mu)^2\right)\nonumber \\&=&\text{Var}(X) - \text{Var}(\bar X)\nonumber \\ &=&\text{Var}(X) - \frac{1}{n}\text{Var}(X)\nonumber \\ &=&\frac{n-1}{n}\text{Var}(X)\end{eqnarray}$$
所以
$$\text{Var}(X) = \frac{n}{n-1}\mathbb{E}(S_*)=\frac{\sum_{i=1}^n(X_i-\bar X)}{n-1}$$
在kidd23公式中$E(S_\star)=Var(X)-Var(\bar{X})$,也就是样本方差$E(S_\star)$等于总体方差$Var(X)$减样本均值的方差$Var(\bar{X})$。这公式说的是:求总体方差时默认条件是知道总体均值$\mu$。如果用样本均值去估计总体均值,对总体方差的估计是有偏差的,偏差是样本均值的方差$Var(\bar{X})$。需要做Bessel's correction去修正偏差,让偏差的期望等于0。
把总体方差的公式乘以$\frac{n}{n-1}$就得到了样本方差
用样本均值代替总体均值,自由度会减1,所以分母是n-1。
Question 1002532: 协方差矩阵一定是满秩的吗?
统计/机器学习 线性代数 描述性统计协方差矩阵一定是方阵,n x n的,那么是满秩的吗?
Answer
协方差的秩是独立变量的个数。比如有n个独立变量,再把所有变量的和作为n+1个变量。协方差矩阵是(n+1)x(n+1),但是秩只有n。
-----------------------------------------------------------------
数据矩阵$X$是mxn,m是数据点个数,n是数据维度。当不知道每个维度的均值,用采样均值代替总体均值时,去均值后的数据
$Z=\begin{bmatrix}1-1/m& -1/m& ... & -1/m \\-1/m& 1-1/m& ... & -1/m \\... & ... & ... \\-1/m & -1/m &... & 1-1/m \end{bmatrix}X=RX$
其中$R$是mxm的去均值矩阵,$rank(R)=m-1$。
$Cov(X)=Z^TZ$
$rank(Cov(X))=rank(Z^TZ)=rank(Z)=\min(rank(R),rank(X))=\min(m-1,rank(X))$
两个因素会决定协方差的秩:1.数据点个数m-1;2. 数据中独立变量个数rank(X)。
所以两种情况协方差矩阵不是满秩:
1.数据太少,$m-1<n$
2.数据中有非独立变量,$rank(X)$
n x n的协方差矩阵的秩最大为n - 1
Question 1002645: Median Absolute Deviation的定义是什么?
统计/机器学习 描述性统计Median Absolute Deviation的定义是什么?是指样本到中位数的距离的平均值还是样本到均值的距离的中位数?
Answer
Median Absolute Deviation(MAD)是样本到中位数的距离的中位数
$$\text{MAD}=\text{median}(|x_1-m|, |x_2-m|, \cdots, |x_n-m|)$$
其中$m=\text{median}(x_1,x_2,\cdots, x_n)$
Question 1002652: 序列的autocorrelation(自相关系数)的计算公式
统计/机器学习 时间序列 描述性统计序列的autocorrelation(自相关系数)的计算公式是什么?
Answer
自相关(autocorrelation)就是自己和自己的相关性。
比如说有一个序列$X=[1, 2, 4, 6, 8, 10, 12]$。
相位差为1,就是比较序列$[1, 2, 4, 6, 8, 10]$和$[2, 4, 6, 8, 10, 12]$,其自相关系数一般表示为$R_1$
相位差为2,就是比较序列$[1, 2, 4, 6, 8]$和$[4, 6, 8, 10, 12]$,其自相关系数一般表示为$R_2$
相位差为3,就是比较序列$[1, 2, 4, 6]$和$[6, 8, 10, 12]$,其自相关系数一般表示为$R_3$
具体计算公式为
$$R_k=\frac{\sum_{i=1}^{n-k}(X_i-\bar X)(X_{i+k}-\bar X)}{\sum_{i=1}^n(X_i-\bar X)^2}$$
和皮尔逊相关系数类似,也是从-1到1的。
Question 1002658: 怎么理解协方差矩阵和中心化后的协方差矩阵是一样的?
统计/机器学习 线性代数 描述性统计怎么理解协方差矩阵和中心化后的协方差矩阵是一样的?
Answer
我理解是理所当然吧。
先看协方差矩阵的定义:
实际生活中,针对已有样本计算协方差矩阵时,必须先中心化,再计算$XX^T$,只不过是协方差矩阵的定义拆成两步计算。
Question 1002668: 相关系数的p值是怎么算的?
统计/机器学习 假设检验 描述性统计比如说网上的这个例子,计算a和b的相关系数
最后得到相关系数0.99,p value是0.068。这个p值是怎么计算的?
>> import scipy.stats as stats
>> a = [1.2, 1.5, 1.9]; b = [2.2, 2.5, 3.1]
>> stats.pearsonr(a,b)
(0.99419162560192009, 0.068648785502029797)
Answer
这个p value对应的null hypothesis是数组a和b的相关系数为0。
p value服从$n-2$的t分布,$n$是数组a的样本个数,$r$是a和b的相关系数,p value对应的t-score的计算公式
$$t=r\sqrt{\frac{n-2}{1-r^2}}$$
然后查t分布的表就可以得到p value了。
有兴趣的话可以阅读http://janda.org/c10/Lectures/topic06/L24-significanceR.htm
Question 1002719: 怎么对两个样本的方差进行假设检验
统计/机器学习 假设检验 描述性统计根据两组样本,判断均值是否相等,可以用t-test。那么判断它们的方差是否相等,该用什么test?
Answer
F-test可以检验方差是否相等
Question 1003287: 统计里的IQR是什么意思?
统计/机器学习 描述性统计统计里的IQR是什么意思?
Answer
IQR是interquartile range的缩写,中文叫四分位距。对于一组样本,我们计算出第一四分位数$Q_1$以及第三四分位数$Q_3$,IQR就是它们的差
$$\text{IQR}=Q_3-Q_1$$
IQR是四分位距离,就是第三四分位$q_3$和第一四分位$q_1$的差。
我们经常用IQR做离群点排除,比如小于$q_1-1.5IQR$的数或者大于$q_3+1.5IQR$的数就被认为是离群点。
Question 1003391: 怎么根据颜色来计算两个图像的相似度?
统计/机器学习 描述性统计 计算机视觉怎么根据颜色来计算两个图像的相似度?比如主体是红色的图片和整体是粉色的图片会比较相似,和蓝色的图片就不大相似。
有什么好的度量来描述这种相似性吗?
Answer
这是两个方面的问题。一个是数据的单位。另一个是颜色距离的定义。
1.比较的单位是像素,直方图还是均值。如果两个图片能做对齐(registration),可以比较像素;如果两图片在空间上不相关,像素的位置没有相关性,可比较直方图(直方图的比较);更简化的是只比较均值。
2.颜色空间的定义,可以是RGB,更精确的是CIE delta E(因为人眼对RGB的敏感程度并不一样)。选定颜色空间后,距离可用欧式距离。更多距离的选择 可参考Statistical_distance。
根据你的描述,可以先尝试计算两组RGB直方图的距离和。
每个图像都有RGB的直方图,可以得到RGB直方图的拟合线,然后对拟合线做聚类
Question 1003658: 怎么计算Damerau Levenshtein距离?
统计/机器学习 自然语言处理 描述性统计Damerau Levenshtein距离可以计算两个字符串的距离(距离越小,说明越相似)
网上资料不多,有没有具体的计算公式?谢谢!
Answer
下面几种情况下,字符串1和字符串2的Damerau Levenshtein距离是1:
1)对字符串1插入一个字符得到字符串2;
2)对字符串1删除一个字符得到字符串2;
3)替换字符串1中的一个字符,得到字符串2;
4)交换字符串1中相邻的两个字符,得到字符串2。
比如说,'abc'和'ab'的Damerau Levenshtein距离是1;'abc'和'bbc'的Damerau Levenshtein距离是1;'abc'和'bac'的Damerau Levenshtein距离是1。
具体的公式可以参考维基百科Damerau–Levenshtein距离
Question 1003668: 如果x是等级变量, y是连续变量 相关分析是不是用speaman
统计/机器学习 描述性统计Answer
可以用Kendall $\tau$,也可以用Spearman $\rho$。
这个问题有序分类变量的相关系数里有详细介绍。
Question 1003689: 怎么对两个置信区间求和?
统计/机器学习 描述性统计比如A的95%置信区间是[a1, a2],B的95%的置信区间是[b1, b2],那么A+B的95%置信区间是多少?
Answer
首先假设A和B都是高斯分布。通过置信区间求高斯分布的均值和方差。$\mu_A=(a1+a2)/2$,$\sigma_A=(\mu_A-a1)/1.96$,其中$1.96=Z_{0.95}$。
令$C=A+B$,两个高斯的和还是高斯。$\mu_C=\mu_A+\mu_B$,${\sigma_C}^2={\sigma_A}^2+{\sigma_B}^2$。
C的置信区间是$[\mu_C-1.96\sigma_C, \mu_C+1.96\sigma_C]$
最后可以化简为[a1 a2 b1 b2]的公式。
Question 1003692: 相关系数中的效率指啥?
统计/机器学习 描述性统计连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,
就是效率没有pearson相关系数高。
如上边这句话
Answer
算spearman相关系数,先计算两组数$X,Y$排序,得到$rank_X,rank_Y$,然后再计算pearson相关系数。
排序的计算复杂度是$\mathcal{O}(n\log{}n)$,算pearson相关系数的计算复杂度是$\mathcal{O}(n)$。所以spearman相关系数的计算复杂度主要受排序的影响,效率低点。
Question 1003802: 协方差矩阵一定是半正定的吗?
数学 线性代数 概率论 描述性统计协方差矩阵一定是半正定的吗?
Answer
协方差矩阵的定义为
$$\Sigma = \text{E}((X-\mu)(X-\mu)^T)$$
显然$\Sigma$是对称的,下面只要证明对于任意的非零向量$u$,
$$u\Sigma u^T\geq 0$$
把上面的定义代入,
$$u\Sigma u^T=u\text{E}((X-\mu)(X-\mu)^T)u^T=\text{E}((u(X-\mu))((u(X-\mu))^T))=\text{E}((u(X-\mu))^2)\geq 0$$
一个数的平方的期望当然是非负的
所以协方差是半正定
首先协方差矩阵是对称矩阵。即AT = A
所以XTAX 展开之后的形式是平方和形式,是大于等于0的,所以协方差矩阵是半正定的。
Question 1004231: 描述时间序列数据中的“环比”和“同比”是什么意思?
统计/机器学习 时间序列 描述性统计描述时间序列数据中的“环比”和“同比”是什么意思?分别是指谁和谁比?
Answer
今年3月和今年2月份比较,这个是环比。
今年3月和去年3月比较,这个是同比。
Question 1004500: 怎么衡量一个时间序列的稳定程度或者波动性?
统计/机器学习 时间序列 描述性统计有的时间序列可能比较平稳,在一定的区间内,或者平缓上升,总体光滑。有的时间序列可能波动幅度很大,大起大落。有没有公式可以用来衡量这种稳定程度或者波动程度的?
Answer
衡量时间序列的平稳性,可以做单根检验
衡量波动程度,可以看方差
可以画图
可以做一元线性回归,然后看残差的方差
Question 1004519: 统计学中的自变量和因变量分别是什么意思?
统计/机器学习 描述性统计本人是CS背景,不太了解统计学。请问统计学中的自变量和因变量分别是什么意思?
Answer
简单地理解就是:自变量是数据里的X,因变量是数据里的Y。
机器学习里自变量一般叫做特征(feature),因变量叫做目标变量(target, target variable)
自变量:Independent Variable,或者IV,就是自身变化不依赖其他变量的变量。
因变量:Dependent Variable,或者DV,就是本身的变化是因为其他变量的变化导致的。
在统计模型里,通常是$\text{DV}=\phi(\text{IV})$,$\phi$是因变量和自变量的关系。
我们可以根据数据来训练(学习)出$\phi$。在机器学习里IV就是特征,DV就是目标值或者分类标签。
Question 1004621: 为什么说中位数比平均数更稳健?
统计/机器学习 描述性统计为什么说中位数比平均数更稳健?
Answer
有一簇点,但是其中有两个离群点(噪音)。你觉得下面的图里是红色(均值)更能代表这一簇的整体,还是黄色的点(中位数)更能代表整体?
显然中位数并没有收到噪音的影响。
这里稳健(robust)的定义是数据点较少时,统计值(mean或meidan)的估计受outlier影响小。
用最大似然估计,mean unbiased estimator是求MSE(L2norm,Gaussian distribution)最小值。median-unbiased estimator是求absolute-deviation(L1norm, Laplace distribution)最小值。
$$\mu=\text{argmin}_{\mu}(\sum |x_i-\mu|_2^2)$$
$$median=\text{argmin}_{median}(\sum |x_i-median|)$$
可以看到求期望时,outlier影响是平方关系,而求中位数时,outlier影响是线性关系。所以中位数能减小outlier的影响。
--------------------------------------------------------------------
一个题外话,当数据点很多,且数据满足高斯分布,此时不需要考虑稳健问题,反而是sample mean比sample median更精确,估计的方差更小。参考这里最后公式。
其中$2m+1$是数据点个数。
中位数比平均数更稳健,所以我们有时候用MAE作为目标函数比MSE更稳健。因为MAE相当于是去拟合中位数,而MSE是去拟合平均数。
Question 1006336: 怎么求1到5打分评级数据的置信区间?
统计/机器学习 描述性统计1到5打分评级数据和一般的连续数据不大一样,而且也未必是正态分布的。这种情况下该如何求它的置信区间呢?
Answer
没有影响的,直接按照普通的连续变量的置信区间来算
Question 1007445: ANOVA为什么叫方差分析?
统计/机器学习 假设检验 描述性统计ANOVA的作用是比较均值,那为什么叫方差分析呢?
Answer
ANOVA的确是为了比较各个组的均值。
ANOVA需要计算两个部分:(1)组间方差;(2)组内方差
假设各个组之间的均值一样,那么“平均”组间方差和“平均”组内方差应该是比较接近的。F值就是根据两者的比值定义的。如果F值很大,说明假设不成立。所以ANOVA是在分析方差,但是可以用来比较各组的均值。
Question 1007611: 除了均值和方差,还有什么数值可以描述一个随机过程的特征?
统计/机器学习 随机过程 描述性统计一个随机过程,每个时间点上都有一个数值。
除了均值和方差,还有什么数值可以描述一个随机过程的特征?
Answer
自相关性,参考这里
此外还有平稳性,周期性,递增性等等
同问
Question 1022205: p值和显著性的关系是怎么样的?
统计/机器学习 假设检验 描述性统计一直闹不清假设检验里算出来的p值和我们常说的显著性的关系,有什么直观的解答吗?
Answer
p值越小,说明收到随机波动的影响越小,统计显著性越强,越能代表本质的差异。
https://www.zhihu.com/question/23149768
来自sofasofa(一个专业的机器学习社区),建议去sofa社区阅读,这里只是记录。防止网站在网络中走失。