Question 1000218: 假设检验中的p值是什么意思?为什么越小越好?

统计/机器学习 假设检验

我们做假设检验的时候,往往是希望p value越小越好。这个p value到底是什么意思呢?为什么越小越好?


Answer

Answer 1:

并没有好坏之分,p值越小说明我们越有信心拒绝零假设。

p值本身是一个概率:在零假设下,观测值或者有甚于观测值发生的概率。这个概率越小,我们越趋近拒绝零假设。

这里比较特殊的是所谓的“有甚于”。比如说我们有一个正态分布,我们的零假设是这个分布的期望是0,对立假设是期望不等于0。我们从这个分布里随机取了100个数作为样本,这一百个数的均值是1。那p值就是在这个正态分布期望为0的前提下,这个样本的均值等于正负1,或者大于1,或者小于-1的概率。有甚于在这里就是大于1或者小于-1的意思。


Answer 2:

p值是原假设为真的前提下出现观察样本以及更极端情况的概率。

所以p值的范围是0到1。

p值越小,我们越倾向于拒绝原假设。



Question 1000461: 多重检验中的FDR(false discovery rate, 错误发现率)是什么?

统计/机器学习 假设检验

多重检验中的一概念叫做FDR,False Discovery Rate,中文叫做错误发现率,这个具体是什么,怎么计算的?和多重检验什么关系?看了百度百科和维基百科都没看懂...


Answer

Answer 1:

假如我们进行了一个有$m$个零假设的多重假设检验,我们拒绝了其中的$R$个假设,在这$R$个假设中又有$T_1$个假设是被我们错误地拒绝了,也就是说有$T_1$个Type I error。FDR的定义如下

$$FDR=\mathbb{E}\left(\frac{T_1}{\max\{R,1\}}\right).$$

如果$FDR<\alpha$,我们就说这个多重检验的FDR被控制在了$\alpha$水平。

Answer 2:

FDR就是错误发现率,在二元分类中,比如你的算法“发现”了10个阳性,实际上其中3个你搞错了,FDR=0.3

$$FDR=\frac{FP}{TP+FP}=1-Precision=1-PPV$$



Question 1000470: z test和t test什么区别?

统计/机器学习 假设检验

它们都是用来判断总体均值是否等于某个数,它们有什么区别?哪个时候用z test哪个时候用t test?


Answer

Answer 1:

两者都是利用样本来检验总体均值是否等于$\mu_0$的检验方法.

教科书上一般是这么说的:

1. 如果样本数小于30,用T test;

2. 如果总体方差未知,用T test;

3. 否则用Z test。


但是(对,转折了),我觉得不用管那么多,尽管用T test。因为:

1. 当样本数增大,T test的结果会很快收敛到Z test的结果

2. 在实际情况中,真正的总体方差几乎都是未知的

所以我只用T test。

Answer 2:

这张图也可以帮助判断


Question 1000697: 配对T检验和两样本T检验是一回事么?

统计/机器学习 假设检验

配对T检验,我的理解就是两个样本,对应起来,然后做T检验。这和两样本T检验是一回事么?


Answer

Answer 1:

虽然它们都是根据两个样本来检验两个总体的均值是否相等,但是它们不是一回事。


两样本T检验中,我们认为这两个样本是独立的。比如说城市A中抽取300个成年市民,城市B中抽取200个成年市民,根据这两组样本,来检验城市A和B的市民平均身高是否相等。两样本T检验不要求两组的样本数相等。

相反,配对T检验中两组样本数量必须相等。不仅相等,而且两组数据并非独立,对应一一对应的关系。比如说,我们要检验低血糖病人饭前、饭后,人的血压是否变化。我们选取了50个人,分布采集他们的饭前、饭后的血压,得到

病人1:饭前血压        饭后血压

病人2:饭前血压        饭后血压

病人3:饭前血压        饭后血压

病人4:饭前血压        饭后血压

        .......

这个时候不同于两样本T检验。我们会用第二列数据(饭后)减去第一列数据(饭前),得到每个人的血压变化

病人1:饭前后血压差

病人2:饭前后血压差

病人3:饭前后血压差

病人4:饭前后血压差

        ......

此时我们只需要对这列差值进行单样本T检验即可。这就是配对T检验。


Question 1000774: 假设检验的效力是什么?

统计/机器学习 假设检验

假设检验的效力是什么?有什么含义?怎么计算?


Answer

Answer 1:

我们一般称为假设检验的统计效力(statistical power)。

定义:统计效力等于我们成功拒绝了错误的零假设的概率。

换个角度翻译一下上面的定义,power = 1 - Type II error。效力就是1减第二类错误。

统计效力越高,说明当某个现象(对立假设)存在的时候,我们更有可能检测到这个现象。统计效力越高,说明这个假设检验越有效。统计效力和假设检验本身的显著性水平相关也和样本的大小相关。



Question 1000929: 如何从假设检验的角度去理解AB testing

统计/机器学习 AB Test 假设检验

我大致知道AB testing经常运用于网页优化的测试过程中,但是对它的原理和使用中的注意事项理解得不是非常透彻,能不能用通俗的语言进行讲解。


Answer

Answer 1:

说白了A就是对照组(control),B就是实验组(test)。

我们想要比较A组和B组某个指标是否相同,对于网站来说,可以是转化率、点击率、流量等等。

一般是经过一段时间,积累了一定数量的样本,我们就可以有足够的样本进行假设检验了。

从假设检验的角度来说,零假设$H_0: S_A = S_B$,对立假设$H_1:S_A\neq S_B$,或者单侧的对立假设。

这个想法和生统里的case-control study是一个道理,比如A组的病人吃得是安慰糖,B组的病人吃得是降压药,然后对比A,B两组人的血压的均值,也就是可以用T Test来做假设检验。


AB Test包含的内容比单纯的假设检验更广。因为AB Test涉及到很多实验设计的部分。


Answer 2:

Ho: 我觉得用(某特定修改,比如颜色,文意)对于网页的(某种特质,比如点击率)没什么用

H1: 我觉得有用



Question 1001119: 单侧T检验p值与双侧T检验p值的关系

统计/机器学习 假设检验

在编程的时候,不少语言或者编程包只有现成的双侧T检验的函数,我想知道怎么根据双侧T检验的p值来得到单侧T检验的p值。


或者更广一点来说,单侧T检验p值与双侧T检验的p值是什么关系?



Answer

Answer 1:

双侧T检验

零假设$H_0: \mu = 0$,对立假设$H_a: \mu\neq 0$。

如果$t_{score}=1.96$,此时p value就是两个白色面积的和,等于0.05

如果$t_{score}=-1.96$,此时p value也是两个白色面积的和,等于0.05

单侧T检验

零假设$H_0: \mu = 0$,对立假设$H_a: \mu > 0$。

如果$t_{score}=1.96$,此时p value就是右边白色小三角的面积,等于0.025

如果$t_{score}=-1.96$,此时p value是左边白色面积加上中间蓝色面积的和,等于0.975

类似地,

零假设$H_0: \mu = 0$,对立假设$H_a: \mu < 0$。

如果$t_{score}=1.96$,此时p value就是右边白色面积加上中间蓝色面积的和,等于0.975

如果$t_{score}=-1.96$,此时p value是左边白色面积,等于0.025



Question 1001189: F检验的使用场景

统计/机器学习 假设检验

在工业中T检验非常常见,F检验却很少用到

请问F检验有哪些常见的使用场景?



Answer

Answer 1:

T test用来比较两个样本的均值。

F test用来比较两个样本的方差。


Answer 2:

F test主要有三个使用场景

1. 比较两个样本的方差

2. 比较多个样本的均值(也就是anova)

3. 在线性回归时检验模型A是否比较模型B更显著。本质上还是比较两个方差。


Answer 3:

其实准确地说,F test是比较两个正态样本的方差,而不是任意两个样本。



Question 1001492: t检验,需要测试集验证集吗?

统计/机器学习 假设检验

表述有误,修改下,不好意思!

数据是这样的,自变量8种(比如体积/直径/周长等连续变量),因变量是二元变量(有/无),没有用复杂的模型,就是根据结果(有/无)把每个自变量分两组,两组之间做最简单的t检验,筛出有显著统计学差异的自变量,拿有意义的自变量与结果(有/无)做ROC曲线。

审稿人现在说我没有验证集啊,我之前只见过机器学习算法建模后验证的。

ROC曲线是否也是一种模型啊?ROC曲线如何拿到验证集中去评估呢?

不知道这样写,大家能否看懂,谢谢!


Answer

Answer 1:

我试着揣摩下楼主的用意,以及审稿人的想法。

楼主用了几个“比较显著”的自变量,在一个数据集上训练得到了一个模型(假如说逻辑回归好了)。然后楼主用这个模型在原来的数据集上进行预测,得到每个样本为“有”的概率,根据预测概率和真实信息,楼主得到了ROC曲线。

审稿人的想法是,你怎么可以同一个数据集上又训练又预测呢,你必须要划分出训练集和测试集。不然你无法公正地说明你的模型是“显著”得好。

我同意审稿人的想法。


Answer 2:

不大明白他的意思。

也许可能大概是这个意思:

你有两组数据A和B,你对A和B做T test,发现是是显著的。

他希望你把A分成两部分(A1和A2),然后B也分成两部分(B1和B2),A1和B1的T test是显著的,然后你再对A2和B2再做次T test,看看结果如何。A2和B2就是所谓的测试集(?)。

是这样理解?


Answer 3:

不知道上下文,t test和roc有什么关系呢?



Question 1002320: 多重比较校正

统计/机器学习 假设检验

最近文章修回,审稿人问了这么多重比较校正的问题,之前同类型文章存在假阳性,建议做下多重比较校正。

然而,我的文章一共才做了9次t检验,需要校正吗?一做校正很多结果就不行了。

想问下大牛们,我这种才做了9次的需要校正吗?太严苛?有没有标准或者文章提到多少次校验才需要多重比较校正?

哪种校正比较宽松?我做了fdr,只剩下一个结果了。

十分感谢!


Answer

Answer 1:

不太了解你的整个问题背景。

如果是多重检验的话,有很多校正的方法,比如Bonferroni,BH,Hochberg等等。

你参考一下R里的这个函数,大不了你就一个个试,试到一个你满意的为止。



Question 1002451: T检验的effect size是什么?有什么含义吗?

统计/机器学习 假设检验

T检验的effect size是什么?有什么含义吗?和power有关系吗?



Answer

Answer 1:

我们常常用T test来根据样本均值比较两个总体的均值。

p value可以反映出它们是否相同(的概率);而effect size是反映它们有多么不相同。可以用Cohen's $d$来计算effect size。

$$d=\frac{\bar X_1 - \bar X_2}{SD_{pool}}$$

也就是均值的差除以标准差。

一般来说

$d=0.2$:effect size较小

$d=0.5$:effect size适中

$d=0.8$:effect size较大


Question 1003634: spss的检验分了t,卡方,非参数,分类的依据和目的是啥

统计/机器学习 假设检验

我觉得分类的依据是分析对象类型的不同 连续/离散 导致的

目的应该是判断对象1 2之间是否存在统计学意义上的显著差异

不知道理解对不对


Answer

Answer 1:

t是比较对象1和2的均值,卡方是比较对象1和2的方差

没有用过spss,知道非参数在这里是干嘛的


Question 1003678: 问卷在信度效度通过如何评价结果呢

统计/机器学习 假设检验 抽样方法

通过信度效度 

如果我调查两个班对语文的感兴趣程度 分了3个维度,  并在调查后对一个班进行改进 后又进行二次调查

如何分析 调查前连个班兴趣度一样  改进后兴趣度提升

只要是兴趣度综合体现在各个问题里  没办法做t检验啊 

怎么通过各个问题 综合出兴趣度


Answer

Answer 1:

"只要是兴趣度综合体现在各个问题里 没办法做t检验啊"

------------------------

如果问题是选择题的话,可以用卡方检验,看它们是不是同分布的。


"怎么通过各个问题 综合出兴趣度"

------------------------

如果你有每个问题的答案和你自己建立的感兴趣程度,你可以将每个问题的答案看作是特征,感兴趣的程度是目标变量,然后建立多元逻辑回归。

你需要对改进前的问卷进行人工标记他们感兴趣的程度,然后用训练好的模型去预测改进后的问卷结果。



Question 1003847: 95%置信区间是不是每一次观测都不同呢

统计/机器学习 假设检验

每次用样本均值为中心 估计一个置信区间?


Answer

Answer 1:

样本不同,得到的置信区间当然不同。

即使这些样本都是来自同一个分布的,得到原分布的均值置信区间也不一样


Question 1003929: 怎么提高一个假设检验的效力(power)?

统计/机器学习 AB Test 假设检验

怎么提高一个假设检验的效力(power)?


Answer

Answer 1:

power = 1 - Type II error

Type II error是指第二类错误,也就是没有拒绝错误的原假设

power也就是成功拒绝错误的原假设。提高power的方法主要有

1. 提高样本量,显然样本量越大,我们知道的信息越多,power自然可以增加。

2. 双侧检验变成单侧检验。

3. 增大显著水平。比如从0.05调整到0.1,Type II error会降低,不过这也会导致Type I error变大。


Question 1004216: 协方差分析在什么情况下使用

统计/机器学习 假设检验

如果我有两个group

前测数据使用t检验看时候有差别;

如果前测没有差别的情况下,后测数据时候有差别是使用t检验 还是使用协方差分析呢?


我觉得前测没差别 后测可以使用t检验

前测有差别  后测使用协方差分析修正前测数据的影响


Answer

Answer 1:

我觉得你说的是对的。

t检验只能判断是否有差别,如果你需要判断某个变量在差别的方向就要用协方差分析。

既然你想用t检验,又想用协方差,为什么不同时都做一遍呢


Question 1005915: 显著水平和p值是什么关系?

统计/机器学习 假设检验

显著水平和p值是什么关系?通常说95%显著水平,这个话背后的统计意义是什么?


Answer

Answer 1:

首先要搞清p值的定义,p值就是在原假设下,你观测到当前数据的概率。显然是p值越小,你越想拒绝原假设。

如果p值小于0.05,我们就说在95%的显著水平下拒绝原假设。

如果p值小于0.10,我们就说在90%的显著水平下拒绝原假设。


Question 1006208: T检验需要提前假设吗?

统计/机器学习 假设检验

T检验需要提前假设吗?还是说只要是数值的样本都可以用?


Answer

Answer 1:

T检验应该只能用于两组独立的数值样本的比较,如果大于两组可以用方差分析或者秩和检验,而且T检验还要求两组样本均符合正态分布或近似正态分布,且方差齐,方差不齐貌似是要修正的,具体可以参照scipy.stats里的解释https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html#scipy.stats.ttest_ind


Question 1007374: 单因素方差分析(one-way anova)在使用时需要有什么前提假设条件吗?

统计/机器学习 假设检验

单因素方差分析(one-way anova)在使用时需要有什么前提假设条件吗?


Answer

Answer 1:

正态性、样本独立性、每组等方差


Question 1022275: 双盲实验是什么意思?

统计/机器学习 AB Test 假设检验

双盲实验是什么意思?好像是医学里的,互联网用的多吗?


Answer

Answer 1:

主要是医学上用的。比如要对比两种降压药的效果,医生给50个病人降压药A,给另外50个病人降压药B。

如果病人不知道自己吃的A还是B,并且医生自己也不知道给病人的药是A还是B,那就双盲——病人、医生都不知情。双盲的好处是最大程度地消除其他主观或者人为因素。

在互联网中用得不多,因为在AB test,很多时候A或者B版本都是肉眼可见有区别的,不存在绝对的“盲”。


来自sofasofa(一个专业的机器学习社区),建议去sofa社区阅读,这里只是记录。防止网站在网络中走失。