Questions | SofaSofa-wiki

Question 1000218: 假设检验中的p值是什么意思？为什么越小越好？

统计/机器学习假设检验

我们做假设检验的时候，往往是希望p value越小越好。这个p value到底是什么意思呢？为什么越小越好？

Answer

Answer 1:

并没有好坏之分，p值越小说明我们越有信心拒绝零假设。

p值本身是一个概率：在零假设下，观测值或者有甚于观测值发生的概率。这个概率越小，我们越趋近拒绝零假设。

这里比较特殊的是所谓的“有甚于”。比如说我们有一个正态分布，我们的零假设是这个分布的期望是0，对立假设是期望不等于0。我们从这个分布里随机取了100个数作为样本，这一百个数的均值是1。那p值就是在这个正态分布期望为0的前提下，这个样本的均值等于正负1，或者大于1，或者小于-1的概率。有甚于在这里就是大于1或者小于-1的意思。

Answer 2:

p值是原假设为真的前提下出现观察样本以及更极端情况的概率。

所以p值的范围是0到1。

p值越小，我们越倾向于拒绝原假设。

Question 1000461: 多重检验中的FDR(false discovery rate, 错误发现率)是什么？

统计/机器学习假设检验

多重检验中的一概念叫做FDR，False Discovery Rate，中文叫做错误发现率，这个具体是什么，怎么计算的？和多重检验什么关系？看了百度百科和维基百科都没看懂...

Answer

Answer 1:

假如我们进行了一个有$m$个零假设的多重假设检验，我们拒绝了其中的$R$个假设，在这$R$个假设中又有$T_1$个假设是被我们错误地拒绝了，也就是说有$T_1$个Type I error。FDR的定义如下

$$FDR=\mathbb{E}\left(\frac{T_1}{\max\{R,1\}}\right).$$

如果$FDR<\alpha$，我们就说这个多重检验的FDR被控制在了$\alpha$水平。

comment 1 错误发现率，字面上，就是错误拒绝的比例。

Answer 2:

FDR就是错误发现率，在二元分类中，比如你的算法“发现”了10个阳性，实际上其中3个你搞错了，FDR=0.3

$$FDR=\frac{FP}{TP+FP}=1-Precision=1-PPV$$

Question 1000470: z test和t test什么区别？

统计/机器学习假设检验

它们都是用来判断总体均值是否等于某个数，它们有什么区别？哪个时候用z test哪个时候用t test？

Answer

Answer 1:

两者都是利用样本来检验总体均值是否等于$\mu_0$的检验方法.

教科书上一般是这么说的：

1. 如果样本数小于30，用T test；

2. 如果总体方差未知，用T test；

3. 否则用Z test。

但是（对，转折了），我觉得不用管那么多，尽管用T test。因为：

1. 当样本数增大，T test的结果会很快收敛到Z test的结果

2. 在实际情况中，真正的总体方差几乎都是未知的

所以我只用T test。

comment 1 不能同意更多！

Answer 2:

这张图也可以帮助判断

Question 1000697: 配对T检验和两样本T检验是一回事么？

统计/机器学习假设检验

配对T检验，我的理解就是两个样本，对应起来，然后做T检验。这和两样本T检验是一回事么？

Answer

Answer 1:

虽然它们都是根据两个样本来检验两个总体的均值是否相等，但是它们不是一回事。

两样本T检验中，我们认为这两个样本是独立的。比如说城市A中抽取300个成年市民，城市B中抽取200个成年市民，根据这两组样本，来检验城市A和B的市民平均身高是否相等。两样本T检验不要求两组的样本数相等。

相反，配对T检验中两组样本数量必须相等。不仅相等，而且两组数据并非独立，对应一一对应的关系。比如说，我们要检验低血糖病人饭前、饭后，人的血压是否变化。我们选取了50个人，分布采集他们的饭前、饭后的血压，得到

病人1：饭前血压饭后血压

病人2：饭前血压饭后血压

病人3：饭前血压饭后血压

病人4：饭前血压饭后血压

.......

这个时候不同于两样本T检验。我们会用第二列数据（饭后）减去第一列数据（饭前），得到每个人的血压变化

病人1：饭前后血压差

病人2：饭前后血压差

病人3：饭前后血压差

病人4：饭前后血压差

......

此时我们只需要对这列差值进行单样本T检验即可。这就是配对T检验。

Question 1000774: 假设检验的效力是什么？

统计/机器学习假设检验

假设检验的效力是什么？有什么含义？怎么计算？

Answer

Answer 1:

我们一般称为假设检验的统计效力(statistical power)。

定义：统计效力等于我们成功拒绝了错误的零假设的概率。

换个角度翻译一下上面的定义，power = 1 - Type II error。效力就是1减第二类错误。

统计效力越高，说明当某个现象（对立假设）存在的时候，我们更有可能检测到这个现象。统计效力越高，说明这个假设检验越有效。统计效力和假设检验本身的显著性水平相关也和样本的大小相关。

Question 1000929: 如何从假设检验的角度去理解AB testing

统计/机器学习 AB Test 假设检验

我大致知道AB testing经常运用于网页优化的测试过程中，但是对它的原理和使用中的注意事项理解得不是非常透彻，能不能用通俗的语言进行讲解。

Answer

Answer 1:

说白了A就是对照组(control)，B就是实验组(test)。

我们想要比较A组和B组某个指标是否相同，对于网站来说，可以是转化率、点击率、流量等等。

一般是经过一段时间，积累了一定数量的样本，我们就可以有足够的样本进行假设检验了。

从假设检验的角度来说，零假设$H_0: S_A = S_B$，对立假设$H_1:S_A\neq S_B$，或者单侧的对立假设。

这个想法和生统里的case-control study是一个道理，比如A组的病人吃得是安慰糖，B组的病人吃得是降压药，然后对比A，B两组人的血压的均值，也就是可以用T Test来做假设检验。

AB Test包含的内容比单纯的假设检验更广。因为AB Test涉及到很多实验设计的部分。

Answer 2:

Ho: 我觉得用（某特定修改，比如颜色，文意）对于网页的（某种特质，比如点击率）没什么用

H1: 我觉得有用

Question 1001119: 单侧T检验p值与双侧T检验p值的关系

统计/机器学习假设检验

在编程的时候，不少语言或者编程包只有现成的双侧T检验的函数，我想知道怎么根据双侧T检验的p值来得到单侧T检验的p值。

或者更广一点来说，单侧T检验p值与双侧T检验的p值是什么关系？

Answer

Answer 1:

双侧T检验

零假设$H_0: \mu = 0$，对立假设$H_a: \mu\neq 0$。

如果$t_{score}=1.96$，此时p value就是两个白色面积的和，等于0.05

如果$t_{score}=-1.96$，此时p value也是两个白色面积的和，等于0.05

单侧T检验

零假设$H_0: \mu = 0$，对立假设$H_a: \mu > 0$。

如果$t_{score}=1.96$，此时p value就是右边白色小三角的面积，等于0.025

如果$t_{score}=-1.96$，此时p value是左边白色面积加上中间蓝色面积的和，等于0.975

类似地，

零假设$H_0: \mu = 0$，对立假设$H_a: \mu < 0$。

如果$t_{score}=1.96$，此时p value就是右边白色面积加上中间蓝色面积的和，等于0.975

如果$t_{score}=-1.96$，此时p value是左边白色面积，等于0.025

comment 1 醍醐灌顶啊

Question 1001189: F检验的使用场景

统计/机器学习假设检验

在工业中T检验非常常见，F检验却很少用到

请问F检验有哪些常见的使用场景？

Answer

Answer 1:

T test用来比较两个样本的均值。

F test用来比较两个样本的方差。

Answer 2:

F test主要有三个使用场景

1. 比较两个样本的方差

2. 比较多个样本的均值（也就是anova）

3. 在线性回归时检验模型A是否比较模型B更显著。本质上还是比较两个方差。

comment 1 那卡方检验分析的是什么？均值方差？

Answer 3:

其实准确地说，F test是比较两个正态样本的方差，而不是任意两个样本。

Question 1001492: t检验，需要测试集验证集吗？

统计/机器学习假设检验

表述有误，修改下，不好意思！

数据是这样的，自变量8种（比如体积/直径/周长等连续变量），因变量是二元变量（有/无），没有用复杂的模型，就是根据结果（有/无）把每个自变量分两组，两组之间做最简单的t检验，筛出有显著统计学差异的自变量，拿有意义的自变量与结果（有/无）做ROC曲线。

审稿人现在说我没有验证集啊，我之前只见过机器学习算法建模后验证的。

ROC曲线是否也是一种模型啊？ROC曲线如何拿到验证集中去评估呢？

不知道这样写，大家能否看懂，谢谢！

Answer

Answer 1:

我试着揣摩下楼主的用意，以及审稿人的想法。

楼主用了几个“比较显著”的自变量，在一个数据集上训练得到了一个模型（假如说逻辑回归好了）。然后楼主用这个模型在原来的数据集上进行预测，得到每个样本为“有”的概率，根据预测概率和真实信息，楼主得到了ROC曲线。

审稿人的想法是，你怎么可以同一个数据集上又训练又预测呢，你必须要划分出训练集和测试集。不然你无法公正地说明你的模型是“显著”得好。

我同意审稿人的想法。

comment 1 是的，确实有问题。我用显著的自变量（1个）与因变量做了ROC曲线，这也是模型吗？医学类文章几乎都是这种做法，之前没遇到过相关质疑。现在问题是我的ROC曲线结果，如果去验证集中验证？其他模型我倒是会做，ROC曲线怎么去玩验证，我没见过，谢谢啦！

Answer 2:

不大明白他的意思。

也许可能大概是这个意思：

你有两组数据A和B，你对A和B做T test，发现是是显著的。

他希望你把A分成两部分（A1和A2），然后B也分成两部分（B1和B2），A1和B1的T test是显著的，然后你再对A2和B2再做次T test，看看结果如何。A2和B2就是所谓的测试集（？）。

是这样理解？

comment 1 原文我写的有问题，我修改了，麻烦您再看下，谢谢！

Answer 3:

不知道上下文，t test和roc有什么关系呢？

comment 1 原文我写的不对，ttest是拿来筛变量的，有意义的变量再做ROC曲线，不好意思

Question 1002320: 多重比较校正

统计/机器学习假设检验

最近文章修回，审稿人问了这么多重比较校正的问题，之前同类型文章存在假阳性，建议做下多重比较校正。

然而，我的文章一共才做了9次t检验，需要校正吗？一做校正很多结果就不行了。

想问下大牛们，我这种才做了9次的需要校正吗？太严苛？有没有标准或者文章提到多少次校验才需要多重比较校正？

哪种校正比较宽松？我做了fdr，只剩下一个结果了。

十分感谢！

Answer

Answer 1:

不太了解你的整个问题背景。

如果是多重检验的话，有很多校正的方法，比如Bonferroni，BH，Hochberg等等。

你参考一下R里的这个函数，大不了你就一个个试，试到一个你满意的为止。

comment 1 谢谢，我还是按审稿人要求做了校正，只是比较疑惑有些文章比较了20多次也不校正，多重比较校正的标准是什么？纯粹看审稿人心情吗？

Question 1002451: T检验的effect size是什么？有什么含义吗？

统计/机器学习假设检验

T检验的effect size是什么？有什么含义吗？和power有关系吗？

Answer

Answer 1:

我们常常用T test来根据样本均值比较两个总体的均值。

p value可以反映出它们是否相同（的概率）；而effect size是反映它们有多么不相同。可以用Cohen's $d$来计算effect size。

$$d=\frac{\bar X_1 - \bar X_2}{SD_{pool}}$$

也就是均值的差除以标准差。

一般来说

$d=0.2$：effect size较小

$d=0.5$：effect size适中

$d=0.8$：effect size较大

comment 1 赞

Question 1003634: spss的检验分了t，卡方，非参数，分类的依据和目的是啥

统计/机器学习假设检验

我觉得分类的依据是分析对象类型的不同连续/离散导致的

目的应该是判断对象1 2之间是否存在统计学意义上的显著差异

不知道理解对不对

Answer

Answer 1:

t是比较对象1和2的均值，卡方是比较对象1和2的方差

没有用过spss，知道非参数在这里是干嘛的

Question 1003678: 问卷在信度效度通过如何评价结果呢

统计/机器学习假设检验抽样方法

通过信度效度

如果我调查两个班对语文的感兴趣程度分了3个维度，并在调查后对一个班进行改进后又进行二次调查

如何分析调查前连个班兴趣度一样改进后兴趣度提升

只要是兴趣度综合体现在各个问题里没办法做t检验啊

怎么通过各个问题综合出兴趣度

Answer

Answer 1:

"只要是兴趣度综合体现在各个问题里没办法做t检验啊"

------------------------

如果问题是选择题的话，可以用卡方检验，看它们是不是同分布的。

"怎么通过各个问题综合出兴趣度"

------------------------

如果你有每个问题的答案和你自己建立的感兴趣程度，你可以将每个问题的答案看作是特征，感兴趣的程度是目标变量，然后建立多元逻辑回归。

你需要对改进前的问卷进行人工标记他们感兴趣的程度，然后用训练好的模型去预测改进后的问卷结果。

Question 1003847: 95%置信区间是不是每一次观测都不同呢

统计/机器学习假设检验

每次用样本均值为中心估计一个置信区间？

Answer

Answer 1:

样本不同，得到的置信区间当然不同。

即使这些样本都是来自同一个分布的，得到原分布的均值置信区间也不一样

Question 1003929: 怎么提高一个假设检验的效力(power)？

统计/机器学习 AB Test 假设检验

怎么提高一个假设检验的效力(power)？

Answer

Answer 1:

power = 1 - Type II error

Type II error是指第二类错误，也就是没有拒绝错误的原假设

power也就是成功拒绝错误的原假设。提高power的方法主要有

1. 提高样本量，显然样本量越大，我们知道的信息越多，power自然可以增加。

2. 双侧检验变成单侧检验。

3. 增大显著水平。比如从0.05调整到0.1，Type II error会降低，不过这也会导致Type I error变大。

Question 1004216: 协方差分析在什么情况下使用

统计/机器学习假设检验

如果我有两个group

前测数据使用t检验看时候有差别；

如果前测没有差别的情况下，后测数据时候有差别是使用t检验还是使用协方差分析呢？

我觉得前测没差别后测可以使用t检验

前测有差别后测使用协方差分析修正前测数据的影响

Answer

Answer 1:

我觉得你说的是对的。

t检验只能判断是否有差别，如果你需要判断某个变量在差别的方向就要用协方差分析。

既然你想用t检验，又想用协方差，为什么不同时都做一遍呢

Question 1005915: 显著水平和p值是什么关系？

统计/机器学习假设检验

显著水平和p值是什么关系？通常说95%显著水平，这个话背后的统计意义是什么？

Answer

Answer 1:

首先要搞清p值的定义，p值就是在原假设下，你观测到当前数据的概率。显然是p值越小，你越想拒绝原假设。

如果p值小于0.05，我们就说在95%的显著水平下拒绝原假设。

如果p值小于0.10，我们就说在90%的显著水平下拒绝原假设。

Question 1006208: T检验需要提前假设吗？

统计/机器学习假设检验

T检验需要提前假设吗？还是说只要是数值的样本都可以用？

Answer

Answer 1:

T检验应该只能用于两组独立的数值样本的比较，如果大于两组可以用方差分析或者秩和检验，而且T检验还要求两组样本均符合正态分布或近似正态分布，且方差齐，方差不齐貌似是要修正的，具体可以参照scipy.stats里的解释https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html#scipy.stats.ttest_ind

Question 1007374: 单因素方差分析(one-way anova)在使用时需要有什么前提假设条件吗？

统计/机器学习假设检验

单因素方差分析(one-way anova)在使用时需要有什么前提假设条件吗？

Answer

Answer 1:

正态性、样本独立性、每组等方差

Question 1022275: 双盲实验是什么意思？

统计/机器学习 AB Test 假设检验

双盲实验是什么意思？好像是医学里的，互联网用的多吗？

Answer

Answer 1:

主要是医学上用的。比如要对比两种降压药的效果，医生给50个病人降压药A，给另外50个病人降压药B。

如果病人不知道自己吃的A还是B，并且医生自己也不知道给病人的药是A还是B，那就双盲——病人、医生都不知情。双盲的好处是最大程度地消除其他主观或者人为因素。

在互联网中用得不多，因为在AB test，很多时候A或者B版本都是肉眼可见有区别的，不存在绝对的“盲”。

来自sofasofa(一个专业的机器学习社区)，建议去sofa社区阅读，这里只是记录。防止网站在网络中走失。