Question 1000218: 假设检验中的p值是什么意思?为什么越小越好?
统计/机器学习 假设检验我们做假设检验的时候,往往是希望p value越小越好。这个p value到底是什么意思呢?为什么越小越好?
Answer
并没有好坏之分,p值越小说明我们越有信心拒绝零假设。
p值本身是一个概率:在零假设下,观测值或者有甚于观测值发生的概率。这个概率越小,我们越趋近拒绝零假设。
这里比较特殊的是所谓的“有甚于”。比如说我们有一个正态分布,我们的零假设是这个分布的期望是0,对立假设是期望不等于0。我们从这个分布里随机取了100个数作为样本,这一百个数的均值是1。那p值就是在这个正态分布期望为0的前提下,这个样本的均值等于正负1,或者大于1,或者小于-1的概率。有甚于在这里就是大于1或者小于-1的意思。
p值是原假设为真的前提下出现观察样本以及更极端情况的概率。
所以p值的范围是0到1。
p值越小,我们越倾向于拒绝原假设。
Question 1000461: 多重检验中的FDR(false discovery rate, 错误发现率)是什么?
统计/机器学习 假设检验多重检验中的一概念叫做FDR,False Discovery Rate,中文叫做错误发现率,这个具体是什么,怎么计算的?和多重检验什么关系?看了百度百科和维基百科都没看懂...
Answer
假如我们进行了一个有$m$个零假设的多重假设检验,我们拒绝了其中的$R$个假设,在这$R$个假设中又有$T_1$个假设是被我们错误地拒绝了,也就是说有$T_1$个Type I error。FDR的定义如下
$$FDR=\mathbb{E}\left(\frac{T_1}{\max\{R,1\}}\right).$$
如果$FDR<\alpha$,我们就说这个多重检验的FDR被控制在了$\alpha$水平。
FDR就是错误发现率,在二元分类中,比如你的算法“发现”了10个阳性,实际上其中3个你搞错了,FDR=0.3
$$FDR=\frac{FP}{TP+FP}=1-Precision=1-PPV$$
Question 1000470: z test和t test什么区别?
统计/机器学习 假设检验它们都是用来判断总体均值是否等于某个数,它们有什么区别?哪个时候用z test哪个时候用t test?
Answer
两者都是利用样本来检验总体均值是否等于$\mu_0$的检验方法.
教科书上一般是这么说的:
1. 如果样本数小于30,用T test;
2. 如果总体方差未知,用T test;
3. 否则用Z test。
但是(对,转折了),我觉得不用管那么多,尽管用T test。因为:
1. 当样本数增大,T test的结果会很快收敛到Z test的结果
2. 在实际情况中,真正的总体方差几乎都是未知的
所以我只用T test。
这张图也可以帮助判断
Question 1000697: 配对T检验和两样本T检验是一回事么?
统计/机器学习 假设检验配对T检验,我的理解就是两个样本,对应起来,然后做T检验。这和两样本T检验是一回事么?
Answer
虽然它们都是根据两个样本来检验两个总体的均值是否相等,但是它们不是一回事。
两样本T检验中,我们认为这两个样本是独立的。比如说城市A中抽取300个成年市民,城市B中抽取200个成年市民,根据这两组样本,来检验城市A和B的市民平均身高是否相等。两样本T检验不要求两组的样本数相等。
相反,配对T检验中两组样本数量必须相等。不仅相等,而且两组数据并非独立,对应一一对应的关系。比如说,我们要检验低血糖病人饭前、饭后,人的血压是否变化。我们选取了50个人,分布采集他们的饭前、饭后的血压,得到
病人1:饭前血压 饭后血压
病人2:饭前血压 饭后血压
病人3:饭前血压 饭后血压
病人4:饭前血压 饭后血压
.......
这个时候不同于两样本T检验。我们会用第二列数据(饭后)减去第一列数据(饭前),得到每个人的血压变化
病人1:饭前后血压差
病人2:饭前后血压差
病人3:饭前后血压差
病人4:饭前后血压差
......
此时我们只需要对这列差值进行单样本T检验即可。这就是配对T检验。
Question 1000774: 假设检验的效力是什么?
统计/机器学习 假设检验假设检验的效力是什么?有什么含义?怎么计算?
Answer
我们一般称为假设检验的统计效力(statistical power)。
定义:统计效力等于我们成功拒绝了错误的零假设的概率。
换个角度翻译一下上面的定义,power = 1 - Type II error。效力就是1减第二类错误。
统计效力越高,说明当某个现象(对立假设)存在的时候,我们更有可能检测到这个现象。统计效力越高,说明这个假设检验越有效。统计效力和假设检验本身的显著性水平相关也和样本的大小相关。
Question 1000929: 如何从假设检验的角度去理解AB testing
统计/机器学习 AB Test 假设检验我大致知道AB testing经常运用于网页优化的测试过程中,但是对它的原理和使用中的注意事项理解得不是非常透彻,能不能用通俗的语言进行讲解。
Answer
说白了A就是对照组(control),B就是实验组(test)。
我们想要比较A组和B组某个指标是否相同,对于网站来说,可以是转化率、点击率、流量等等。
一般是经过一段时间,积累了一定数量的样本,我们就可以有足够的样本进行假设检验了。
从假设检验的角度来说,零假设$H_0: S_A = S_B$,对立假设$H_1:S_A\neq S_B$,或者单侧的对立假设。
这个想法和生统里的case-control study是一个道理,比如A组的病人吃得是安慰糖,B组的病人吃得是降压药,然后对比A,B两组人的血压的均值,也就是可以用T Test来做假设检验。
AB Test包含的内容比单纯的假设检验更广。因为AB Test涉及到很多实验设计的部分。
Ho: 我觉得用(某特定修改,比如颜色,文意)对于网页的(某种特质,比如点击率)没什么用
H1: 我觉得有用
Question 1001119: 单侧T检验p值与双侧T检验p值的关系
统计/机器学习 假设检验在编程的时候,不少语言或者编程包只有现成的双侧T检验的函数,我想知道怎么根据双侧T检验的p值来得到单侧T检验的p值。
或者更广一点来说,单侧T检验p值与双侧T检验的p值是什么关系?
Answer
双侧T检验
零假设$H_0: \mu = 0$,对立假设$H_a: \mu\neq 0$。
如果$t_{score}=1.96$,此时p value就是两个白色面积的和,等于0.05
如果$t_{score}=-1.96$,此时p value也是两个白色面积的和,等于0.05
单侧T检验
零假设$H_0: \mu = 0$,对立假设$H_a: \mu > 0$。
如果$t_{score}=1.96$,此时p value就是右边白色小三角的面积,等于0.025
如果$t_{score}=-1.96$,此时p value是左边白色面积加上中间蓝色面积的和,等于0.975
类似地,
零假设$H_0: \mu = 0$,对立假设$H_a: \mu < 0$。
如果$t_{score}=1.96$,此时p value就是右边白色面积加上中间蓝色面积的和,等于0.975
如果$t_{score}=-1.96$,此时p value是左边白色面积,等于0.025
Question 1001189: F检验的使用场景
统计/机器学习 假设检验在工业中T检验非常常见,F检验却很少用到
请问F检验有哪些常见的使用场景?
Answer
T test用来比较两个样本的均值。
F test用来比较两个样本的方差。
F test主要有三个使用场景
1. 比较两个样本的方差
2. 比较多个样本的均值(也就是anova)
3. 在线性回归时检验模型A是否比较模型B更显著。本质上还是比较两个方差。
其实准确地说,F test是比较两个正态样本的方差,而不是任意两个样本。
Question 1001492: t检验,需要测试集验证集吗?
统计/机器学习 假设检验表述有误,修改下,不好意思!
数据是这样的,自变量8种(比如体积/直径/周长等连续变量),因变量是二元变量(有/无),没有用复杂的模型,就是根据结果(有/无)把每个自变量分两组,两组之间做最简单的t检验,筛出有显著统计学差异的自变量,拿有意义的自变量与结果(有/无)做ROC曲线。
审稿人现在说我没有验证集啊,我之前只见过机器学习算法建模后验证的。
ROC曲线是否也是一种模型啊?ROC曲线如何拿到验证集中去评估呢?
不知道这样写,大家能否看懂,谢谢!
Answer
我试着揣摩下楼主的用意,以及审稿人的想法。
楼主用了几个“比较显著”的自变量,在一个数据集上训练得到了一个模型(假如说逻辑回归好了)。然后楼主用这个模型在原来的数据集上进行预测,得到每个样本为“有”的概率,根据预测概率和真实信息,楼主得到了ROC曲线。
审稿人的想法是,你怎么可以同一个数据集上又训练又预测呢,你必须要划分出训练集和测试集。不然你无法公正地说明你的模型是“显著”得好。
我同意审稿人的想法。
不大明白他的意思。
也许可能大概是这个意思:
你有两组数据A和B,你对A和B做T test,发现是是显著的。
他希望你把A分成两部分(A1和A2),然后B也分成两部分(B1和B2),A1和B1的T test是显著的,然后你再对A2和B2再做次T test,看看结果如何。A2和B2就是所谓的测试集(?)。
是这样理解?
不知道上下文,t test和roc有什么关系呢?
Question 1002320: 多重比较校正
统计/机器学习 假设检验最近文章修回,审稿人问了这么多重比较校正的问题,之前同类型文章存在假阳性,建议做下多重比较校正。
然而,我的文章一共才做了9次t检验,需要校正吗?一做校正很多结果就不行了。
想问下大牛们,我这种才做了9次的需要校正吗?太严苛?有没有标准或者文章提到多少次校验才需要多重比较校正?
哪种校正比较宽松?我做了fdr,只剩下一个结果了。
十分感谢!
Answer
Question 1002451: T检验的effect size是什么?有什么含义吗?
统计/机器学习 假设检验T检验的effect size是什么?有什么含义吗?和power有关系吗?
Answer
我们常常用T test来根据样本均值比较两个总体的均值。
p value可以反映出它们是否相同(的概率);而effect size是反映它们有多么不相同。可以用Cohen's $d$来计算effect size。
$$d=\frac{\bar X_1 - \bar X_2}{SD_{pool}}$$
也就是均值的差除以标准差。
一般来说
$d=0.2$:effect size较小
$d=0.5$:effect size适中
$d=0.8$:effect size较大
Question 1003634: spss的检验分了t,卡方,非参数,分类的依据和目的是啥
统计/机器学习 假设检验我觉得分类的依据是分析对象类型的不同 连续/离散 导致的
目的应该是判断对象1 2之间是否存在统计学意义上的显著差异
不知道理解对不对
Answer
t是比较对象1和2的均值,卡方是比较对象1和2的方差
没有用过spss,知道非参数在这里是干嘛的
Question 1003678: 问卷在信度效度通过如何评价结果呢
统计/机器学习 假设检验 抽样方法通过信度效度
如果我调查两个班对语文的感兴趣程度 分了3个维度, 并在调查后对一个班进行改进 后又进行二次调查
如何分析 调查前连个班兴趣度一样 改进后兴趣度提升
只要是兴趣度综合体现在各个问题里 没办法做t检验啊
怎么通过各个问题 综合出兴趣度
Answer
"只要是兴趣度综合体现在各个问题里 没办法做t检验啊"
------------------------
如果问题是选择题的话,可以用卡方检验,看它们是不是同分布的。
"怎么通过各个问题 综合出兴趣度"
------------------------
如果你有每个问题的答案和你自己建立的感兴趣程度,你可以将每个问题的答案看作是特征,感兴趣的程度是目标变量,然后建立多元逻辑回归。
你需要对改进前的问卷进行人工标记他们感兴趣的程度,然后用训练好的模型去预测改进后的问卷结果。
Question 1003847: 95%置信区间是不是每一次观测都不同呢
统计/机器学习 假设检验每次用样本均值为中心 估计一个置信区间?
Answer
样本不同,得到的置信区间当然不同。
即使这些样本都是来自同一个分布的,得到原分布的均值置信区间也不一样
Question 1003929: 怎么提高一个假设检验的效力(power)?
统计/机器学习 AB Test 假设检验怎么提高一个假设检验的效力(power)?
Answer
power = 1 - Type II error
Type II error是指第二类错误,也就是没有拒绝错误的原假设
power也就是成功拒绝错误的原假设。提高power的方法主要有
1. 提高样本量,显然样本量越大,我们知道的信息越多,power自然可以增加。
2. 双侧检验变成单侧检验。
3. 增大显著水平。比如从0.05调整到0.1,Type II error会降低,不过这也会导致Type I error变大。
Question 1004216: 协方差分析在什么情况下使用
统计/机器学习 假设检验如果我有两个group
前测数据使用t检验看时候有差别;
如果前测没有差别的情况下,后测数据时候有差别是使用t检验 还是使用协方差分析呢?
我觉得前测没差别 后测可以使用t检验
前测有差别 后测使用协方差分析修正前测数据的影响
Answer
我觉得你说的是对的。
t检验只能判断是否有差别,如果你需要判断某个变量在差别的方向就要用协方差分析。
既然你想用t检验,又想用协方差,为什么不同时都做一遍呢
Question 1005915: 显著水平和p值是什么关系?
统计/机器学习 假设检验显著水平和p值是什么关系?通常说95%显著水平,这个话背后的统计意义是什么?
Answer
首先要搞清p值的定义,p值就是在原假设下,你观测到当前数据的概率。显然是p值越小,你越想拒绝原假设。
如果p值小于0.05,我们就说在95%的显著水平下拒绝原假设。
如果p值小于0.10,我们就说在90%的显著水平下拒绝原假设。
Question 1006208: T检验需要提前假设吗?
统计/机器学习 假设检验T检验需要提前假设吗?还是说只要是数值的样本都可以用?
Answer
T检验应该只能用于两组独立的数值样本的比较,如果大于两组可以用方差分析或者秩和检验,而且T检验还要求两组样本均符合正态分布或近似正态分布,且方差齐,方差不齐貌似是要修正的,具体可以参照scipy.stats里的解释https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html#scipy.stats.ttest_ind
Question 1007374: 单因素方差分析(one-way anova)在使用时需要有什么前提假设条件吗?
统计/机器学习 假设检验单因素方差分析(one-way anova)在使用时需要有什么前提假设条件吗?
Answer
正态性、样本独立性、每组等方差
Question 1022275: 双盲实验是什么意思?
统计/机器学习 AB Test 假设检验双盲实验是什么意思?好像是医学里的,互联网用的多吗?
Answer
主要是医学上用的。比如要对比两种降压药的效果,医生给50个病人降压药A,给另外50个病人降压药B。
如果病人不知道自己吃的A还是B,并且医生自己也不知道给病人的药是A还是B,那就双盲——病人、医生都不知情。双盲的好处是最大程度地消除其他主观或者人为因素。
在互联网中用得不多,因为在AB test,很多时候A或者B版本都是肉眼可见有区别的,不存在绝对的“盲”。
来自sofasofa(一个专业的机器学习社区),建议去sofa社区阅读,这里只是记录。防止网站在网络中走失。