Question 1001278: 如何简单理解正则化

统计/机器学习 数据降维

可以从几何意义来理解这一类的问题?可以从哪几方面理解的


Answer

Answer 1:

从模型复杂度来理解的话,正则化就是奥卡姆剃刀

正则化是奥卡姆剃刀的具体实现,在保持预测能力相当时,降低模型复杂度


Answer 2:

正则化是指,在待优化的目标函数中,加入对函数参数解空间(w,b)的惩罚,从而一定程度上约束模型的复杂度,从而使得学得的模型在具有predictive power的同时,并不会过度拟合。

从数学方面简单理解,你可以画L1-norm和L2-norm的二维图像,可以观察到分别是菱形和圆形的取值空间,而argminloss求出来的最优解(w,b)在二维图像上表现为等高线,等高线上的点就是argminloss的解,从而我们希望最优解也落在施加约束后解空间上,所以等高线会和约束后的解空间寻求交点,从而找到最优解。

只能以文字语言讲述啦!希望共同进步!

Answer 3:

从数学来讲,相当于给你的损失函数之后再加了一项代表模型复杂度的项,不同的正则化方式有不同的模型复杂度的表征方式(比如L1,L2),这样你的模型在训练的时候,除了考虑本身的损失函数,还要去尝试优化模型复杂度这一项,最终得到的结果是损失函数和模型复杂的一个trade-off,降低了过拟合的风险/

Answer 4:

正则化就是金融中的对冲。


Question 1003473: Truncated SVD和PCA有什么区别吗?

统计/机器学习 数据降维

Truncated SVD和PCA有什么区别吗?感觉它们都是选了最大的k个成分


Answer

Answer 1:

PCA是对矩阵先做中心化处理(每列减去列均值),然后再做Truncated SVD

换言之,如果矩阵本身就是已经中心化的,那么PCA和Truncated SVD就是等价的


Question 1005719: 为什么LDA降维最多降到类别数k-1?

统计/机器学习 数据降维

为什么LDA降维最多降到类别数k-1?


Answer

Answer 1:

LDA算法中需要计算类间散度矩阵$S_b$和类内散度矩阵$S_w$。

现在原数据降维到矩阵$W$,有$n$行和$d$列,而矩阵$W$的列是$S_w^{-1}S_b$的特征向量。

而$S_b$的秩最大为$k-1$,所以最多有$k-1$个特征向量。所以$W$最多只有$k-1$列。

相关博客:线性判别分析LDA原理总结


Question 1007410: 用pca对数据集降维时为什么一定要训练集和测试集?

统计/机器学习 数据降维

用pca对数据集降维时为什么一定要训练集和测试集?

为什么数据不能合在一起做pca降维呢?


Answer

Answer 1:

如果合一起做PCA,测试集里的信息会泄露到PCA中。打个比方,训练集是黄色,测试集是蓝色,合一起PCA会是绿色。

Answer 2:

因为会造成数据泄露啊,训练集中不应该含有测试集的信息。


来自sofasofa(一个专业的机器学习社区),建议去sofa社区阅读,这里只是记录。防止网站在网络中走失。