Question 1001278: 如何简单理解正则化
统计/机器学习 数据降维可以从几何意义来理解这一类的问题?可以从哪几方面理解的
Answer
正则化是指,在待优化的目标函数中,加入对函数参数解空间(w,b)的惩罚,从而一定程度上约束模型的复杂度,从而使得学得的模型在具有predictive power的同时,并不会过度拟合。
从数学方面简单理解,你可以画L1-norm和L2-norm的二维图像,可以观察到分别是菱形和圆形的取值空间,而argminloss求出来的最优解(w,b)在二维图像上表现为等高线,等高线上的点就是argminloss的解,从而我们希望最优解也落在施加约束后解空间上,所以等高线会和约束后的解空间寻求交点,从而找到最优解。
只能以文字语言讲述啦!希望共同进步!
从数学来讲,相当于给你的损失函数之后再加了一项代表模型复杂度的项,不同的正则化方式有不同的模型复杂度的表征方式(比如L1,L2),这样你的模型在训练的时候,除了考虑本身的损失函数,还要去尝试优化模型复杂度这一项,最终得到的结果是损失函数和模型复杂的一个trade-off,降低了过拟合的风险/
正则化就是金融中的对冲。
Question 1003473: Truncated SVD和PCA有什么区别吗?
统计/机器学习 数据降维Truncated SVD和PCA有什么区别吗?感觉它们都是选了最大的k个成分
Answer
PCA是对矩阵先做中心化处理(每列减去列均值),然后再做Truncated SVD
换言之,如果矩阵本身就是已经中心化的,那么PCA和Truncated SVD就是等价的
Question 1005719: 为什么LDA降维最多降到类别数k-1?
统计/机器学习 数据降维Answer
LDA算法中需要计算类间散度矩阵$S_b$和类内散度矩阵$S_w$。
现在原数据降维到矩阵$W$,有$n$行和$d$列,而矩阵$W$的列是$S_w^{-1}S_b$的特征向量。
而$S_b$的秩最大为$k-1$,所以最多有$k-1$个特征向量。所以$W$最多只有$k-1$列。
相关博客:线性判别分析LDA原理总结
Question 1007410: 用pca对数据集降维时为什么一定要训练集和测试集?
统计/机器学习 数据降维用pca对数据集降维时为什么一定要训练集和测试集?
为什么数据不能合在一起做pca降维呢?
Answer
如果合一起做PCA,测试集里的信息会泄露到PCA中。打个比方,训练集是黄色,测试集是蓝色,合一起PCA会是绿色。
因为会造成数据泄露啊,训练集中不应该含有测试集的信息。
来自sofasofa(一个专业的机器学习社区),建议去sofa社区阅读,这里只是记录。防止网站在网络中走失。