弹性网与岭回归的直觉¶
\(L_2\) vs \(L_1\) 对共线性的处理¶
- \(L_2\) 惩罚 \(\sum \beta_j^2\):\(2^2 + 0^2 = 4 > 1^2 + 1^2 = 2\),倾向于分散系数(grouping effect)
- \(L_1\) 惩罚 \(\sum |\beta_j|\):菱形几何使解落在角点,倾向于只保留一个
- 弹性网 \(L_2 + L_1\):\(L_2\) 先把共线变量的系数分摊变小,\(L_1\) 的阈值更容易把它们一起踢到 0。效果:相关变量要么一起留,要么一起走(grouping effect),而非 LASSO 随机挑一个