跳转至

弹性网与岭回归的直觉

\(L_2\) vs \(L_1\) 对共线性的处理

  • \(L_2\) 惩罚 \(\sum \beta_j^2\)\(2^2 + 0^2 = 4 > 1^2 + 1^2 = 2\),倾向于分散系数(grouping effect)
  • \(L_1\) 惩罚 \(\sum |\beta_j|\):菱形几何使解落在角点,倾向于只保留一个
  • 弹性网 \(L_2 + L_1\)\(L_2\) 先把共线变量的系数分摊变小,\(L_1\) 的阈值更容易把它们一起踢到 0。效果:相关变量要么一起留,要么一起走(grouping effect),而非 LASSO 随机挑一个