跳转至

Bootstrap 发展脉络与高维 Gaussian Approximation

Bootstrap 的核心思想

Bootstrap 的出发点是:我们想知道估计量(如 \(\hat{\beta}\))的分布,但除了大样本渐近之外没有解析工具。Bootstrap 的思路是用数据本身来模拟抽样分布。

所有 bootstrap 方法都可以统一写成随机加权的形式:

\[T^{\text{boot}} = \frac{1}{\sqrt{n}} \sum_{i=1}^n \omega_i \cdot x_i\]

不同方法的区别仅在于权重 \(\omega_i\) 的分布。

从 Efron 到 Multiplier Bootstrap 的三次跳跃

第一步:Pair bootstrap(Efron 1979)

最直接的想法:既然 \(\varepsilon\) 是随机的,每次有放回地重抽 \(\{y_i, X_i\}\) 整行,做一次 OLS,Monte Carlo 出 \(\hat{\beta}\) 的分布。简单有效,不需要任何分布假设。

第二步:Residual bootstrap

进一步,真正的随机性在 \(\varepsilon\) 里,所以可以固定 \(X\),只重抽残差 \(\hat{e}_i\)。但这里有一个致命问题:重抽会打乱残差的位置——第 \(i\) 个位置可能拿到第 \(k\) 个位置的残差,条件方差变成 \(\frac{1}{n}\sum_k \hat{e}_k^2\)(全局平均),异方差结构被彻底抹平。

第三步:Wild / Multiplier bootstrap(Wu 1986, Mammen 1993)

核心洞察:不要动残差的位置,让它留在原地,只乘一个随机权重

\[y_i^* = x_i'\hat{\beta} + \hat{e}_i \cdot v_i, \quad v_i \text{ i.i.d., 均值 } 0, \text{ 方差 } 1\]

这样第 \(i\) 个位置的条件方差是 \(\hat{e}_i^2 \approx \sigma_i^2\),异方差结构完美保留。

思想跳跃是:从"打乱位置重抽样"到"保留位置、原地加权"

为什么 Multiplier Bootstrap 比回归异方差问题更一般:核密度估计的例子

回归中的异方差问题可能让人觉得"这只是回归的特殊麻烦"。核密度估计(KDE)展示了一个更根本的问题:很多统计量根本没有"误差项"可以分离,Efron bootstrap 和 residual bootstrap 的思路都不直接适用。

问题设定:估计密度 \(f(x_0)\),核密度估计为

\[\hat{f}_h(x_0) = \frac{1}{nh}\sum_{i=1}^n K\left(\frac{x_0 - X_i}{h}\right)\]

每个观测 \(X_i\) 贡献一个"小山丘" \(g_i = \frac{1}{h}K\left(\frac{x_0 - X_i}{h}\right)\),所以 \(\hat{f}_h(x_0) = \frac{1}{n}\sum_i g_i\)

关键特征\(g_i\) 天然是位置特异的——离 \(x_0\) 近的 \(X_i\)\(g_i\) 很大;离 \(x_0\) 远的 \(X_i\)\(g_i\) 几乎为零。这不是异方差,而是统计量本身的结构。

Efron bootstrap 的问题:从 \(\{X_1, \ldots, X_n\}\) 有放回重抽 \(X_i^*\),同一个 \(X_i\) 可能被抽中多次,在数据点上"堆积",和核平滑之间产生冲突(光滑的核碰上离散的堆积),偏差难以控制。

Residual bootstrap 根本不适用:这里没有 \(y = X\beta + \varepsilon\) 的结构,没有残差可以提取。

Multiplier bootstrap 的自然解法:既然 \(\hat{f}_h(x_0) = \frac{1}{n}\sum_i g_i\) 已经是均值形式,让每个 \(g_i\) 留在原地,乘以随机权重:

\[\hat{f}_h^{\text{boot}}(x_0) = \frac{1}{n}\sum_i \xi_i \cdot g_i, \quad \xi_i \text{ i.i.d., 均值 } 0, \text{ 方差 } 1\]

条件方差 \(= \frac{1}{n^2}\sum_i g_i^2\)。离 \(x_0\) 近的观测贡献大方差,远的贡献小方差——局部结构完美保留

核心洞察:回归异方差和核密度估计的困境,本质上是同一个问题——每个观测对统计量的贡献大小不同,"从公共池子均匀抽样"会抹平这种差异。解法也是同一个:保留位置,原地加权。这就是 multiplier bootstrap 的一般性所在——它适用于任何可以写成 \(T = n^{-1/2}\sum_i f(x_i)\) 形式的统计量。

Mammen (1993) 将这一思想系统化为统一框架:只要权重满足均值 0、方差 1,渐近上都等价。差异仅在有限样本表现和理论分析的简洁性。

高维 Gaussian Approximation

动机

\(p\) 很大(如 \(p = 10000\) 个假设检验),逐个用 5% 水平检验会有约 500 个被错误拒绝。要控制 family-wise error rate,需要知道 \(T_0 = \max_{1 \leq j \leq p} |T_j|\) 的分布。Uniform confidence band 也是同一个逻辑:"对所有 \(x\) 同时成立" 等价于 \(\sup_x\) 不超过阈值。

核心困难:\(p \to \infty\) 时经典 CLT 失效,因为它是对固定维度的渐近结果。

GAR(Gaussian Approximation Result, CCK 2013)

CCK 的核心定理说:构造与 \(X\) 同协方差的高斯 \(Y\),则 \(\max_j X_j\)\(\max_j Y_j\) 的分布在 Kolmogorov 距离下接近。也就是说,虽然整个 \(p\) 维联合分布无法用高斯逼近(\(p \gg n\) 时不可能),但 max 这一个标量的分布可以用高斯版本来逼近。

条件只需 \((\log p)^7 / n \to 0\),即 \(p\) 可以大到 \(e^{o(n^{1/7})}\)——指数增长于 \(n\)

Multiplier Bootstrap 如何配合 GAR

GAR 和 multiplier bootstrap 解决的是两个不同但互补的问题

  • GAR 解决的问题\(T_0 = \max_j X_j\) 的分布是什么?答案:可以用高斯 max \(Z_0 = \max_j Y_j\)\(Y \sim N(0, \Sigma)\))来逼近。
  • GAR 没解决的问题\(Z_0\) 的分布依赖于未知的总体协方差 \(\Sigma\),我们算不出来。

Multiplier bootstrap 正是来填这个缺口的。

构造

\[W_0 = \max_{1 \leq j \leq p} \frac{1}{\sqrt{n}} \sum_{i=1}^n x_{ij} e_i, \quad e_i \stackrel{i.i.d.}{\sim} N(0,1)\]

\(x_{ij}\) 是你的数据(固定的),\(e_i\) 是每次重新抽取的随机权重。

为什么 \(W_0\) 能逼近 \(T_0\)

条件于数据 \((x_i)\),看 \(W_j = \frac{1}{\sqrt{n}}\sum_i x_{ij} e_i\)

  • 它是常数 \(x_{ij}\) 乘以独立高斯 \(e_i\) 的和,仍然是高斯
  • 条件均值:\(\mathbb{E}[W_j \mid (x_i)] = 0\)
  • 条件协方差:\(\text{Cov}(W_j, W_k \mid (x_i)) = \frac{1}{n}\sum_i x_{ij} x_{ik} = \hat{\Sigma}_{jk}\)

所以 \(W \mid (x_i) \sim N(0, \hat{\Sigma})\)——精确高斯,零近似误差

\(Z \sim N(0, \Sigma)\)。两者都是高斯,唯一差异是协方差:经验 \(\hat{\Sigma}\) vs 总体 \(\Sigma\)

两步逻辑链

\[\underbrace{T_0 \approx Z_0}_{\text{Step 1: GAR}} \quad + \quad \underbrace{Z_0 \approx W_0 \mid (x_i)}_{\text{Step 2: } \hat{\Sigma} \approx \Sigma} \quad \Rightarrow \quad T_0 \approx W_0 \mid (x_i)\]

Step 1(非高斯 → 高斯):GAR 定理保证,\(\max_j X_j\)(非高斯 max)和 \(\max_j Y_j\)(协方差 \(\Sigma\) 的高斯 max)的分布接近。这一步消除了对分布形状的依赖——不管原始数据是什么分布,max 的行为都像高斯 max。

Step 2(总体协方差 → 经验协方差)\(Z_0\)\(W_0 | (x_i)\) 都是高斯 max,唯一区别是协方差矩阵。由大数律,\(\|\hat{\Sigma} - \Sigma\|_{\max} \to 0\),再用高斯 max 的比较不等式(Sudakov-Fernique + anti-concentration),两个高斯 max 的分布差异以 \(\|\hat{\Sigma} - \Sigma\|_{\max}^{1/3} (\log p)^{2/3}\) 的速率消失。

两步合起来:\(W_0\) 的条件分布一致地逼近 \(T_0\) 的无条件分布。

实际算法

Multiplier Bootstrap 计算临界值

输入:数据 \((x_1, \ldots, x_n) \in \mathbb{R}^p\),显著性水平 \(\alpha\),bootstrap 次数 \(B\)

Step 1:计算原始统计量 \(T_0 = \max_{1 \leq j \leq p} \frac{1}{\sqrt{n}} \left|\sum_{i=1}^n x_{ij}\right|\)

Step 2:对 \(b = 1, \ldots, B\)

  • 生成 \(e_1^{(b)}, \ldots, e_n^{(b)} \stackrel{i.i.d.}{\sim} N(0,1)\)
  • 计算 \(W_0^{(b)} = \max_{1 \leq j \leq p} \frac{1}{\sqrt{n}} \left|\sum_{i=1}^n x_{ij} e_i^{(b)}\right|\)

Step 3\(c_\alpha = W_0^{(b)}\)\((1-\alpha)\) 经验分位数 \(\longrightarrow\) 即排序后第 \(\lceil (1-\alpha)B \rceil\) 个值

输出:拒绝 \(H_0\) 当且仅当 \(T_0 > c_\alpha\)

注意整个过程中 \(x_{ij}\) 始终固定不动——这正是 multiplier bootstrap "保留位置、原地加权"思想在高维中的体现。每次只重新抽取权重 \(e_i\),数据的协方差结构通过 \(\hat{\Sigma} = \frac{1}{n}\sum_i x_i x_i'\) 自动编码在 bootstrap 统计量中。

为什么选高斯权重?

选择 \(e_i \sim N(0,1)\) 而非 Rademacher (\(\pm 1\)) 的关键原因:

  • 高斯权重\(W | (x_i)\) 精确高斯 → Step 2 只需比较两个高斯 max → 用 Sudakov-Fernique 不等式即可,证明两步完成
  • Rademacher 权重\(W | (x_i)\) 不是高斯 → Step 2 本身还需要一个条件 GAR(证明 Rademacher 加权的 max 近似高斯 max)→ 变成三步,条件更强

渐近上两者等价,但高斯权重让理论分析最简洁,这就是 CCK (2013) 选择它的原因。