Bootstrap 发展脉络与高维 Gaussian Approximation¶

Bootstrap 的核心思想¶

Bootstrap 的出发点是：我们想知道估计量（如 \(\hat{\beta}\)）的分布，但除了大样本渐近之外没有解析工具。Bootstrap 的思路是用数据本身来模拟抽样分布。

所有 bootstrap 方法都可以统一写成随机加权的形式：

\[T^{\text{boot}} = \frac{1}{\sqrt{n}} \sum_{i=1}^n \omega_i \cdot x_i\]

不同方法的区别仅在于权重 \(\omega_i\) 的分布。

从 Efron 到 Multiplier Bootstrap 的三次跳跃¶

第一步：Pair bootstrap（Efron 1979）¶

最直接的想法：既然 \(\varepsilon\) 是随机的，每次有放回地重抽 \(\{y_i, X_i\}\) 整行，做一次 OLS，Monte Carlo 出 \(\hat{\beta}\) 的分布。简单有效，不需要任何分布假设。

第二步：Residual bootstrap¶

进一步，真正的随机性在 \(\varepsilon\) 里，所以可以固定 \(X\)，只重抽残差 \(\hat{e}_i\)。但这里有一个致命问题：重抽会打乱残差的位置——第 \(i\) 个位置可能拿到第 \(k\) 个位置的残差，条件方差变成 \(\frac{1}{n}\sum_k \hat{e}_k^2\)（全局平均），异方差结构被彻底抹平。

第三步：Wild / Multiplier bootstrap（Wu 1986, Mammen 1993）¶

核心洞察：不要动残差的位置，让它留在原地，只乘一个随机权重：

\[y_i^* = x_i'\hat{\beta} + \hat{e}_i \cdot v_i, \quad v_i \text{ i.i.d., 均值 } 0, \text{ 方差 } 1\]

这样第 \(i\) 个位置的条件方差是 \(\hat{e}_i^2 \approx \sigma_i^2\)，异方差结构完美保留。

思想跳跃是：从"打乱位置重抽样"到"保留位置、原地加权"。

为什么 Multiplier Bootstrap 比回归异方差问题更一般：核密度估计的例子¶

回归中的异方差问题可能让人觉得"这只是回归的特殊麻烦"。核密度估计（KDE）展示了一个更根本的问题：很多统计量根本没有"误差项"可以分离，Efron bootstrap 和 residual bootstrap 的思路都不直接适用。

问题设定：估计密度 \(f(x_0)\)，核密度估计为

\[\hat{f}_h(x_0) = \frac{1}{nh}\sum_{i=1}^n K\left(\frac{x_0 - X_i}{h}\right)\]

每个观测 \(X_i\) 贡献一个"小山丘" \(g_i = \frac{1}{h}K\left(\frac{x_0 - X_i}{h}\right)\)，所以 \(\hat{f}_h(x_0) = \frac{1}{n}\sum_i g_i\)。

关键特征：\(g_i\) 天然是位置特异的——离 \(x_0\) 近的 \(X_i\)，\(g_i\) 很大；离 \(x_0\) 远的 \(X_i\)，\(g_i\) 几乎为零。这不是异方差，而是统计量本身的结构。

Efron bootstrap 的问题：从 \(\{X_1, \ldots, X_n\}\) 有放回重抽 \(X_i^*\)，同一个 \(X_i\) 可能被抽中多次，在数据点上"堆积"，和核平滑之间产生冲突（光滑的核碰上离散的堆积），偏差难以控制。

Residual bootstrap 根本不适用：这里没有 \(y = X\beta + \varepsilon\) 的结构，没有残差可以提取。

Multiplier bootstrap 的自然解法：既然 \(\hat{f}_h(x_0) = \frac{1}{n}\sum_i g_i\) 已经是均值形式，让每个 \(g_i\) 留在原地，乘以随机权重：

\[\hat{f}_h^{\text{boot}}(x_0) = \frac{1}{n}\sum_i \xi_i \cdot g_i, \quad \xi_i \text{ i.i.d., 均值 } 0, \text{ 方差 } 1\]

条件方差 \(= \frac{1}{n^2}\sum_i g_i^2\)。离 \(x_0\) 近的观测贡献大方差，远的贡献小方差——局部结构完美保留。

核心洞察：回归异方差和核密度估计的困境，本质上是同一个问题——每个观测对统计量的贡献大小不同，"从公共池子均匀抽样"会抹平这种差异。解法也是同一个：保留位置，原地加权。这就是 multiplier bootstrap 的一般性所在——它适用于任何可以写成 \(T = n^{-1/2}\sum_i f(x_i)\) 形式的统计量。

Mammen (1993) 将这一思想系统化为统一框架：只要权重满足均值 0、方差 1，渐近上都等价。差异仅在有限样本表现和理论分析的简洁性。

高维 Gaussian Approximation¶

动机¶

当 \(p\) 很大（如 \(p = 10000\) 个假设检验），逐个用 5% 水平检验会有约 500 个被错误拒绝。要控制 family-wise error rate，需要知道 \(T_0 = \max_{1 \leq j \leq p} |T_j|\) 的分布。Uniform confidence band 也是同一个逻辑："对所有 \(x\) 同时成立" 等价于 \(\sup_x\) 不超过阈值。

核心困难：\(p \to \infty\) 时经典 CLT 失效，因为它是对固定维度的渐近结果。

GAR（Gaussian Approximation Result, CCK 2013）¶

CCK 的核心定理说：构造与 \(X\) 同协方差的高斯 \(Y\)，则 \(\max_j X_j\) 和 \(\max_j Y_j\) 的分布在 Kolmogorov 距离下接近。也就是说，虽然整个 \(p\) 维联合分布无法用高斯逼近（\(p \gg n\) 时不可能），但 max 这一个标量的分布可以用高斯版本来逼近。

条件只需 \((\log p)^7 / n \to 0\)，即 \(p\) 可以大到 \(e^{o(n^{1/7})}\)——指数增长于 \(n\)。

Multiplier Bootstrap 如何配合 GAR¶

GAR 和 multiplier bootstrap 解决的是两个不同但互补的问题：

GAR 解决的问题：\(T_0 = \max_j X_j\) 的分布是什么？答案：可以用高斯 max \(Z_0 = \max_j Y_j\)（\(Y \sim N(0, \Sigma)\)）来逼近。
GAR 没解决的问题：\(Z_0\) 的分布依赖于未知的总体协方差 \(\Sigma\)，我们算不出来。

Multiplier bootstrap 正是来填这个缺口的。

构造¶

\[W_0 = \max_{1 \leq j \leq p} \frac{1}{\sqrt{n}} \sum_{i=1}^n x_{ij} e_i, \quad e_i \stackrel{i.i.d.}{\sim} N(0,1)\]

\(x_{ij}\) 是你的数据（固定的），\(e_i\) 是每次重新抽取的随机权重。

为什么 \(W_0\) 能逼近 \(T_0\)？¶

条件于数据 \((x_i)\)，看 \(W_j = \frac{1}{\sqrt{n}}\sum_i x_{ij} e_i\)：

它是常数 \(x_{ij}\) 乘以独立高斯 \(e_i\) 的和，仍然是高斯
条件均值：\(\mathbb{E}[W_j \mid (x_i)] = 0\)
条件协方差：\(\text{Cov}(W_j, W_k \mid (x_i)) = \frac{1}{n}\sum_i x_{ij} x_{ik} = \hat{\Sigma}_{jk}\)

所以 \(W \mid (x_i) \sim N(0, \hat{\Sigma})\)——精确高斯，零近似误差。

而 \(Z \sim N(0, \Sigma)\)。两者都是高斯，唯一差异是协方差：经验 \(\hat{\Sigma}\) vs 总体 \(\Sigma\)。

两步逻辑链¶

\[\underbrace{T_0 \approx Z_0}_{\text{Step 1: GAR}} \quad + \quad \underbrace{Z_0 \approx W_0 \mid (x_i)}_{\text{Step 2: } \hat{\Sigma} \approx \Sigma} \quad \Rightarrow \quad T_0 \approx W_0 \mid (x_i)\]

Step 1（非高斯 → 高斯）：GAR 定理保证，\(\max_j X_j\)（非高斯 max）和 \(\max_j Y_j\)（协方差 \(\Sigma\) 的高斯 max）的分布接近。这一步消除了对分布形状的依赖——不管原始数据是什么分布，max 的行为都像高斯 max。

Step 2（总体协方差 → 经验协方差）：\(Z_0\) 和 \(W_0 | (x_i)\) 都是高斯 max，唯一区别是协方差矩阵。由大数律，\(\|\hat{\Sigma} - \Sigma\|_{\max} \to 0\)，再用高斯 max 的比较不等式（Sudakov-Fernique + anti-concentration），两个高斯 max 的分布差异以 \(\|\hat{\Sigma} - \Sigma\|_{\max}^{1/3} (\log p)^{2/3}\) 的速率消失。

两步合起来：\(W_0\) 的条件分布一致地逼近 \(T_0\) 的无条件分布。

实际算法¶

Multiplier Bootstrap 计算临界值

输入：数据 \((x_1, \ldots, x_n) \in \mathbb{R}^p\)，显著性水平 \(\alpha\)，bootstrap 次数 \(B\)

Step 1：计算原始统计量 \(T_0 = \max_{1 \leq j \leq p} \frac{1}{\sqrt{n}} \left|\sum_{i=1}^n x_{ij}\right|\)

Step 2：对 \(b = 1, \ldots, B\)：

生成 \(e_1^{(b)}, \ldots, e_n^{(b)} \stackrel{i.i.d.}{\sim} N(0,1)\)
计算 \(W_0^{(b)} = \max_{1 \leq j \leq p} \frac{1}{\sqrt{n}} \left|\sum_{i=1}^n x_{ij} e_i^{(b)}\right|\)

Step 3：\(c_\alpha = W_0^{(b)}\) 的 \((1-\alpha)\) 经验分位数 \(\longrightarrow\) 即排序后第 \(\lceil (1-\alpha)B \rceil\) 个值

输出：拒绝 \(H_0\) 当且仅当 \(T_0 > c_\alpha\)

注意整个过程中 \(x_{ij}\) 始终固定不动——这正是 multiplier bootstrap "保留位置、原地加权"思想在高维中的体现。每次只重新抽取权重 \(e_i\)，数据的协方差结构通过 \(\hat{\Sigma} = \frac{1}{n}\sum_i x_i x_i'\) 自动编码在 bootstrap 统计量中。

为什么选高斯权重？¶

选择 \(e_i \sim N(0,1)\) 而非 Rademacher (\(\pm 1\)) 的关键原因：

高斯权重：\(W | (x_i)\) 精确高斯 → Step 2 只需比较两个高斯 max → 用 Sudakov-Fernique 不等式即可，证明两步完成
Rademacher 权重：\(W | (x_i)\) 不是高斯 → Step 2 本身还需要一个条件 GAR（证明 Rademacher 加权的 max 近似高斯 max）→ 变成三步，条件更强

渐近上两者等价，但高斯权重让理论分析最简洁，这就是 CCK (2013) 选择它的原因。