Bayesian 后验收缩：从框架到 Lemma 9¶

来源：Ghosal & van der Vaart (2007, AoS) — Convergence Rates of Posterior Distributions for Non-IID Observations

宏观框架¶

Bayesian posterior contraction 的基本策略是把后验概率写成分数形式：

\[\Pi(\theta \in A \mid X^{(n)}) = \frac{\int_A \prod_i \frac{p_{\theta,i}}{p_{0,i}} \, d\Pi(\theta)}{\int_\Theta \prod_i \frac{p_{\theta,i}}{p_{0,i}} \, d\Pi(\theta)}\]

然后分别控制分子和分母。无论是基础的 consistency 还是 contraction rate，都是这个路线：

分子（远离 \(\theta_0\) 的部分）：构造检验函数 \(\phi_n\)，把积分限制在 type-II error 小的区域 → Lemma 9
分母（\(\theta_0\) 附近的部分）：利用 prior 在 KL 邻域的质量给出下界 → Lemma 10

两者在 Theorem 1 中组合，得到后验收缩速率。

Lemma 9：从逐点检验到统一检验¶

问题¶

检验条件 (2.2) 只给出逐点的检验：对每个 \(\theta_1\)（满足 \(d_n(\theta_1, \theta_0) > \varepsilon\)），存在检验 \(\phi_{n,\theta_1}\) 控制住 \(\theta_1\) 的 \(e_n\)-邻域内的 type-II error。但参数空间可以是无限维的，我们需要一个统一的 \(\phi_n\) 对所有方向同时有效。

核心构造¶

第一步：Annular shell 分解。 把备择空间按距离分层：

\[\Theta_j = \{\theta : j\varepsilon < d_n(\theta, \theta_0) \leq (j+1)\varepsilon\}, \qquad j = 1, 2, \ldots\]

第二步：Packing set 构造。 在每个 \(\Theta_j\) 中取极大 \(e_n\)-packing set \(\Theta_j'\)。极大性保证覆盖：\(\Theta_j\) 中每个点与某个 \(\theta' \in \Theta_j'\) 的 \(e_n\) 距离 \(\leq j\varepsilon\xi\)。Entropy 条件 (8.1) 控制点数：

\[|\Theta_j'| \leq N(2j\varepsilon)\]

关键衔接：packing number \(\leq\) covering number，而 covering number 正是 entropy 条件给出的。

第三步：聚合。 对每个 packing 点用条件 (2.2) 造检验，取最大值：

\[\phi_n = \max_{j \geq 1} \max_{\theta_1 \in \Theta_j'} \phi_{n,\theta_1}\]

Type-II error：\(\phi_n \geq \phi_{n,\theta_1}\)，自动由个体检验控制
Type-I error：union bound 求和，entropy 条件保证求和收敛

更一般的方法论收获¶

Lemma 9 展示了处理无限维参数空间的核心范式：用 metric entropy 把无限维问题"离散化"为有限个代表点，再用 union bound 聚合。这个思路在统计学中反复出现：

经验过程：chaining argument（VW96 Ch2.2 的 Theorem 2.2.4 等）用类似的分层 + 覆盖结构
Minimax 理论：Fano's lemma 和 Le Cam's method 也依赖 packing/covering 把连续问题离散化
高维统计：Gaussian complexity、Rademacher complexity 的上界都通过 entropy integral 实现

Lemma 9 的 annular shell 构造特别优雅：通过分层，每一层的"分辨率"\(j\varepsilon\) 自动匹配检验的精度，远处的 shell 用更粗的 packing 就够了（因为信号更强），近处需要更细——这正是 entropy 条件中 \(N(\varepsilon)\) 随 \(\varepsilon\) 递减的体现。