跳转至

Bayesian 后验收缩:从框架到 Lemma 9

来源:Ghosal & van der Vaart (2007, AoS) — Convergence Rates of Posterior Distributions for Non-IID Observations

宏观框架

Bayesian posterior contraction 的基本策略是把后验概率写成分数形式:

\[\Pi(\theta \in A \mid X^{(n)}) = \frac{\int_A \prod_i \frac{p_{\theta,i}}{p_{0,i}} \, d\Pi(\theta)}{\int_\Theta \prod_i \frac{p_{\theta,i}}{p_{0,i}} \, d\Pi(\theta)}\]

然后分别控制分子和分母。无论是基础的 consistency 还是 contraction rate,都是这个路线:

  • 分子(远离 \(\theta_0\) 的部分):构造检验函数 \(\phi_n\),把积分限制在 type-II error 小的区域 → Lemma 9
  • 分母\(\theta_0\) 附近的部分):利用 prior 在 KL 邻域的质量给出下界 → Lemma 10

两者在 Theorem 1 中组合,得到后验收缩速率。

Lemma 9:从逐点检验到统一检验

问题

检验条件 (2.2) 只给出逐点的检验:对每个 \(\theta_1\)(满足 \(d_n(\theta_1, \theta_0) > \varepsilon\)),存在检验 \(\phi_{n,\theta_1}\) 控制住 \(\theta_1\)\(e_n\)-邻域内的 type-II error。但参数空间可以是无限维的,我们需要一个统一的 \(\phi_n\) 对所有方向同时有效。

核心构造

第一步:Annular shell 分解。 把备择空间按距离分层:

\[\Theta_j = \{\theta : j\varepsilon < d_n(\theta, \theta_0) \leq (j+1)\varepsilon\}, \qquad j = 1, 2, \ldots\]

第二步:Packing set 构造。 在每个 \(\Theta_j\) 中取极大 \(e_n\)-packing set \(\Theta_j'\)。极大性保证覆盖:\(\Theta_j\) 中每个点与某个 \(\theta' \in \Theta_j'\)\(e_n\) 距离 \(\leq j\varepsilon\xi\)。Entropy 条件 (8.1) 控制点数:

\[|\Theta_j'| \leq N(2j\varepsilon)\]

关键衔接:packing number \(\leq\) covering number,而 covering number 正是 entropy 条件给出的。

第三步:聚合。 对每个 packing 点用条件 (2.2) 造检验,取最大值:

\[\phi_n = \max_{j \geq 1} \max_{\theta_1 \in \Theta_j'} \phi_{n,\theta_1}\]
  • Type-II error:\(\phi_n \geq \phi_{n,\theta_1}\),自动由个体检验控制
  • Type-I error:union bound 求和,entropy 条件保证求和收敛

更一般的方法论收获

Lemma 9 展示了处理无限维参数空间的核心范式:用 metric entropy 把无限维问题"离散化"为有限个代表点,再用 union bound 聚合。这个思路在统计学中反复出现:

  • 经验过程:chaining argument(VW96 Ch2.2 的 Theorem 2.2.4 等)用类似的分层 + 覆盖结构
  • Minimax 理论:Fano's lemma 和 Le Cam's method 也依赖 packing/covering 把连续问题离散化
  • 高维统计:Gaussian complexity、Rademacher complexity 的上界都通过 entropy integral 实现

Lemma 9 的 annular shell 构造特别优雅:通过分层,每一层的"分辨率"\(j\varepsilon\) 自动匹配检验的精度,远处的 shell 用更粗的 packing 就够了(因为信号更强),近处需要更细——这正是 entropy 条件中 \(N(\varepsilon)\)\(\varepsilon\) 递减的体现。