Chernoff Bound 切尔诺夫限

2025-07-24

Math

马尔可夫不等式 & 切比雪夫不等式

首先，让我们回顾马尔可夫不等式。

$P\lbrace X \ge \epsilon \rbrace \le \frac{E[ X^r]} {\epsilon^r}\space (\epsilon > 0)$

Markov 不等式衡量了随机变量大于某个正数 $\epsilon$ 概率的上界（由期望限制）。

将上式的 $X$ 替换为另一个随机变量： $\lvert X-E(X)\rvert$ ，再令 $r = 2$ 即可得到切比雪夫不等式。

$P\lbrace \lvert X-E(X)\rvert \ge \epsilon \rbrace \le \frac{D(X)}{\epsilon^2}$

这个不等式对于分布没有具体要求，可以用来求得随机变量 $X$ 离散程度的上界（受 $D(X)$ 约束）。

矩生成函数

矩生成函数按如下方式定义： $M_{X}(s)=\mathbb{E}[e^{sX}]= \int e^{sx}f_X(x)dx$

其拥有下述性质： $\frac{d}{ds}M_{X}(s)=\mathbb{E}[Xe^{sX}]$

切尔诺夫限

切尔诺夫限是马尔可夫不等式的直接应用。对于 $\lambda > 0$ ， $P\lbrace X \ge \epsilon \rbrace = P\lbrace e^{\lambda X} \ge e^{\lambda\epsilon} \rbrace \le \frac{\mathbb{E}[e^{\lambda X}]}{e^{\lambda \epsilon}}$ （应用 r = 1 的马尔可夫不等式）

假设 $X_{i}(1\le i\le n)$ 的均值为 $\mu_i(1\le i \le n)$ 且这 n 个随机变量相互独立。则 $P\lbrace \sum_{i=1}^n(X_i-\mu_i) \ge \epsilon\rbrace \le \frac{\mathbb{E}[e^{\lambda\sum_{i=1}^n(X_i-\mu_i)}]}{e^{\lambda \epsilon}}=\frac{\prod_{i=1}^n\mathbb{E}[e^{\lambda(X_i-\mu_i)}]}{e^{\lambda\epsilon}}$

上式被称为切尔诺夫不等式，用来求 n 个独立的随机变量和大于某个整数概率的上界。

例子：bound l2 norm

假设 $X_{i}\sim \mathcal{N}(0, 1)(1\le i\le n)$ 且这 n 个随机变量相互独立。则二范数的平方 $Y=\sum_{i=1}^n X_i^2$ 。应用切尔诺夫不等式易知

$P\lbrace \sum_{i=1}^n X_i^2 \ge \epsilon\rbrace \le \frac{\prod_{i=1}^n M_{X_i^2}(\lambda)}{e^{\lambda\epsilon}}$

又由于卡方分布的矩生成函数为 $\frac{1}{\sqrt{1-2\lambda}}$ 。

所以最后有： $P\lbrace\sum_{i=1}^n X_i^2 \ge \epsilon\rbrace\le \frac{1}{(1-2\lambda)^{\frac{n}{2}}e^{\lambda\epsilon}}$ 对任意的 $\lambda > 0$ 均成立。

我们还可将不等式右侧看作 $\lambda$ 的函数，找到使得函数值最小的 $\lambda_0$ ，进一步加强不等式。