给出高斯机制的(ε,δ)-差分隐私数学证明。
时间: 2024-04-23 18:22:03 浏览: 136
高斯机制是一种差分隐私的实现方式,它在查询结果中添加了服从高斯分布的噪声。对于一个查询函数 $f$,它的 $(\epsilon, \delta)$-差分隐私机制 $\mathcal{M}$ 通过以下方式计算查询结果:
$$\mathcal{M}(f) = f(D) + \mathcal{N}(0, \sigma^2)$$
其中 $D$ 是数据集,$\mathcal{N}(0, \sigma^2)$ 表示均值为 $0$,方差为 $\sigma^2$ 的高斯分布。$\sigma$ 的取值与 $\epsilon$ 和 $\delta$ 的关系为:
$$\sigma = \sqrt{2\ln(1.25/\delta)} \cdot \frac{s}{\epsilon}$$
其中 $s$ 是查询函数 $f$ 的全局敏感度,即 $s = \max_{D,D'} ||f(D)-f(D')||_1$。
为了证明高斯机制满足 $(\epsilon, \delta)$-差分隐私,我们需要证明对于任意相邻的数据集 $D$ 和 $D'$,以及任意子集 $S \subseteq Range(f)$,有:
$$\Pr[\mathcal{M}(D) \in S] \leq e^\epsilon \Pr[\mathcal{M}(D') \in S] + \delta$$
假设 $D$ 和 $D'$ 只有一条记录不同,不失一般性地设为 $D = (x_1, x_2, ..., x_n)$ 和 $D' = (x_1, x_2, ..., x_i', ..., x_n)$,其中 $x_i' \in \mathcal{X}$。我们可以计算出 $\mathcal{M}(D)$ 和 $\mathcal{M}(D')$ 的概率分布函数(PDF),分别为 $f_D(x)$ 和 $f_{D'}(x)$,然后证明:
$$\frac{f_D(x)}{f_{D'}(x)} = e^{\frac{(f(D')-f(D))x - \frac{x^2}{2\sigma^2}}{\sigma^2}}$$
为了证明上式,我们可以令 $y = f(D')-f(D)$,然后将 $\mathcal{M}(D)$ 和 $\mathcal{M}(D')$ 的表达式代入高斯分布的 PDF 中,得到:
$$\begin{aligned} \frac{f_D(x)}{f_{D'}(x)} &= \frac{1}{\sqrt{2\pi}\sigma} \frac{e^{-\frac{(x-f(D))^2}{2\sigma^2}}}{e^{-\frac{(x-f(D')+y)^2}{2\sigma^2}}} \\ &= e^{\frac{(f(D')+y-f(D))x - \frac{x^2}{2\sigma^2}+\frac{(f(D')-f(D))^2}{2\sigma^2}} \\ &= e^{\frac{(f(D')-f(D))x - \frac{x^2}{2\sigma^2}}{\sigma^2}} \cdot e^{\frac{(f(D')-f(D))y + (f(D')-f(D))^2}{2\sigma^2}} \end{aligned}$$
由于 $y$ 的取值只有 $1$ 和 $-1$,所以 $e^{\frac{(f(D')-f(D))y}{\sigma^2}} \leq e^\epsilon$。同时,由于 $\mathcal{N}(0, \sigma^2)$ 的 PDF 是单峰的,所以 $e^{\frac{(f(D')-f(D))^2}{2\sigma^2}} \leq 1$。因此,我们可以得到:
$$\frac{f_D(x)}{f_{D'}(x)} \leq e^{\frac{(f(D')-f(D))x - \frac{x^2}{2\sigma^2}}{\sigma^2}} \cdot e^\epsilon$$
接下来,我们需要将上式右边的指数部分分解成 $x$ 的一次项和二次项,即:
$$\frac{(f(D')-f(D))x - \frac{x^2}{2\sigma^2}}{\sigma^2} = \frac{x(f(D')-f(D))}{\sigma^2} - \frac{x^2}{2\sigma^4}(f(D')-f(D))^2$$
由于 $(f(D')-f(D))^2 \leq s^2$,所以:
$$\frac{(f(D')-f(D))x - \frac{x^2}{2\sigma^2}}{\sigma^2} \leq \frac{x(f(D')-f(D))}{\sigma^2} - \frac{x^2s^2}{2\sigma^6}$$
因此,我们可以得到:
$$\frac{f_D(x)}{f_{D'}(x)} \leq e^{\frac{x(f(D')-f(D))}{\sigma^2} - \frac{x^2s^2}{2\sigma^6} + \epsilon}$$
令 $a = \frac{f(D')-f(D)}{\sigma^2}$,$b = \frac{s^2}{2\sigma^4}$,则上式可以进一步化简为:
$$\frac{f_D(x)}{f_{D'}(x)} \leq e^{ax - bx^2 + \epsilon}$$
我们需要证明的不等式可以转化为:
$$\int_S f_D(x)dx \leq e^\epsilon \int_S f_{D'}(x)dx + \delta$$
根据上述式子,我们可以得到:
$$\begin{aligned} \int_S f_D(x)dx &= \int_S f_{D'}(x) \cdot \frac{f_D(x)}{f_{D'}(x)} dx \\ &\leq \int_S f_{D'}(x) \cdot e^{ax - bx^2 + \epsilon} dx \\ &= e^\epsilon \int_S f_{D'}(x) \cdot e^{ax - bx^2} dx + \delta \int_S f_D(x)dx \end{aligned}$$
移项得到:
$$\int_S f_D(x)(1-\delta)dx \leq e^\epsilon \int_S f_{D'}(x) e^{ax - bx^2}dx$$
因此,我们可以证明:
$$\Pr[\mathcal{M}(D) \in S] = \int_S f_D(x)dx \leq e^\epsilon \int_S f_{D'}(x) e^{ax - bx^2}dx + \delta$$
这就证明了高斯机制满足 $(\epsilon,\delta)$-差分隐私。
阅读全文