\frac{1}{n} \sum_{i=1}^{n}X_i^TX_i 的期望
时间: 2024-02-10 21:33:49 浏览: 18
根据线性代数中向量内积的定义,对于一个 $d$ 维向量 $\boldsymbol{x}$,有 $\boldsymbol{x}^T\boldsymbol{x} = \sum_{i=1}^{d}x_i^2$。因此,可以将 $\frac{1}{n} \sum_{i=1}^{n}X_i^TX_i$ 写成如下形式:
$$
\frac{1}{n} \sum_{i=1}^{n}X_i^TX_i = \frac{1}{n} \sum_{i=1}^{n}\sum_{j=1}^{d}X_{ij}^2
$$
其中,$X_{ij}$ 表示第 $i$ 个样本的第 $j$ 个特征。由于每个特征都是独立同分布的,因此有 $E(X_{ij}^2) = Var(X_{ij}) + (E[X_{ij}])^2$。同时,根据样本均值的定义,有 $E(\frac{1}{n}\sum_{i=1}^{n}X_{ij}) = E(X_{ij})$。因此,可以得到:
$$
E(\frac{1}{n} \sum_{i=1}^{n}X_i^TX_i) = E(\frac{1}{n} \sum_{i=1}^{n}\sum_{j=1}^{d}X_{ij}^2) = \frac{1}{n}\sum_{i=1}^{n}\sum_{j=1}^{d}(Var(X_{ij}) + (E[X_{ij}])^2) = \sum_{j=1}^{d}(Var(X_{ij}) + (E[X_{ij}])^2)
$$
因此,$\frac{1}{n} \sum_{i=1}^{n}X_i^TX_i$ 的期望是每个特征的方差加上期望平方和。
相关问题
把NMI = \frac{-2 \cdot \sum_{i=1}^C \sum_{j=1}^K \frac{n_{ij}}{n} \log\left(\frac{n_{ij} \cdot n}{n_i \cdot n_j}\right)}{\sum_{i=1}^C \frac{n_i}{n} \log\left(\frac{n_i}{n}\right) + \sum_{j=1}^K \frac{n_j}{n} \log\left(\frac{n_j}{n}\right)}转换成普通数学公式
将NMI的计算公式转换成普通数学公式:
NMI = \frac{-2 \cdot \sum_{i=1}^C \sum_{j=1}^K \frac{n_{ij}}{n} \log\left(\frac{n_{ij} \cdot n}{n_i \cdot n_j}\right)}{\sum_{i=1}^C \frac{n_i}{n} \log\left(\frac{n_i}{n}\right) + \sum_{j=1}^K \frac{n_j}{n} \log\left(\frac{n_j}{n}\right)}
可以进一步简化为:
NMI = \frac{2 \cdot I(C, K)}{H(C) + H(K)}
其中,
- I(C, K) 表示互信息(Mutual Information)的计算,定义为:I(C, K) = \sum_{i=1}^C \sum_{j=1}^K \frac{n_{ij}}{n} \log\left(\frac{n_{ij} \cdot n}{n_i \cdot n_j}\right)
- H(C) 表示聚类结果的熵(Entropy),定义为:H(C) = -\sum_{i=1}^C \frac{n_i}{n} \log\left(\frac{n_i}{n}\right)
- H(K) 表示真实标签的熵(Entropy),定义为:H(K) = -\sum_{j=1}^K \frac{n_j}{n} \log\left(\frac{n_j}{n}\right)
通过计算互信息、聚类结果的熵和真实标签的熵,可以得到NMI的值。
$$\max \sum_{i=1}^{500}\sum_{j=1}^{500} x_{i,j}$$ s.t. $$\sum_{i=i_0}^{i_0+9}\sum_{j=j_0}^{j_0+9} x_{i,j} \leq 1, \forall i_0,j_0,h$$ $$\sum_{i=i_0-h}^{i_0+h}\sum_{j=j_0-h}^{j_0+h} x_{i,j} \leq (2h+1)^2, \forall i_0,j_0,h$$ $$\sum_{i=i_0-d}^{i_0+d}\sum_{j=j_0-d}^{j_0+d} x_{i,j} \leq \pi(2.5)^2, \forall i_0,j_0$$ $$\frac{1}{N}\sum_{i=1}^{500}\sum_{j=1}^{500}(h_{i,j}-\bar{h})^2 \leq \sigma^2$$ $$\sum_{i=1}^{500}\sum_{j=1}^{500}(h_{i,j}-\bar{h}_{i,j})^2 \leq \delta$$ $$\sum_{i=1}^{500}\sum_{j=1}^{500} (10h_{i,j}+10)x_{i,j} \leq B$$ $$x_{i,j} \in {0,1}, \forall i,j$$
这是一个线性规划问题。其中,$x_{i,j}$ 表示第 $i$ 行第 $j$ 列是否选中,$\sum_{i=1}^{500}\sum_{j=1}^{500} x_{i,j}$ 表示选中的格子数。我们需要最大化选中的格子数,同时满足一些限制条件。
限制条件如下:
1. $\sum_{i=i_0}^{i_0+9}\sum_{j=j_0}^{j_0+9} x_{i,j} \leq 1, \forall i_0,j_0,h$:对于每个 $10\times 10$ 的方格中,最多只能选中一个格子。
2. $\sum_{i=i_0-h}^{i_0+h}\sum_{j=j_0-h}^{j_0+h} x_{i,j} \leq (2h+1)^2, \forall i_0,j_0,h$:对于每个半径为 $h$ 的正方形中,最多只能选中 $(2h+1)^2$ 个格子。
3. $\sum_{i=i_0-d}^{i_0+d}\sum_{j=j_0-d}^{j_0+d} x_{i,j} \leq \pi(2.5)^2, \forall i_0,j_0$:对于每个半径为 $2.5$ 的圆中,最多只能选中 $\pi(2.5)^2$ 个格子。
4. $\frac{1}{N}\sum_{i=1}^{500}\sum_{j=1}^{500}(h_{i,j}-\bar{h})^2 \leq \sigma^2$:选中的格子的高度的方差不能超过 $\sigma^2$。
5. $\sum_{i=1}^{500}\sum_{j=1}^{500}(h_{i,j}-\bar{h}_{i,j})^2 \leq \delta$:选中的格子的高度与平均高度的差的平方和不能超过 $\delta$。
6. $\sum_{i=1}^{500}\sum_{j=1}^{500} (10h_{i,j}+10)x_{i,j} \leq B$:选中的格子的高度之和不能超过 $B$。
我们可以将这个问题表示为如下的线性规划模型:
$$\max \sum_{i=1}^{500}\sum_{j=1}^{500} x_{i,j}$$
s.t.
$$\sum_{i=i_0}^{i_0+9}\sum_{j=j_0}^{j_0+9} x_{i,j} \leq 1, \forall i_0,j_0,h$$
$$\sum_{i=i_0-h}^{i_0+h}\sum_{j=j_0-h}^{j_0+h} x_{i,j} \leq (2h+1)^2, \forall i_0,j_0,h$$
$$\sum_{i=i_0-d}^{i_0+d}\sum_{j=j_0-d}^{j_0+d} x_{i,j} \leq \pi(2.5)^2, \forall i_0,j_0$$
$$\frac{1}{N}\sum_{i=1}^{500}\sum_{j=1}^{500}(h_{i,j}-\bar{h})^2 \leq \sigma^2$$
$$\sum_{i=1}^{500}\sum_{j=1}^{500}(h_{i,j}-\bar{h}_{i,j})^2 \leq \delta$$
$$\sum_{i=1}^{500}\sum_{j=1}^{500} (10h_{i,j}+10)x_{i,j} \leq B$$
$$x_{i,j} \in {0,1}, \forall i,j$$
其中,$N$ 表示选中的格子数,$\bar{h}$ 表示选中的格子的平均高度。