信息论基础 熵、相对熵与互信息 熵 定义:一个离散型随机变量 XXX 的熵 H(X)H(X)H(X) 定义为: H(X)=−∑x∈Xp(x)logp(x) H(X)=-\sum_{x \in X}p(x) \log p(x) H(X)=−x∈X∑p(x)logp(x) 注释:XXX 的熵又可以理解为随机变量 log1p(X)\log \frac{1}{p(X)}logp(X)1 的期望值 引理 H(X)≥0H(X) \geq 0H(X)≥0 Hb(X)=(logba)Ha(X)H_b(X)=(\log_ba)H_a(X)Hb(X)=(logba)Ha(X) 二元熵: H(X)=−plogp−(1−p)log(1−p)→H(p) H(X)= -p\log p-(1-p)\log (1-p) \rightarrow H(p) H(X)=−plogp−(1−p)log(1−p)→H(p) H(p)H(p)H(p) 为上凸函数,在 p=12p= \frac{1}{2}p=21 时取得最大值 1 ...