Shannon 熵（Information Entropy）

tags: [信息论, 数学, 机器学习, 基础理论]
created: 2026-04-14
updated: 2026-04-14
sources: [raw/notes/shannon-mathematical-theory-communication-1948.md]

定义¶

Shannon 于 1948 年引入的信息量度量，衡量随机变量的不确定性：

H(X) = −Σ p(xᵢ) log₂ p(xᵢ)

单位：比特（bit）。一个公平硬币的熵 = 1 bit，一枚六面骰子的熵 ≈ 2.585 bit。

命名由来：据 Myron Tribus（1964/1971）转述，von Neumann 建议用"熵"，因为公式与统计力学中的 Boltzmann 熵 S = −k_B Σ pᵢ ln pᵢ 形式相同。但 Shannon 本人后来表示不记得此事（真实性存疑）。无论命名来源如何，数学形式的对应关系是确实的。

关键性质¶

性质	含义
非负性	H(X) ≥ 0，等号当且仅当 X 确定
极大值	均匀分布时 H = log₂ n（n 个等概率事件）
可加性	独立事件：H(X,Y) = H(X) + H(Y)
条件化降低不确定性	H(X\|Y) ≤ H(X)，知道 Y 不会增加对 X 的不确定性
凹性	H 是概率分布的凹函数
高斯最大熵	给定均值和方差，高斯分布的熵最大

关键变体¶

联合熵¶

H(X,Y) = −Σ p(x,y) log₂ p(x,y)

条件熵¶

H(X|Y) = H(X,Y) − H(Y)

已知 Y 后对 X 的剩余不确定性。

交叉熵¶

H(p, q) = −Σ p(x) log₂ q(x)

用分布 q 编码分布 p 的平均比特数。LLM 训练的标准损失函数。 交叉熵的下界是真实分布的熵 H(p)，差值就是 KL 散度。

KL 散度（相对熵）¶

D_KL(p||q) = H(p, q) − H(p) = Σ p(x) log₂ [p(x)/q(x)]

衡量分布 q 偏离分布 p 的程度。不对称，非距离。用于 RLHF（约束策略偏移）、知识蒸馏、VAE。

互信息¶

I(X;Y) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y)

两个变量共享的信息量。对称。信道容量 = 互信息的最大值。

熵在不同领域的含义¶

信息论（Shannon 原意）¶

信源编码定理：熵 = 无损压缩的理论下界
一个英文字母的熵 ≈ 1.0-1.5 bit（理论上限 log₂ 26 ≈ 4.7 bit），差值就是冗余度
英语约 50% 冗余——一半的字符可以从上下文预测

机器学习¶

交叉熵损失：分类任务的标准损失函数。最小化交叉熵 = 最大化对数似然
Perplexity = 2^H：LLM 的困惑度直接等于熵的指数。GPT-4 级别的 LLM 在英文文本上的 perplexity ≈ 10-20，对应熵 ≈ 3.3-4.3 bit/token
信息增益：决策树分裂准则 = 熵的减少量
最大熵原则：在约束下选择熵最大的分布（最少假设）→ 逻辑回归、MaxEnt 模型
变分推断：ELBO 中的 KL 散度项约束后验逼近先验

热力学¶

Boltzmann 熵：S = k_B ln Ω，微观状态数的对数
热力学第二定律：孤立系统熵不减 ↔ 信息论中信道噪声只增加不确定性
Landauer 原理：擦除 1 bit 信息至少耗散 k_B T ln 2 的能量——信息与物理的桥梁

数据压缩¶

Huffman 编码、算术编码、ANS 都在逼近熵率
Opus（语音编码器）、H.265（视频编码器）的压缩效率用"距熵的距离"衡量
Shannon-Fano 编码是第一个接近最优的前缀码（1948），被 Huffman（1952）超越

直觉理解¶

熵 = 最优猜测策略下的平均猜测次数（以二进制问题计）。

如果你知道答案 → 不需要猜 → H = 0
如果 8 个等概率答案 → 最优需要 3 次二分 → H = 3 bit
如果概率不均 → 先猜高概率的 → 平均猜测次数 < log₂ n

这就是为什么高频词用短码（"the" → 短 token）、低频词用长码——这正是 Shannon 编码的核心思想，也是 BPE 分词器的底层逻辑。

定义¶