🏠 home › concepts › shannon-entropy
tags
[信息论, 数学, 机器学习, 基础理论]
created
2026-04-14
updated
2026-04-14
sources
[raw/notes/shannon-mathematical-theory-communication-1948.md]

定义

Shannon 于 1948 年引入的信息量度量,衡量随机变量的不确定性:

H(X) = −Σ p(xᵢ) log₂ p(xᵢ)

单位:比特(bit)。一个公平硬币的熵 = 1 bit,一枚六面骰子的熵 ≈ 2.585 bit。

命名由来:据 Myron Tribus(1964/1971)转述,von Neumann 建议用"熵",因为公式与统计力学中的 Boltzmann 熵 S = −k_B Σ pᵢ ln pᵢ 形式相同。但 Shannon 本人后来表示不记得此事(真实性存疑)。无论命名来源如何,数学形式的对应关系是确实的。

关键性质

性质 含义
非负性 H(X) ≥ 0,等号当且仅当 X 确定
极大值 均匀分布时 H = log₂ n(n 个等概率事件)
可加性 独立事件:H(X,Y) = H(X) + H(Y)
条件化降低不确定性 H(X|Y) ≤ H(X),知道 Y 不会增加对 X 的不确定性
凹性 H 是概率分布的凹函数
高斯最大熵 给定均值和方差,高斯分布的熵最大

关键变体

联合熵

H(X,Y) = −Σ p(x,y) log₂ p(x,y)

条件熵

H(X|Y) = H(X,Y) − H(Y)

已知 Y 后对 X 的剩余不确定性。

交叉熵

H(p, q) = −Σ p(x) log₂ q(x)

用分布 q 编码分布 p 的平均比特数。LLM 训练的标准损失函数。 交叉熵的下界是真实分布的熵 H(p),差值就是 KL 散度。

KL 散度(相对熵)

D_KL(p||q) = H(p, q) − H(p) = Σ p(x) log₂ [p(x)/q(x)]

衡量分布 q 偏离分布 p 的程度。不对称,非距离。用于 RLHF(约束策略偏移)、知识蒸馏、VAE。

互信息

I(X;Y) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y)

两个变量共享的信息量。对称。信道容量 = 互信息的最大值。

熵在不同领域的含义

信息论(Shannon 原意)

机器学习

热力学

数据压缩

直觉理解

熵 = 最优猜测策略下的平均猜测次数(以二进制问题计)。

这就是为什么高频词用短码("the" → 短 token)、低频词用长码——这正是 Shannon 编码的核心思想,也是 BPE 分词器的底层逻辑。

相关概念