- tags
- [信息论, 数学, 机器学习, 基础理论]
- created
- 2026-04-14
- updated
- 2026-04-14
- sources
- [raw/notes/shannon-mathematical-theory-communication-1948.md]
定义¶
Shannon 于 1948 年引入的信息量度量,衡量随机变量的不确定性:
H(X) = −Σ p(xᵢ) log₂ p(xᵢ)
单位:比特(bit)。一个公平硬币的熵 = 1 bit,一枚六面骰子的熵 ≈ 2.585 bit。
命名由来:据 Myron Tribus(1964/1971)转述,von Neumann 建议用"熵",因为公式与统计力学中的 Boltzmann 熵 S = −k_B Σ pᵢ ln pᵢ 形式相同。但 Shannon 本人后来表示不记得此事(真实性存疑)。无论命名来源如何,数学形式的对应关系是确实的。
关键性质¶
| 性质 | 含义 |
|---|---|
| 非负性 | H(X) ≥ 0,等号当且仅当 X 确定 |
| 极大值 | 均匀分布时 H = log₂ n(n 个等概率事件) |
| 可加性 | 独立事件:H(X,Y) = H(X) + H(Y) |
| 条件化降低不确定性 | H(X|Y) ≤ H(X),知道 Y 不会增加对 X 的不确定性 |
| 凹性 | H 是概率分布的凹函数 |
| 高斯最大熵 | 给定均值和方差,高斯分布的熵最大 |
关键变体¶
联合熵¶
H(X,Y) = −Σ p(x,y) log₂ p(x,y)
条件熵¶
H(X|Y) = H(X,Y) − H(Y)
已知 Y 后对 X 的剩余不确定性。
交叉熵¶
H(p, q) = −Σ p(x) log₂ q(x)
用分布 q 编码分布 p 的平均比特数。LLM 训练的标准损失函数。 交叉熵的下界是真实分布的熵 H(p),差值就是 KL 散度。
KL 散度(相对熵)¶
D_KL(p||q) = H(p, q) − H(p) = Σ p(x) log₂ [p(x)/q(x)]
衡量分布 q 偏离分布 p 的程度。不对称,非距离。用于 RLHF(约束策略偏移)、知识蒸馏、VAE。
互信息¶
I(X;Y) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y)
两个变量共享的信息量。对称。信道容量 = 互信息的最大值。
熵在不同领域的含义¶
信息论(Shannon 原意)¶
- 信源编码定理:熵 = 无损压缩的理论下界
- 一个英文字母的熵 ≈ 1.0-1.5 bit(理论上限 log₂ 26 ≈ 4.7 bit),差值就是冗余度
- 英语约 50% 冗余——一半的字符可以从上下文预测
机器学习¶
- 交叉熵损失:分类任务的标准损失函数。最小化交叉熵 = 最大化对数似然
- Perplexity = 2^H:LLM 的困惑度直接等于熵的指数。GPT-4 级别的 LLM 在英文文本上的 perplexity ≈ 10-20,对应熵 ≈ 3.3-4.3 bit/token
- 信息增益:决策树分裂准则 = 熵的减少量
- 最大熵原则:在约束下选择熵最大的分布(最少假设)→ 逻辑回归、MaxEnt 模型
- 变分推断:ELBO 中的 KL 散度项约束后验逼近先验
热力学¶
- Boltzmann 熵:S = k_B ln Ω,微观状态数的对数
- 热力学第二定律:孤立系统熵不减 ↔ 信息论中信道噪声只增加不确定性
- Landauer 原理:擦除 1 bit 信息至少耗散 k_B T ln 2 的能量——信息与物理的桥梁
数据压缩¶
- Huffman 编码、算术编码、ANS 都在逼近熵率
- Opus(语音编码器)、H.265(视频编码器)的压缩效率用"距熵的距离"衡量
- Shannon-Fano 编码是第一个接近最优的前缀码(1948),被 Huffman(1952)超越
直觉理解¶
熵 = 最优猜测策略下的平均猜测次数(以二进制问题计)。
- 如果你知道答案 → 不需要猜 → H = 0
- 如果 8 个等概率答案 → 最优需要 3 次二分 → H = 3 bit
- 如果概率不均 → 先猜高概率的 → 平均猜测次数 < log₂ n
这就是为什么高频词用短码("the" → 短 token)、低频词用长码——这正是 Shannon 编码的核心思想,也是 BPE 分词器的底层逻辑。
相关概念¶
- information-theory — 信息论:Shannon 熵所属的完整理论框架
- voice-presence — 语音临场感:语音编解码中的熵与压缩
- agora-rtc-voice — Agora RTC 语音:Opus 编码的信源编码效率
- rag — RAG:检索有效性与信息熵的关系
- naming-shapes-thinking — 命名塑造思维:自然语言冗余度与认知框架
- backpropagation — 反向传播:交叉熵是神经网络训练的标准损失函数
- geoffrey-hinton — 辛顿:将信息论的数学工具转化为可学习的神经网络
- deep-learning-history — 深度学习发展史:从 Shannon 熵到 LLM 的知识谱系