信息论（Information Theory）

tags: [信息论, 通信, 数学, 基础理论]
created: 2026-04-14
updated: 2026-04-14
sources: [raw/notes/shannon-mathematical-theory-communication-1948.md, raw/notes/shannon-and-claude-agihunt-2026.md]

定义¶

Claude Shannon 于 1948 年在《A Mathematical Theory of Communication》中创立的数学理论。核心洞见：通信的语义与工程问题无关——信息可以被抽象为概率事件的集合，由此建立了度量、压缩和可靠传输信息的完整数学框架。

"The fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point."

Scientific American 称其为"信息时代的大宪章"。

通信系统五要素模型¶

信息源 → 发射器 →【信道 + 噪声】→ 接收器 → 目的地

组件	功能	现代对应
信息源	产生消息	用户语音、文本、传感器数据
发射器	编码为信号	语音编解码器（Opus）、调制器
信道	信号传播媒介	Wi-Fi、4G/5G、蓝牙、光纤
接收器	解码还原消息	ASR、解调器、解码器
目的地	最终接收者	用户、LLM、IoT 设备

这个模型的威力在于普适性：无论传输的是人类语音、设备信令还是 LLM token，都遵循相同的数学规律。

三大核心概念¶

1. 信息熵 H¶

→ 详见 shannon-entropy

信源不确定性的度量：H(X) = −Σ p(xᵢ) log₂ p(xᵢ)。熵决定了压缩的理论极限。

2. 互信息 I(X;Y)¶

I(X;Y) = H(X) − H(X|Y)

接收信号 Y 对发送消息 X 提供的信息量。衡量信道传递信息的有效程度。当 I(X;Y) = 0 时，信道完全无用（输出与输入独立）。

3. 信道容量 C¶

C = max_{p(x)} I(X;Y)

在所有可能的输入分布上，互信息的最大值。对于带宽 B、信噪比 S/N 的高斯信道：

C = B log₂(1 + S/N)（Shannon-Hartley 定理）

两种工作区间： - 带宽受限（高 SNR）：加带宽比加功率有效 - 功率受限（低 SNR）：加功率比加带宽有效

两大编码定理¶

信源编码定理（压缩的极限）¶

信源熵 H 是无损压缩的理论下界。平均每符号不可能压缩到少于 H 比特。

意义：ZIP、PNG、FLAC、Opus 等压缩格式都在逼近这个极限。Shannon-Fano 编码（1948）→ Huffman 编码（1952）→ 算术编码 → ANS，一步步逼近理论边界。

有噪信道编码定理（可靠传输的极限）¶

只要传输速率 R < C，就存在编码方案使误差概率任意小。R > C 则不可能可靠传输。

意义：这是一个存在性证明——Shannon 证明了好的编码存在，但没给出构造。此后 50 年的编码理论（Hamming → BCH → Reed-Solomon → Turbo → LDPC → Polar）都是在逼近这个极限。Turbo 码（1993）和 LDPC 码首次在实践中接近 Shannon 极限。

核心关系：H < C¶

只要信源熵小于信道容量，无差错通信理论上可行。 信源编码压掉冗余，信道编码加回受控冗余以抗噪声。两步分离是最优的（分离定理）。

冗余度¶

R = 1 − H/H_max

英语的冗余度约 50%——一半的字符是可预测的。这个发现开启了自然语言的统计建模，n-gram 模型和现代 LLM 的概率语言模型都可以追溯到此。

与现代技术的连接¶

语音 IoT（→ sentino-iot）¶

Opus 编码（→ agora-rtc-voice）：信源编码定理决定了语音压缩的理论极限。Opus 在 16kHz/单声道下的比特率选择本质上是在熵与音质之间权衡
无线信道：Wi-Fi/BLE 的吞吐量受 Shannon-Hartley 公式硬约束。IoT 设备的低功耗需求意味着工作在功率受限区——带宽便宜，功率昂贵
RTSA SDK 弱网码率反馈（→ agora-rtsa-sdk）：Agora 嵌入式 SDK 的 on_target_bitrate_changed 回调要求应用层据此调整编码器码率——这是 Shannon-Hartley 信道容量约束在工程层的具体表现：弱网时 SDK 不能"魔法地"压缩出更小的流，只能反向请求应用层降码率或重发关键帧
纠错编码：BLE 5.0 使用前向纠错（FEC），正是信道编码定理的工程实现

LLM 与 AI¶

交叉熵损失：LLM 训练的优化目标就是最小化交叉熵 H(p, q) = −Σ p(x) log q(x)，本质是让模型分布 q 逼近真实分布 p。交叉熵的下界就是真实分布的熵 H(p)
Perplexity：LLM 的困惑度 = 2^H，直接来自 Shannon 的熵定义
KL 散度：D_KL(p||q) = H(p,q) − H(p)，衡量两个分布的差异，在 RLHF、知识蒸馏中广泛使用
分词器效率：BPE/SentencePiece 本质上是在做信源编码——用更短的 token 表示高频子词

密码学¶

Shannon 同时期发表的《Communication Theory of Secrecy Systems》（1949）将信息论引入密码学。一次性密码本的安全性 = 密钥熵 ≥ 消息熵。

Shannon 其人¶

Claude Elwood Shannon（1916–2001），1948 年发表论文时 32 岁。在贝尔实验室工作多年，后任 MIT 教授。

"严肃的玩耍"¶

Shannon 不是"为了改变世界"的人——他做一切只因为好玩：

在 MIT 走廊骑独轮车，一边骑一边抛接三个球。写过杂耍数学论文，推导出"杂耍定理"
改造了 The Ultimate Machine（"没用的机器"）：原始概念由 Marvin Minsky 于 1952 年在贝尔实验室发明，Shannon 制作了自己的版本并使之广为人知。拨开关到"开"，盒子伸出机械手把开关拨回"关"。Arthur C. Clarke 见到后写道："一台什么都不做、只会关掉自己的机器，有种说不出的邪恶"
造了 Theseus（1950）：一只电子老鼠，能在 5×5 迷宫中自主寻找出路，并记住走过的路——下次直接走正确路线。这是最早期的"机器学习"演示，远早于这个词被发明
炒股赚了不少钱，评价："这只是另一种有趣的数学游戏"

妻子 Betty Shannon 是数学家，在贝尔实验室做过微波研究。Theseus 的实际接线工作由她完成。

Bandwagon 警告（1956）¶

论文发表后信息论被套用到经济学、生物学、语言学、心理学……Shannon 本人不以为然，1956 年写了短文《The Bandwagon》：

"We must keep our own house in first class order. The subject of information theory has certainly been sold, if not oversold." （我们必须先把自己的家打扫干净。信息论这门学科确实已经被推销出去了——如果不是过度推销的话。）

此后 Shannon 大幅减少正式发表（并非完全停止，但产出显著下降）。这个警告在 AI 时代依然有效——每当一个概念（Agent、RAG、信息论……）成功后，"花车效应"总会让它被过度泛化。

命名的力量¶

"bit" 由同事 John Tukey 最先使用，Shannon 写进论文使之流传
"熵" 据称由 von Neumann 建议——"没人真正理解熵是什么，你在辩论中永远占优势"。但此故事真实性存疑：来源仅为 Myron Tribus 的二手转述（1964/1971），Shannon 本人后来表示不记得此事

命名选择本身就是战略。（→ naming-shapes-thinking）

Claude 的命名¶

Anthropic 官方从未正式宣布，但几乎是公开的秘密：Claude（AI）的名字来自 Claude Shannon。Anthropic 用这个名字提醒：LLM 看起来在"说话"，底层是信息和概率的严谨科学。Shannon 的"跨界怪才"气质——在信息论、密码学、博弈论、杂耍之间自由穿梭——与 Claude 的人格设计暗暗呼应。

因果链：没有 Shannon 的那篇论文 → 没有数字通信 → 没有互联网 → 没有 GPU 里跑的神经网络 → 没有大语言模型 → 没有 Claude。

历史地位¶

Shannon 的论文是极少数以几乎完整的形式一次性建立整个学科的作品。他在一篇论文中定义了信息的度量（熵）、传输的极限（信道容量）、压缩的极限（信源编码定理）和可靠传输的条件（信道编码定理）。后续数十年的研究主要是在他划定的边界内填充具体构造。

Shannon 晚年患阿尔茨海默症，2001 年去世。那一年 AI 是多数人没听过的词。深度学习要再等 11 年（2012 AlexNet → deep-learning-history），Anthropic 要再等 20 年才创立。

定义¶