🏠 home › concepts › information-theory
tags
[信息论, 通信, 数学, 基础理论]
created
2026-04-14
updated
2026-04-14
sources
[raw/notes/shannon-mathematical-theory-communication-1948.md, raw/notes/shannon-and-claude-agihunt-2026.md]

定义

Claude Shannon 于 1948 年在《A Mathematical Theory of Communication》中创立的数学理论。核心洞见:通信的语义与工程问题无关——信息可以被抽象为概率事件的集合,由此建立了度量、压缩和可靠传输信息的完整数学框架。

"The fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point."

Scientific American 称其为"信息时代的大宪章"。

通信系统五要素模型

信息源 → 发射器 →【信道 + 噪声】→ 接收器 → 目的地
组件 功能 现代对应
信息源 产生消息 用户语音、文本、传感器数据
发射器 编码为信号 语音编解码器(Opus)、调制器
信道 信号传播媒介 Wi-Fi、4G/5G、蓝牙、光纤
接收器 解码还原消息 ASR、解调器、解码器
目的地 最终接收者 用户、LLM、IoT 设备

这个模型的威力在于普适性:无论传输的是人类语音、设备信令还是 LLM token,都遵循相同的数学规律。

三大核心概念

1. 信息熵 H

→ 详见 shannon-entropy

信源不确定性的度量:H(X) = −Σ p(xᵢ) log₂ p(xᵢ)。熵决定了压缩的理论极限。

2. 互信息 I(X;Y)

I(X;Y) = H(X) − H(X|Y)

接收信号 Y 对发送消息 X 提供的信息量。衡量信道传递信息的有效程度。当 I(X;Y) = 0 时,信道完全无用(输出与输入独立)。

3. 信道容量 C

C = max_{p(x)} I(X;Y)

在所有可能的输入分布上,互信息的最大值。对于带宽 B、信噪比 S/N 的高斯信道:

C = B log₂(1 + S/N)(Shannon-Hartley 定理)

两种工作区间: - 带宽受限(高 SNR):加带宽比加功率有效 - 功率受限(低 SNR):加功率比加带宽有效

两大编码定理

信源编码定理(压缩的极限)

信源熵 H 是无损压缩的理论下界。平均每符号不可能压缩到少于 H 比特。

意义:ZIP、PNG、FLAC、Opus 等压缩格式都在逼近这个极限。Shannon-Fano 编码(1948)→ Huffman 编码(1952)→ 算术编码 → ANS,一步步逼近理论边界。

有噪信道编码定理(可靠传输的极限)

只要传输速率 R < C,就存在编码方案使误差概率任意小。R > C 则不可能可靠传输。

意义:这是一个存在性证明——Shannon 证明了好的编码存在,但没给出构造。此后 50 年的编码理论(Hamming → BCH → Reed-Solomon → Turbo → LDPC → Polar)都是在逼近这个极限。Turbo 码(1993)和 LDPC 码首次在实践中接近 Shannon 极限。

核心关系:H < C

只要信源熵小于信道容量,无差错通信理论上可行。 信源编码压掉冗余,信道编码加回受控冗余以抗噪声。两步分离是最优的(分离定理)。

冗余度

R = 1 − H/H_max

英语的冗余度约 50%——一半的字符是可预测的。这个发现开启了自然语言的统计建模,n-gram 模型和现代 LLM 的概率语言模型都可以追溯到此。

与现代技术的连接

语音 IoT(→ sentino-iot

LLM 与 AI

密码学

Shannon 同时期发表的《Communication Theory of Secrecy Systems》(1949)将信息论引入密码学。一次性密码本的安全性 = 密钥熵 ≥ 消息熵。

Shannon 其人

Claude Elwood Shannon(1916–2001),1948 年发表论文时 32 岁。在贝尔实验室工作多年,后任 MIT 教授。

"严肃的玩耍"

Shannon 不是"为了改变世界"的人——他做一切只因为好玩:

妻子 Betty Shannon 是数学家,在贝尔实验室做过微波研究。Theseus 的实际接线工作由她完成。

Bandwagon 警告(1956)

论文发表后信息论被套用到经济学、生物学、语言学、心理学……Shannon 本人不以为然,1956 年写了短文《The Bandwagon》:

"We must keep our own house in first class order. The subject of information theory has certainly been sold, if not oversold." (我们必须先把自己的家打扫干净。信息论这门学科确实已经被推销出去了——如果不是过度推销的话。)

此后 Shannon 大幅减少正式发表(并非完全停止,但产出显著下降)。这个警告在 AI 时代依然有效——每当一个概念(Agent、RAG、信息论……)成功后,"花车效应"总会让它被过度泛化。

命名的力量

命名选择本身就是战略。(→ naming-shapes-thinking

Claude 的命名

Anthropic 官方从未正式宣布,但几乎是公开的秘密:Claude(AI)的名字来自 Claude Shannon。Anthropic 用这个名字提醒:LLM 看起来在"说话",底层是信息和概率的严谨科学。Shannon 的"跨界怪才"气质——在信息论、密码学、博弈论、杂耍之间自由穿梭——与 Claude 的人格设计暗暗呼应。

因果链:没有 Shannon 的那篇论文 → 没有数字通信 → 没有互联网 → 没有 GPU 里跑的神经网络 → 没有大语言模型 → 没有 Claude。

历史地位

Shannon 的论文是极少数以几乎完整的形式一次性建立整个学科的作品。他在一篇论文中定义了信息的度量(熵)、传输的极限(信道容量)、压缩的极限(信源编码定理)和可靠传输的条件(信道编码定理)。后续数十年的研究主要是在他划定的边界内填充具体构造。

Shannon 晚年患阿尔茨海默症,2001 年去世。那一年 AI 是多数人没听过的词。深度学习要再等 11 年(2012 AlexNet → deep-learning-history),Anthropic 要再等 20 年才创立。

相关概念