概率与统计

学习目标

理解概率论的基本概念，包括概率定义、条件概率和贝叶斯定理
掌握随机变量的概念，理解离散和连续随机变量的区别
熟悉常见概率分布及其在机器学习中的应用
理解期望、方差等统计量的含义，掌握大数定律和中心极限定理

引言

概率论（Probability Theory）与统计学（Statistics）是人工智能和机器学习的另一核心数学基础。与线性代数不同，概率论处理的是不确定性（Uncertainty）和随机性（Stochasticity）的世界。

在现实世界中，我们面临的问题往往充满不确定性：传感器读数有噪声、天气预测有随机性、用户的点击行为难以精确预测等。概率论提供了一套严格的数学框架来描述和推理不确定性，而统计学则提供了从数据中学习不确定模型的方法。

在机器学习中，概率论的应用无处不在：

模型假设：许多机器学习模型隐含地或显式地使用概率分布来建模数据。例如，朴素贝叶斯分类器基于贝叶斯定理，高斯混合模型假设数据来自多个高斯分布。
不确定性量化：深度学习中的_dropout_技术可以解释为贝叶斯近似，模型的预测置信度需要通过概率来解释。
优化目标：交叉熵（Cross-Entropy）等损失函数直接来源于概率论，最大似然估计（Maximum Likelihood Estimation）是模型参数学习的基本原则。
正则化：贝叶斯方法提供了一种自然的正则化机制，通过先验分布来约束模型参数。

本章将系统地介绍概率论和统计学的基础知识，从概率的定义开始，逐步深入到随机变量、常见分布，再到统计推断的核心概念。

1 概率基础

1.1 概率的定义

概率（Probability） 是描述某事件发生可能性大小的数值。在给出概率的严格数学定义之前，我们先介绍一些基本概念。

随机试验（Random Experiment） 是指在相同条件下可以重复进行，但结果无法准确预测的试验。例如，抛掷一枚硬币、掷一颗骰子、观察明天的天气等都是随机试验。

样本空间（Sample Space） 是随机试验所有可能结果的集合，记作 Ω。例如：

抛掷一枚硬币的样本空间：Ω = {正面, 反面} 或 Ω = {0, 1}
掷一颗六面骰子的样本空间：Ω = {1, 2, 3, 4, 5, 6}
连续观察某股票价格，样本空间是所有可能的价格序列

事件（Event） 是样本空间的子集。事件可以是单一结果，也可以是多个结果的集合。例如，"掷出偶数点数"是事件 {2, 4, 6}。

1.1.1 概率的公理化定义

现代概率论建立在严格的公理体系之上。1933 年，苏联数学家科尔莫戈罗夫（Andrey Kolmogorov）提出了概率论的公理化定义，至今仍是概率论的基础。

设 Ω 是某随机试验的样本空间，F 是由 Ω 的某些子集构成的集合（事件域），P 是定义在 F 上的函数。如果 P 满足以下三个公理（Kolmogorov 公理），则称 P 为概率测度，简称概率：

公理 1（非负性）：对于任意事件 A，有 P(A) ≥ 0

公理 2（规范性）：P(Ω) = 1，即样本空间的概率为 1

公理 3（可列可加性）：对于两两互不相容的事件序列 A₁, A₂, ..., （即当 i ≠ j 时，Ai ∩ Aj = ∅），有：

\[P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)\]

这三个公理看似简单，但它们构成了整个概率论的逻辑基础。从这三个公理出发，可以推导出概率论的许多重要性质，例如：

P(∅) = 0（空事件的概率为零）
P(A) ≤ 1（任何事件的概率不超过 1）
P(Ā) = 1 - P(A)（补事件的概率）
如果 A ⊂ B，则 P(A) ≤ P(B)（包含关系下概率的单调性）
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)（容斥公式）

1.1.2 概率的频率解释与主观解释

关于"概率是什么"这个问题，有两种主要的哲学立场：

频率解释（Frequentist Interpretation）：概率是长期重复试验中事件发生的频率。例如，如果我们说抛掷硬币正面朝上的概率是 0.5，这意味着如果我们重复抛掷该硬币无限次，正面朝上的比例将趋近于 0.5。这种解释强调概率的客观性和可重复性。

主观解释（Bayesian Interpretation）或贝叶斯解释：概率是对事件发生相信程度的度量，代表主观的置信度。例如，"明天有 70% 的概率下雨"可以理解为对明天会下雨这件事有 70% 的相信程度。这种解释承认概率可以应用于单次事件，并且可以随着新证据的出现而更新。

在机器学习中，这两种观点都有其应用场景。频率学派更关注客观的统计性质，常用方法如最大似然估计；贝叶斯学派将概率作为知识状态的表示，通过贝叶斯定理来更新信念。在现代机器学习中，两种方法正在逐步融合。

1.2 条件概率

1.2.1 条件概率的定义

条件概率（Conditional Probability） 是在已知某些信息（事件 B 已发生）的条件下，事件 A 发生的概率，记作 P(A|B)，读作"在 B 发生的条件下 A 发生的概率"。

条件概率的定义公式为：

\[P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{前提是 } P(B) > 0\]

这个公式的直观理解是：当我们已经知道 B 发生时，样本空间缩小为 B，原来的 A ∩ B 成为新的"成功"事件。因此，在 B 发生的条件下 A 发生的概率等于 A 和 B 同时发生的概率除以 B 发生的概率（这是新的"单位 1"）。

示例：考虑掷两颗骰子的试验。设事件 A = "两颗骰子点数之和为 8"，事件 B = "第一颗骰子点数为 4"。

P(A) = 5/36（36 种等可能结果中，有 (2,6), (3,5), (4,4), (5,3), (6,2) 五种情况）
P(B) = 1/6（第一颗骰子有 6 种等可能结果，每种出现概率相同）
A ∩ B = {(4, 4)}，只有一种情况，P(A ∩ B) = 1/36

因此，P(A|B) = P(A ∩ B)/P(B) = (1/36)/(1/6) = 1/6 = 6/36。

这个结果符合直接计算：在第一颗骰子已知为 4 的情况下，要使两颗骰子之和为 8，第二颗骰子必须为 4，概率为 1/6。

1.2.2 乘法公式

从条件概率的定义可以直接得到乘法公式（Multiplication Rule）：

\[P(A \cap B) = P(A|B) P(B) = P(B|A) P(A)\]

更一般地，对于 n 个事件 A₁, A₂, ..., Aₙ，有：

\[P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1) P(A_2|A_1) P(A_3|A_1 \cap A_2) \cdots P(A_n|A_1 \cap \cdots \cap A_{n-1})\]

乘法公式在计算多个事件同时发生的概率时非常有用，尤其是当这些事件有依赖关系时。

1.2.3 全概率公式

全概率公式（Law of Total Probability） 是概率论中另一个重要工具，它将一个事件的概率分解为若干互不相容的情况的概率加权和。

设事件 B₁, B₂, ..., Bₙ是样本空间 Ω 的一个划分（Partition），即满足：

\(B_i \cap B_j = \emptyset\)（两两互不相容）
\(\bigcup_{i=1}^{n} B_i = \Omega\)（覆盖整个样本空间）
\(P(B_i) > 0\)（每个部分概率为正）

则在一般情况下，对于任意事件 A，有：

\[P(A) = \sum_{i=1}^{n} P(A|B_i) P(B_i)\]

全概率公式的直观理解是：A 可能在各种不同的"情形"Bᵢ 下发生，而情形 Bᵢ 发生的概率是 P(Bᵢ)，在情形 Bᵢ 下 A 发生的条件概率是 P(A|Bᵢ)，因此 A 的总概率是这些可能情形的加权平均。

1.3 贝叶斯定理

1.3.1 贝叶斯定理的定义

贝叶斯定理（Bayes' Theorem） 是概率论中最重要和最有影响力的公式之一，它描述了如何根据新的证据来更新概率判断。

贝叶斯定理的公式为：

\[P(B_i|A) = \frac{P(A|B_i) P(B_i)}{P(A)} = \frac{P(A|B_i) P(B_i)}{\sum_{j=1}^{n} P(A|B_j) P(B_j)}\]

其中：

\(P(B_i)\) 称为先验概率（Prior Probability），是在观察到证据 A 之前对 Bᵢ 的概率判断
\(P(B_i|A)\) 称为后验概率（Posterior Probability），是在观察到证据 A 之后对 Bᵢ 的更新概率
\(P(A|B_i)\) 称为似然（Likelihood），是在假设 Bᵢ 成立的条件下观察到证据 A 的概率
\(P(A)\) 是证据的边缘概率，起归一化常数的作用

贝叶斯定理的本质是：后验概率 ∝ 似然 × 先验。它告诉我们如何将先验知识（先验概率）与新观察到的数据证据（似然）结合起来，得到更新后的知识状态（后验概率）。

1.3.2 贝叶斯定理的直观解释

让我们通过一个经典例子来理解贝叶斯定理：疾病检测。

假设有一种疾病，发病率为 1%（即人群中随机一人患有该疾病的概率是 0.01）。有一种检测方法可以检测该疾病：

如果一个人确实患有该疾病，检测结果呈阳性的概率为 99%（灵敏度）
如果一个人没有患有该疾病，检测结果呈阴性的概率为 99%（特异度，即正确拒绝率）

现在的问题是：如果一个人检测结果呈阳性，他真正患有该疾病的概率是多少？

让我们定义事件：

D：患有该疾病
\(\bar{D}\)：不患有该疾病
+：检测结果呈阳性
-：检测结果呈阴性

已知：

P(D) = 0.01（发病率，即先验概率）
P(+|D) = 0.99（灵敏度）
P(-|\(\bar{D}\)) = 0.99（特异度）
P(+|\(\bar{D}\)) = 0.01（假阳性率）

要求 P(D|+)，即检测阳性时真正患病的概率。

由贝叶斯定理：

\[P(D|+) = \frac{P(+|D) P(D)}{P(+)} = \frac{P(+|D) P(D)}{P(+|D)P(D) + P(+|\bar{D})P(\bar{D})}\]

代入数值：

\[P(D|+) = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.01 \times 0.99} = \frac{0.0099}{0.0099 + 0.0099} = \frac{0.0099}{0.0198} = 0.5\]

令人惊讶的是，即使检测方法的灵敏度和特异度都高达 99%，但当检测结果呈阳性时，真正患病的概率只有 50%！这是因为疾病本身很罕见（发病率只有 1%），假阳性（在不患病的人中约有 1% 检测呈阳性）与真阳性（在患者中约有 99% 检测呈阳性）的数量相当。

这个例子说明了一个重要的教训：在评估检测结果时，必须考虑疾病的基率（base rate）。仅仅知道检测的灵敏度和特异度是不够的，我们还需要知道疾病的流行程度。这正是贝叶斯定理所教导我们的。

1.3.3 贝叶斯定理在机器学习中的应用

贝叶斯定理在机器学习中有着广泛而深刻的应用：

朴素贝叶斯分类器（Naive Bayes Classifier）：这是贝叶斯定理最直接的应用之一。给定输入特征 x 和类别标签 y，朴素贝叶斯分类器通过最大化后验概率来进行分类：

\[\hat{y} = \arg\max_y P(y|x) = \arg\max_y \frac{P(x|y) P(y)}{P(x)} \propto \arg\max_y P(x|y) P(y)\]

"朴素"之处在于假设给定类别标签后，各特征之间相互条件独立，即 \(P(x|y) = \prod_{i} P(x_i|y)\)。尽管这个假设在实际中往往不成立，但朴素贝叶斯分类器在许多实际问题中表现良好，并且具有计算效率高、不容易过拟合等优点。

贝叶斯优化（Bayesian Optimization）：在超参数调优中，贝叶斯优化使用贝叶斯定理来构建目标函数的后验分布，并据此选择下一个评估点。它在评估目标函数代价高昂的场景（如神经网络超参数调优）中特别有效。

贝叶斯神经网络（Bayesian Neural Networks）：传统的神经网络学习一个点估计（point estimate），而贝叶斯神经网络学习权重的分布。通过对权重分布进行贝叶斯推断，我们可以得到预测的不确定性估计，这对于模型校准、主动学习等任务非常有价值。

概率图模型（Probabilistic Graphical Models）：贝叶斯网络、马尔可夫随机场等概率图模型使用图结构来表示变量之间的条件独立性关系，并通过贝叶斯推断进行推理和学习。

2 随机变量

2.1 随机变量的概念

随机变量（Random Variable） 是从随机试验的样本空间到实数的函数。随机变量将随机试验的结果数量化，使得我们可以用实数分析和处理随机现象。

随机变量通常用大写字母表示，如 X、Y、Z。它的取值用小写字母表示，如 x、y、z。

示例：

抛掷一枚硬币，定义随机变量 X = 1 表示正面，X = 0 表示反面
掷骰子，随机变量 X 表示出现的点数
观察某网站一天内的访问量，随机变量 X 可以是任意非负整数

根据取值类型的不同，随机变量分为离散随机变量（Discrete Random Variable） 和连续随机变量（Continuous Random Variable） 两大类。

2.2 离散随机变量

离散随机变量 的取值是可数的（有限或无限可数）。例如掷骰子的点数、网站的访问量等。

2.2.1 概率质量函数（PMF）

对于离散随机变量 X，概率质量函数（Probability Mass Function，PMF） 定义为：

\[p_X(x) = P(X = x)\]

即随机变量 X 取值为 x 的概率。

PMF 必须满足以下条件：

\(p_X(x) \geq 0\)（非负性）
\(\sum_{x} p_X(x) = 1\)（归一性）

2.2.2 累积分布函数（CDF）

累积分布函数（Cumulative Distribution Function，CDF） 定义为：

\[F_X(x) = P(X \leq x)\]

对于离散随机变量，CDF 是阶梯函数，在每个可能的取值点跳跃，跳跃的高度等于该点的概率质量。

2.3 连续随机变量

连续随机变量 的取值是连续的，通常是某个区间内的所有实数。例如人的身高、测量误差、股票价格等。

2.3.1 概率密度函数（PDF）

对于连续随机变量 X，概率密度函数（Probability Density Function，PDF） f_X(x) 满足：

\[P(a \leq X \leq b) = \int_a^b f_X(x) \, dx\]

需要特别注意连续随机变量的概率计算：对于连续随机变量，单个点的概率为零，即 \(P(X = x) = 0\)。因此，在计算概率时，区间端点的开闭不影响结果：\(P(a \leq X \leq b) = P(a < X < b) = P(a \leq X < b) = P(a < X \leq b)\)。

PDF 必须满足以下条件：

\(f_X(x) \geq 0\)（非负性）
\(\int_{-\infty}^{+\infty} f_X(x) \, dx = 1\)（归一性）

2.3.2 累积分布函数（CDF）

对于连续随机变量，CDF 定义与离散情况相同：

\[F_X(x) = P(X \leq x) = \int_{-\infty}^{x} f_X(t) \, dt\]

并且有 \(f_X(x) = \frac{dF_X(x)}{dx}\)（在 F_X 可导的点）。

2.4 常见离散分布

2.4.1 伯努利分布

伯努利分布（Bernoulli Distribution） 是最简单的离散分布，描述单次只有两种结果（成功/失败）的随机试验。

设随机变量 X ~ Bernoulli(p)，其中 p 是成功概率（0 ≤ p ≤ 1），则：

PMF：\(P(X = 1) = p\)，\(P(X = 0) = 1 - p\)
期望：\(E[X] = p\)
方差：\(\text{Var}(X) = p(1-p)\)

伯努利分布在机器学习中用于建模二元分类问题。例如，在逻辑回归中，假设给定输入 x，标签 y 服从伯努利分布。

2.4.2 二项分布

二项分布（Binomial Distribution） 描述 n 次独立伯努利试验中成功的次数。

设随机变量 X ~ Binomial(n, p)，则：

PMF：\(P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}\)，其中 k = 0, 1, 2, ..., n
期望：\(E[X] = np\)
方差：\(\text{Var}(X) = np(1-p)\)

二项分布在统计分析、质量控制、遗传学等领域有广泛应用。在机器学习中，它可用于建模多个独立二元决策的聚合结果。

2.4.3 泊松分布

泊松分布（Poisson Distribution） 描述单位时间内随机事件发生的次数，常用于建模稀有事件。

设随机变量 X ~ Poisson(λ)，其中 λ > 0 是单位时间内事件发生的平均次数（也称为率参数），则：

PMF：\(P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}\)，其中 k = 0, 1, 2, ...
期望：\(E[X] = \lambda\)
方差：\(\text{Var}(X) = \lambda\)

泊松分布的特点是均值等于方差。这个分布在网络流量分析、生物学（基因突变计数）、金融（保险索赔次数）等领域有广泛应用。

2.5 常见连续分布

2.5.1 均匀分布

均匀分布（Uniform Distribution） 是最简单的连续分布，在区间 [a, b] 上概率密度均匀。

设随机变量 X ~ U(a, b)，则：

PDF：\(f(x) = \frac{1}{b-a}\)，当 a ≤ x ≤ b；否则 f(x) = 0
CDF：\(F(x) = 0\)（当 x < a），\(F(x) = \frac{x-a}{b-a}\)（当 a ≤ x ≤ b），\(F(x) = 1\)（当 x > b）
期望：\(E[X] = \frac{a+b}{2}\)
方差：\(\text{Var}(X) = \frac{(b-a)^2}{12}\)

均匀分布在随机数生成、采样方法（如逆变换采样）和初始化策略中扮演重要角色。

2.5.2 正态分布（高斯分布）

正态分布（Normal Distribution），也称高斯分布（Gaussian Distribution），是概率论和统计学中最重要的分布。

设随机变量 X ~ N(μ, σ²)，其中 μ 是均值，σ² 是方差，则：

PDF：\(f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
期望：\(E[X] = μ\)
方差：\(\text{Var}(X) = σ²\)

标准正态分布是 μ = 0，σ² = 1 的正态分布，记作 Z ~ N(0, 1)，其 PDF 为：

\[\phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}\]

标准正态分布的 CDF 通常记作 Φ(z)。

正态分布的重要性源于中心极限定理（将在后面讨论），该定理表明大量独立随机变量的和近似服从正态分布。正态分布在自然科学和社会科学的各个领域有广泛应用，在机器学习中更是无处不在：神经网络的权重初始化、梯度下降的噪声、测量误差等都常被假设为正态分布。

2.5.3 指数分布

指数分布（Exponential Distribution） 描述独立随机事件发生的时间间隔。

设随机变量 X ~ Exp(λ)，其中 λ > 0 是率参数，则：

PDF：\(f(x) = \lambda e^{-\lambda x}\)，当 x ≥ 0；否则 f(x) = 0
CDF：\(F(x) = 1 - e^{-\lambda x}\)，当 x ≥ 0
期望：\(E[X] = \frac{1}{\lambda}\)
方差：\(\text{Var}(X) = \frac{1}{\lambda^2}\)

指数分布具有无记忆性（Memoryless Property）：对于任意 s, t ≥ 0，有 \(P(X > s + t | X > s) = P(X > t)\)。这意味着如果已知事件已经发生时间 s，再等待时间 t 的概率与从头等待时间 t 的概率相同。

指数分布在可靠性工程、排队论、生存分析等领域有广泛应用。在机器学习中，指数分布可用于建模寿命数据、间隔时间等。

2.5.4 拉普拉斯分布

拉普拉斯分布（Laplace Distribution） 与正态分布相似，但尾部更重（使用绝对值而非平方）。

设随机变量 X ~ Laplace(μ, b)，其中 μ 是位置参数，b > 0 是尺度参数，则：

PDF：\(f(x) = \frac{1}{2b} \exp\left(-\frac{|x - \mu|}{b}\right)\)
期望：\(E[X] = μ\)
方差：\(\text{Var}(X) = 2b^2\)

拉普拉斯分布在信号处理、图像处理（用于去噪）和机器学习（作为拉普拉斯先验用于稀疏估计）中有所应用。

2.6 分布的混合

现实世界中的数据往往来自多个分布的混合。例如，一个包含多个类别数据的数据集可以建模为混合分布。

高斯混合模型（Gaussian Mixture Model，GMM） 是最常用的混合模型，假设数据来自 K 个高斯分布的混合：

\[P(x) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x | \mu_k, \Sigma_k)\]

其中 π_k 是混合系数（满足 π_k ≥ 0，Σπ_k = 1），N(x|μ_k, Σ_k) 是第 k 个高斯分量的概率密度。

GMM 在聚类、密度估计、生成模型等任务中有广泛应用。GMM 的参数通常通过 EM 算法（Expectation-Maximization）来学习。

3 统计基础

3.1 期望

3.1.1 期望的定义

期望（Expectation） 或数学期望是随机变量最基本的数字特征之一，描述了随机变量的"平均水平"或"中心位置"。

对于离散随机变量 X，其 PMF 为 p_X(x)，则期望定义为：

\[E[X] = \sum_{x} x \cdot p_X(x)\]

对于连续随机变量 X，其 PDF 为 f_X(x)，则期望定义为：

\[E[X] = \int_{-\infty}^{+\infty} x \cdot f_X(x) \, dx\]

期望存在的前提是上述求和或积分绝对收敛。

3.1.2 期望的性质

期望具有以下重要性质：

线性性：\(E[aX + bY] = aE[X] + bE[Y]\)（对任意随机变量 X、Y 和常数 a、b 成立，不要求 X、Y 独立）
常数的期望是常数本身：\(E[c] = c\)
乘积的期望（独立情况）：如果 X 和 Y 独立，则 \(E[XY] = E[X]E[Y]\)
单调性：如果 \(X \leq Y\)（逐点成立），则 \(E[X] \leq E[Y]\)

3.1.3 条件期望

条件期望（Conditional Expectation） 是在给定某条件下随机变量的期望。

离散情况：\(E[X|Y = y] = \sum_{x} x \cdot P(X = x|Y = y)\)
连续情况：\(E[X|Y = y] = \int_{-\infty}^{+\infty} x \cdot f_{X|Y}(x|y) \, dx\)

条件期望 \(E[X|Y]\) 可以看作 Y 的函数，因此本身是一个随机变量。这个随机变量的期望等于 X 的无条件期望：\(E[E[X|Y]] = E[X]\)。这称为迭代期望定律（Law of Iterated Expectations），在推导许多统计量时非常有用。

3.2 方差

3.2.1 方差的定义

方差（Variance） 描述随机变量取值与其期望的偏离程度，是随机变量最重要的散布度量之一。

随机变量 X 的方差定义为：

\[\text{Var}(X) = E[(X - E[X])^2]\]

方差的非负平方根 \(\sqrt{\text{Var}(X)}\) 称为标准差（Standard Deviation），记作 σ。

由定义可以直接推导方差的计算公式：

\[\text{Var}(X) = E[X^2] - (E[X])^2\]

这个公式在计算方差时更常用，因为它避免了在公式中显式写出期望。

3.2.2 方差的性质

方差具有以下性质：

常数的方差为零：\(\text{Var}(c) = 0\)
标量乘法：\(\text{Var}(aX) = a^2 \text{Var}(X)\)
加法（独立情况）：如果 X 和 Y 独立，则 \(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)\)
一般情况的加法公式：\(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y)\)，其中协方差 Cov 衡量两个随机变量的共同变化趋势

3.2.3 常见分布的期望与方差

分布	参数	期望	方差
伯努利分布	p	p	p(1-p)
二项分布	n, p	np	np(1-p)
泊松分布	λ	λ	λ
均匀分布	a, b	(a+b)/2	(b-a)²/12
正态分布	μ, σ²	μ	σ²
指数分布	λ	1/λ	1/λ²
拉普拉斯分布	μ, b	μ	2b²

3.3 协方差与相关系数

3.3.1 协方差的定义

协方差（Covariance） 衡量两个随机变量共同变化的趋势：

\[\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]\]

当 Cov(X, Y) > 0 时，X 和 Y 有同时偏离其期望的趋势（正相关）；当 Cov(X, Y) < 0 时，X 和 Y 有向相反方向偏离的趋势（负相关）；当 Cov(X, Y) = 0 时，称 X 和 Y 不相关。

需要注意的是，不相关只是说明两个随机变量没有线性相关性，它们之间仍可能有非线性关系。

3.3.2 相关系数

相关系数（Correlation Coefficient） 或皮尔逊相关系数是对协方差的标准化，消除了量纲影响：

\[\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)}\sqrt{\text{Var}(Y)}} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}\]

相关系数满足 \(-1 \leq \rho_{XY} \leq 1\)。当 \(|\rho_{XY}| = 1\) 时，X 和 Y 有完全的线性关系；当 \(\rho_{XY} = 0\) 时，X 和 Y 不相关。

3.4 大数定律

3.4.1 大数定律的表述

大数定律（Law of Large Numbers，LLN） 是概率论中最重要的定理之一，它描述了随着样本数量的增加，样本均值收敛于期望值的现象。

弱大数定律（Weak Law of Large Numbers）：设 X₁, X₂, ..., Xₙ 是独立同分布的随机变量，\(E[X_i] = \mu\)，\(\text{Var}(X_i) = \sigma^2\) 有限，则对于任意 ε > 0，有：

\[\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^{n} X_i - \mu\right| < \epsilon\right) = 1\]

也就是说，当样本数量 n 趋于无穷时，样本均值 \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^{n} X_i\) 依概率收敛于期望 μ。

强大数定律（Strong Law of Large Numbers）：在相同条件下，样本均值几乎必然（almost surely）收敛于期望值，即：

\[P\left(\lim_{n \to \infty} \bar{X}_n = \mu\right) = 1\]

强大数定律比弱大数定律更强，它表明样本均值不仅依概率收敛，而且以概率 1 收敛（几乎必然收敛）。

3.4.2 大数定律的意义

大数定律有着深刻的理论和实践意义：

频率解释的理论基础：大数定律为概率的频率解释提供了数学支持。当我们说某事件发生的概率是 p 时，大数定律告诉我们，如果独立重复试验 n 次，事件发生的频率将趋近于 p。
蒙特卡洛方法的基础：大数定律是蒙特卡洛方法（Monte Carlo Method）的理论依据。蒙特卡洛方法通过大量随机采样来估计复杂系统的期望值，例如用随机采样来计算积分、估计π值等。根据大数定律，样本均值将趋近于真实期望。
机器学习中的意义：在机器学习中，训练数据上的损失函数值通常被用作真实风险的估计。大数定律保证了当训练样本量足够大时，训练损失将趋近于期望损失，这为经验风险最小化提供了理论支持。

3.5 中心极限定理

3.5.1 中心极限定理的表述

中心极限定理（Central Limit Theorem，CLT） 是概率论中最令人惊叹的结果之一，它表明大量独立随机变量的和趋向于正态分布，无论这些随机变量原本是什么分布。

中心极限定理：设 X₁, X₂, ..., Xₙ是独立同分布的随机变量，\(E[X_i] = \mu\)，\(\text{Var}(X_i) = \sigma^2\) 有限（σ² > 0）。令 \(S_n = \sum_{i=1}^{n} X_i\)，则：

\[\lim_{n \to \infty} P\left(\frac{S_n - n\mu}{\sigma\sqrt{n}} \leq x\right) = \Phi(x)\]

其中 Φ(x) 是标准正态分布的累积分布函数。

换句话说，标准化后的和 \(\frac{S_n - n\mu}{\sigma\sqrt{n}}\) 收敛于标准正态分布 N(0, 1)。

3.5.2 中心极限定理的意义

中心极限定理的意义深远：

正态分布的普适性：中心极限定理解释了为什么正态分布在自然界如此常见。任何受大量微小、独立的随机因素影响的现象，无论每个因素本身是什么分布，其整体表现都将趋近于正态分布。人的身高、测量误差、考试成绩等都近似服从正态分布。
统计推断的基础：中心极限定理为许多统计推断方法（如置信区间、假设检验）提供了理论依据。即使总体分布未知，只要样本量足够大，样本均值近似正态分布，我们可以据此进行推断。
机器学习中的应用：在深度学习中，梯度下降的随机扰动、权重的初始化等经常假设为正态分布。中心极限定理为这些假设提供了一定程度的合理性支持。

3.5.3 大数定律与中心极限定理的比较

大数定律和中心极限定理都描述了大量随机变量和的性质，但侧重点不同：

大数定律 告诉我们和的均值（除以 n）收敛于期望值，即 \(\bar{X}_n \to \mu\)
中心极限定理 告诉我们和的标准化量 \(\frac{S_n - n\mu}{\sigma\sqrt{n}}\) 收敛于标准正态分布

两者并不矛盾：大数定律描述了收敛的目标（μ），中心极限定理描述了收敛的速度和分布（误差以 \(1/\sqrt{n}\) 的速度围绕 μ 分布，渐近正态）。

3.6 统计在机器学习中的应用

3.6.1 最大似然估计

最大似然估计（Maximum Likelihood Estimation，MLE） 是统计学中最基本的参数估计方法之一。

给定观测数据 \(D = \{x_1, x_2, ..., x_n\}\) 和参数化模型 \(P(x|\theta)\)，似然函数定义为：

\[\mathcal{L}(\theta; D) = P(D|\theta) = \prod_{i=1}^{n} P(x_i|\theta)\]

最大似然估计选择使似然函数最大化的参数值：

\[\hat{\theta}_{MLE} = \arg\max_\theta \mathcal{L}(\theta; D) = \arg\max_\theta \sum_{i=1}^{n} \log P(x_i|\theta)\]

在机器学习中，许多模型的学习可以归结为最大似然估计：逻辑回归、线性回归（高斯噪声假设）、神经网络等都可以通过最大化似然来训练。

3.6.2 偏差-方差分解

在机器学习中，预测误差可以分解为偏差、方差和不可约误差三部分。

设真实函数为 f(x)，模型在输入 x 上的预测为 \(\hat{f}(x)\)，则均方误差可分解为：

\[E[(y - \hat{f}(x))^2] = \text{Bias}^2[\hat{f}(x)] + \text{Var}[\hat{f}(x)] + \sigma^2\]

其中：

偏差（Bias）：\(\text{Bias}[\hat{f}(x)] = E[\hat{f}(x)] - f(x)\)，度量了模型预测值的平均值与真实值的偏离
方差（Variance）：\(\text{Var}[\hat{f}(x)] = E[(\hat{f}(x) - E[\hat{f}(x)])^2]\)，度量了模型预测值的变化范围
不可约误差（Irreducible Error）：\(\sigma^2\)，由标签的固有噪声引起，无法通过改进模型来消除

偏差-方差分解帮助我们理解模型复杂度的选择：简单模型（如线性回归）通常偏差高、方差低，容易欠拟合；复杂模型（如高阶多项式、深度神经网络）通常偏差低、方差高，容易过拟合。

3.6.3 贝叶斯统计与正则化

贝叶斯统计提供了一种不同于频率学派的方法来估计参数和量化不确定性。

在贝叶斯框架下，我们不仅估计一个参数值，而是估计参数的完整后验分布：

\[P(\theta|D) = \frac{P(D|\theta) P(\theta)}{P(D)}\]

其中 \(P(\theta)\) 是先验分布，\(P(D|\theta)\) 是似然，\(P(\theta|D)\) 是后验分布。

贝叶斯方法自然地提供了不确定性量化，并且在先验分布的选择中隐含了正则化。例如，在贝叶斯线性回归中，如果选择方差较大的先验（如球形高斯先验），后验分布会倾向于较大的权重；如果选择方差较小的先验，后验分布会倾向于较小的权重，从而实现正则化的效果。

在深度学习中，Dropout 可以被解释为贝叶斯神经网络的近似。通过在训练时随机丢弃神经元，Dropout 实际上是在对大量的子网络进行集成，并在推理时对预测进行边缘化。

本章小结

本章系统介绍了概率论与统计学的基础知识，这些知识是理解机器学习算法的另一核心数学基础。

在概率基础部分，我们学习了概率的公理化定义，了解了条件概率的概念和计算方法，并深入探讨了贝叶斯定理。贝叶斯定理是连接先验知识与新证据的桥梁，在机器学习的许多算法（如朴素贝叶斯分类器、贝叶斯优化等）中都有核心应用。

随机变量部分介绍了离散和连续随机变量的概念，以及概率质量函数和概率密度函数。我们详细讨论了几种常见的概率分布：离散分布包括伯努利分布、二项分布和泊松分布；连续分布包括均匀分布、正态分布（高斯分布）、指数分布和拉普拉斯分布。这些分布在机器学习建模中有广泛应用。

统计基础部分介绍了期望和方差的定义与性质，以及协方差和相关系数。我们重点讨论了大数定律和中心极限定理：前者保证了样本均值收敛于期望值，为蒙特卡洛方法和经验风险最小化提供了理论基础；后者表明大量独立随机变量的和趋向于正态分布，解释了正态分布的普适性，并为统计推断提供了依据。

最后，我们简要介绍了统计在机器学习中的应用，包括最大似然估计、偏差-方差分解和贝叶斯统计方法。这些内容为理解后续章节的机器学习算法奠定了基础。

概率论与统计学是数据驱动方法的核心数学基础。在后续的学习中，我们将看到概率论的概念将反复出现在模型定义、损失函数设计、推理算法等各个方面。

思考与练习

贝叶斯定理应用：假设某种癌症的发病率为 0.5%（即每 10000 人中有 50 人患病）。有一种早期筛查方法：
对于真正患病者，筛查呈阳性的概率（灵敏度）为 99%
对于健康人，筛查呈阴性的概率（特异度）为 98%

如果某人筛查结果呈阳性，请计算他真正患病的概率。如果发病率变为 5%（提高了 10 倍），这个概率如何变化？从中你能得到什么启示？

概率分布计算：假设某网站一天的访问量 X 服从泊松分布，均值为 1000 次。
求 P(X = 1000) 和 P(X = 0)
求访问量超过 1050 次的概率（使用近似）
解释为什么泊松分布适用于描述这类现象
期望与方差的计算：设随机变量 X 服从参数为 p 的伯努利分布，即 P(X = 1) = p，P(X = 0) = 1 - p。
计算 E[X] 和 Var(X)
如果 X₁, X₂, ..., Xₙ是 n 个独立同分布的伯努利随机变量，Sₙ = X₁ + ... + Xₙ是什么分布？求 E[Sₙ] 和 Var(Sₙ)
大数定律如何描述 Sₙ/n 的行为？
中心极限定理验证：通过编程模拟，验证中心极限定理。
假设原始分布为均匀分布 U(0, 1)，取 n = 30 个样本，计算其和 Sₙ
重复试验 10000 次，绘制 Sₙ的直方图
与相同均值和方差的正态分布进行比较，验证中心极限定理
协方差与相关系数：设二维随机变量 (X, Y) 服从以下分布（单位：米）：
X 表示某城市居民的身高，假设 E[X] = 1.70，Var(X) = 0.01
Y 表示同一城市居民的体重，假设 E[Y] = 65，Var(Y) = 100
X 和 Y 的协方差 Cov(X, Y) = 0.5
计算 X 和 Y 的相关系数 ρ
这个相关系数说明两者之间有什么关系？
如果协方差变为 -0.5，相关系数会如何变化？
偏差-方差分析：考虑一个简单的回归问题，假设真实函数为 y = sin(2πx)，噪声为加性高斯噪声 ε ~ N(0, 0.1²)。

比较以下两种模型的预测误差： - 简单模型：常数预测 \(\hat{y} = \bar{y}\)（训练集的均值） - 复杂模型：5 阶多项式回归

分析两种模型的偏差和方差，解释为什么简单模型可能泛化能力更好（考虑噪声和过拟合）。

似然与后验：在贝叶斯框架下重新考虑一个问题：假设硬币是不均匀的，抛正面朝上的概率为 θ。进行 n = 10 次独立试验，观察到 k = 7 次正面。
写出似然函数 P(D|θ)
如果使用 Beta(α, β) 作为先验分布（Beta 先验是二项分布的共轭先验），写出后验分布 P(θ|D)
如果选择先验 Beta(1, 1)（即均匀先验），后验分布是什么？后验均值是多少？
如果选择先验 Beta(0.5, 0.5)（Jeffreys 先验），后验分布是什么？后验均值是多少？
比较两种先验下的后验均值，哪一个更接近频率学派的最大似然估计 \(\hat{\theta} = k/n = 0.7\)？