最优化 on Zeqiang Fang | 方泽强

贝叶斯优化 (Bayesian Optimization)

Sat, 06 Jun 2020 00:00:00 +0000

本文内容主要参考自：

从高斯分布到高斯过程、高斯过程回归、贝叶斯优化

A Visual Exploration of Gaussian Processes

Gaussian Process Regression

Exploring Bayesian Optimization

高斯分布

一元高斯分布

若随机变量 $X$ 服从一个均值为 $\mu$ ，方差为 $\sigma^2$ 的高斯分布，则记为：

$$ X \sim N \left(\mu, \sigma^2\right) $$

其概率密度函数为：

$$ f \left(x\right) = \dfrac{1}{\sigma \sqrt{2 \pi}} e^{- \dfrac{\left(x - \mu\right)^2}{2 \sigma^2}} $$

图片来源：https://zh.wikipedia.org/wiki/正态分布

二元高斯分布

若随机变量 $X, Y$ 服从均值为 $\mu = \left(\mu_X, \mu_Y\right)^{\top}$ ，方差为 $\mu = \left(\sigma_X, \sigma_Y\right)^{\top}$ 的高斯分布，则记为：

$$ \left(X, Y\right) \sim \mathcal{N} \left(\mu, \sigma\right) $$

其概率密度函数为：

$$ f(x, y)=\frac{1}{2 \pi \sigma_{X} \sigma_{Y} \sqrt{1-\rho^{2}}} e^{-\dfrac{1}{2\left(1-\rho^{2}\right)}\left[\dfrac{\left(x-\mu_{X}\right)^{2}}{\sigma_{X}^{2}}+\dfrac{\left(y-\mu_{Y}\right)^{2}}{\sigma_{Y}^{2}}-\dfrac{2 \rho\left(x-\mu_{X}\right)\left(y-\mu_{X}\right)}{\sigma_{X} \sigma_{Y}}\right]} $$

其中， $\rho$ 是 $X$ 和 $Y$ 之间的相关系数， $\sigma_X > 0$ 且 $\sigma_Y > 0$ 。

图片来源：Bayesian tracking of multiple point targets using expectation maximization

多元高斯分布

若 $K$ 维随机向量 $X = \left[X_1, \cdots, X_K\right]^{\top}$ 服从多元高斯分布，则必须满足如下三个等价条件：

任何线性组合 $Y = a_1 X_1 + \cdots a_K X_K$ 均服从高斯分布。
存在随机向量 $Z = \left[Z_1, \cdots, Z_L\right]^{\top}$ （每个元素服从独立标准高斯分布），向量 $\mu = \left[\mu_1, \cdots, \mu_K\right]^{\top}$ 以及 $K \times L$ 的矩阵 $A$ ，满足 $X = A Z + \mu$ 。
存在 $\mu$ 和一个对称半正定矩阵 $\Sigma$ 满足 $X$ 的特征函数 $\phi_X \left(u; \mu, \Sigma\right) = \exp \left(i \mu^{\top} u - \dfrac{1}{2} u^{\top} \Sigma u\right)$

如果 $\Sigma$ 是非奇异的，则概率密度函数为：

$$ f \left(x_1, \cdots, x_k\right) = \dfrac{1}{\sqrt{\left(2 \pi\right)^k \lvert\Sigma\rvert}} e^{- \dfrac{1}{2} \left(x - \mu\right)^{\top} \Sigma^{-1} \left(x - \mu\right)} $$

其中 $\lvert\Sigma\rvert$ 表示协方差矩阵的行列式。

边缘化和条件化

高斯分布具有一个优秀的代数性质，即在边缘化和条件化下是闭合的，也就是说从这些操作中获取的结果分布也是高斯的。**边缘化（Marginalization）和条件化（Conditioning）**都作用于原始分布的子集上：

$$ P_{X, Y}=\left[\begin{array}{l} X \\ Y \end{array}\right] \sim \mathcal{N}(\mu, \Sigma)=\mathcal{N}\left(\left[\begin{array}{l} \mu_{X} \\ \mu_{Y} \end{array}\right],\left[\begin{array}{l} \Sigma_{X X} \Sigma_{X Y} \\ \Sigma_{Y X} \Sigma_{Y Y} \end{array}\right]\right) $$

其中， $X$ 和 $Y$ 表示原始随机变量的子集。

对于随机向量 $X$ 和 $Y$ 的高斯概率分布 $P \left(X, Y\right)$ ，其边缘概率分布为：

$$ \begin{array}{l} X \sim \mathcal{N}\left(\mu_{X}, \Sigma_{X X}\right) \\ Y \sim \mathcal{N}\left(\mu_{Y}, \Sigma_{Y Y}\right) \end{array} $$

$X$ 和 $Y$ 两个子集各自只依赖于 $\mu$ 和 $\Sigma$ 中它们对应的值。因此从高斯分布中边缘化一个随机变量仅需从 $\mu$ 和 $\Sigma$ 中舍弃相应的变量即可：

$$ p_{X}(x)=\int_{y} p_{X, Y}(x, y) d y=\int_{y} p_{X | Y}(x | y) p_{Y}(y) d y $$

条件化可以用于得到一个变量在另一个变量条件下的概率分布：

$$ \begin{array}{l} X | Y \sim \mathcal{N}\left(\mu_{X}+\Sigma_{X Y} \Sigma_{Y Y}^{-1}\left(Y-\mu_{Y}\right), \Sigma_{X X}-\Sigma_{X Y} \Sigma_{Y Y}^{-1} \Sigma_{Y X}\right) \\ Y | X \sim \mathcal{N}\left(\mu_{Y}+\Sigma_{Y X} \Sigma_{X X}^{-1}\left(X-\mu_{X}\right), \Sigma_{Y Y}-\Sigma_{Y X} \Sigma_{X X}^{-1} \Sigma_{X Y}\right) \end{array} $$

需要注意新的均值仅依赖于作为条件的变量，协方差矩阵和这个变量无关。

边缘化可以理解为在高斯分布的一个维度上的累加，条件化可以理解为在多元分布上切一刀从而获得一个维数更少的高斯分布，如下图所示：

高斯过程

**高斯过程（Gaussian Process）**是观测值出现在一个连续域（例如时间或空间）的随机过程。在高斯过程中，连续输入空间中每个点都是与一个正态分布的随机变量相关联。此外，这些随机变量的每个有限集合都有一个多元正态分布，换句话说它们的任意有限线性组合是一个正态分布。高斯过程的分布是所有那些（无限多个）随机变量的联合分布，正因如此，它是连续域（例如时间或空间）上函数的分布。

简单而言，高斯过程即为一系列随机变量，这些随机变量的任意有限集合均为一个多元高斯分布。从一元高斯分布到多元高斯分布相当于增加了空间维度，从高斯分布到高斯过程相当于引入了时间维度。一个高斯过程可以被均值函数 $m \left(x\right)$ 和协方差函数 $K \left(x, x'\right)$ 共同唯一确定：

$$ \begin{aligned} m(x) &=\mathbb{E}[f(x)] \\ K\left(x, x'\right) &=\mathbb{E}\left[(f(x)-m(x))\left(f\left(x^{\prime}\right)-m\left(x^{\prime}\right)\right)\right] \end{aligned} $$

则高斯过程可以表示为：

$$ f \left(x\right) \sim \mathcal{GP} \left(m \left(x\right), K \left(x, x'\right)\right) $$

均值函数决定了样本出现的整体位置，如果为零则表示以 $y = 0$ 为基准线。协方差函数描述了不同点之间的关系，从而可以利用输入的训练数据预测未知点的值。常用的协方差函数有：

常数： $K_c \left(x, x'\right) = C$
线性： $K_L \left(x, x'\right) = x^{\top} x'$
高斯噪声： $K_{GN} \left(x, x'\right) = \sigma^2 \delta_{x, x'}$
指数平方： $K_{\mathrm{SE}}\left(x, x^{\prime}\right)=\exp \left(-\dfrac{|d|^{2}}{2 \ell^{2}}\right)$
Ornstein-Uhlenbeck： $K_{\mathrm{OU}}\left(x, x^{\prime}\right)=\exp \left(-\dfrac{|d|}{\ell}\right)$
Matérn： $K_{\text {Matern }}\left(x, x^{\prime}\right)=\dfrac{2^{1-\nu}}{\Gamma(\nu)}\left(\dfrac{\sqrt{2 \nu}|d|}{\ell}\right)^{\nu} K_{\nu}\left(\dfrac{\sqrt{2 \nu}|d|}{\ell}\right)$
周期： $K_{\mathrm{P}}\left(x, x^{\prime}\right)=\exp \left(-\dfrac{2 \sin ^{2}\left(\dfrac{d}{2}\right)}{\ell^{2}}\right)$
有理平方： $K_{\mathrm{RQ}}\left(x, x^{\prime}\right)=\left(1+|d|^{2}\right)^{-\alpha}, \quad \alpha \geq 0$

高斯过程回归

回归任务的目标是给定一个输入变量 $x \in \mathbb{R}^D$ 预测一个或多个连续目标变量 $y$ 的值。更确切的说，给定一个包含 $N$ 个观测值的训练集 $\mathbf{X} = \left\{x_n\right\}^N_1$ 和对应的目标值 $\mathbf{Y} = \left\{y_n\right\}^N_1$ ，回归的目标是对于一个新的 $x$ 预测对应的 $y$ 。目标值和观测值之间通过一个映射进行关联：

$$ f: X \to Y $$

在贝叶斯模型中，我们通过观测数据 $\mathcal{D} = \left\{\left(\mathbf{x}_n, \mathbf{y}_n\right)\right\}^N_{n=1}$ 更新先验分布 $P \left(\mathbf{\Theta}\right)$ 。通过贝叶斯公式我们可以利用先验概率 $P \left(\mathbf{\Theta}\right)$ 和似然函数 $P \left(\mathcal{D} | \mathbf{\Theta}\right)$ 推导出后验概率：

$$ p\left(\mathbf{\Theta} | \mathcal{D}\right)=\frac{p\left(\mathcal{D} | \mathbf{\Theta}\right) p\left(\mathbf{\Theta}\right)}{p\left(\mathcal{D}\right)} $$

其中 $p\left(\mathcal{D}\right)$ 为边际似然。在贝叶斯回归中我们不仅希望获得未知输入对应的预测值 $\mathbf{y}_*$ ，还希望知道预测的不确定性。因此我们需要利用联合分布和边缘化模型参数 $\mathbf{\Theta}$ 来构造预测分布：

$$ p\left(\mathbf{y}_{*} | \mathbf{x}_{*}, \mathcal{D}\right)=\int p\left(\mathbf{y}_{*}, \mathbf{\Theta} | \mathbf{x}_{*}, \mathcal{D}\right) \mathrm{d} \Theta=\int p\left(\mathbf{y}_{*} | \mathbf{x}_{*}, \mathbf{\Theta}, \mathcal{D}\right) p(\mathbf{\Theta} | \mathcal{D}) \mathrm{d} \mathbf{\Theta} $$

通常情况下，由于积分形式 $p \left(\Theta | \mathcal{D}\right)$ 不具有解析可解性（Analytically Tractable）：

$$ p\left(\mathcal{D}\right)=\int p\left(\mathcal{D} | \mathbf{\Theta}\right) p\left(\mathbf{\Theta}\right) d \Theta $$

但在高斯似然和高斯过程先验的前提下，后验采用函数的高斯过程的形式，同时是解析可解的。

对于高斯过程回归，我们构建一个贝叶斯模型，首先定义函数输出的先验为一个高斯过程：

$$ p \left(f | \mathbf{X}, \theta\right) = \mathcal{N} \left(\mathbf{0}, K \left(\mathbf{X}, \mathbf{X}\right)\right) $$

其中 $K \left(\cdot, \cdot\right)$ 为协方差函数， $\theta$ 为过程的超参数。假设数据已经变换为零均值，因此我们不需要在先验中设置均值函数，则令似然形式如下：

$$ p \left(\mathbf{Y} | f\right) \sim \mathcal{N} \left(f, \sigma^2_n \mathbf{I}\right) $$

假设观测值为独立同分布的高斯噪音的累加，则整个模型的联合分布为：

$$ p \left(\mathbf{Y} , f | \mathbf{X}, \theta\right) = p \left(\mathbf{Y} | f\right) p \left(f | \mathbf{X}, \theta\right) $$

虽然我们并不关心变量 $f$ ，但由于我们需要对不确定性进行建模，我们仍需考虑 $\mathbf{Y}$ 和 $f$ 以及 $f$ 和 $\mathbf{X}$ 之间的关系。高斯过程作为一个非参数模型，其先验分布构建于映射 $f$ 之上， $f$ 仅依赖于核函数的超参数 $\theta$ ，且这些超参数可以通过数据进行估计。我们可以将超参数作为先验，即：

$$ p \left(\mathbf{Y} , f | \mathbf{X}, \theta\right) = p \left(\mathbf{Y} | f\right) p \left(f | \mathbf{X}, \theta\right) p \left(\theta\right) $$

然后进行贝叶斯推断和模型选择，但是通常情况下这是不可解的。David MacKay 引入了一个利用最优化边际似然来估计贝叶斯平均的框架，即计算如下积分：

$$ p \left(\mathbf{Y} | \mathbf{X}, \theta\right) = \int p \left(\mathbf{Y} | f\right) p \left(f | \mathbf{X}, \theta\right) df $$

其中，高斯似然 $p \left(\mathbf{Y} | f\right)$ 表示模型拟合数据的程度， $p \left(f | \mathbf{X}, \theta\right)$ 为高斯过程先验。经过边缘化后， $\mathbf{Y}$ 不在依赖于 $f$ 而仅依赖于 $\theta$ 。

假设采用零均值函数，对于一个高斯过程先验，我们仅需指定一个协方差函数。以指数平方协方差函数为例，选择一系列测试输入点 $X_*$ ，利用协方差矩阵和测试输入点可以生成一个高斯向量：

$$ \mathbf{f}_* \sim \mathcal{N} \left(\mathbf{0}, K \left(X_*, X_*\right)\right) $$

从高斯先验中进行采样，我们首先需要利用标准正态来表示多元正态：

$$ \mathbf{f}_* \sim \mu + \mathbf{B} \mathcal{N} \left(0, \mathbf{I}\right) $$

其中， $\mathbf{BB}^{\top} = K \left(X_*, X_*\right)$ ， $\mathbf{B}$ 本质上是协方差矩阵的平方根，可以通过 Cholesky 分解获得。

上图（左）为从高斯先验中采样的 10 个序列，上图（右）为先验的协方差。如果输入点 $x_n$ 和 $x_m$ 接近，则对应的 $f \left(x_n\right)$ 和 $f \left(x_m\right)$ 相比于不接近的点是强相关的。

我们关注的并不是这些随机的函数，而是如何将训练数据中的信息同先验进行合并。假设观测数据为 $\left\{\left(\mathbf{x}_{i}, f_{i}\right) | i=1, \ldots, n\right\}$ ，则训练目标 $\mathbf{f}$ 和测试目标 $\mathbf{f}_*$ 之间的联合分布为：

$$ \left[\begin{array}{l} \mathbf{f} \\ \mathbf{f}_{*} \end{array}\right] \sim \mathcal{N}\left(\mathbf{0},\left[\begin{array}{ll} K(X, X) & K\left(X, X_{*}\right) \\ K\left(X_{*}, X\right) & K\left(X_{*}, X_{*}\right) \end{array}\right]\right) $$

根据观测值对联合高斯先验分布进行条件化处理可以得到高斯过程回归的关键预测方程：

$$ \mathbf{f}_{*} | X, X_{*}, \mathbf{f} \sim \mathcal{N}\left(\overline{\mathbf{f}}_{*}, \operatorname{cov}\left(\mathbf{f}_{*}\right)\right) $$

其中

$$ \begin{aligned} \overline{\mathbf{f}}_{*} & \triangleq \mathbb{E}\left[\mathbf{f}_{*} | X, X_{*}, \mathbf{f}\right]=K\left(X_{*}, X\right) K(X, X)^{-1} \mathbf{f} \\ \operatorname{cov}\left(\mathbf{f}_{*}\right) &=K\left(X_{*}, X_{*}\right)-K\left(X_{*}, X\right) K(X, X)^{-1} K\left(X, X_{*}\right) \end{aligned} $$

函数值可以通过对联合后验分布采样获得。

我们以三角函数作为给定的函数，并随机采样一些训练数据 $\left\{\left(\mathbf{x}_{i}, f_{i}\right) | i=1, \ldots, n\right\}$ ，如下图所示：

我们希望将训练数据和高斯过程先验进行合并得到联合后验分布，我们可以通过在观测值上条件化联合高斯先验分布，预测的均值和协方差为：

$$ \begin{aligned} \overline{\mathbf{f}}_{*} &=K\left(X_{*}, X\right) K(X, X)^{-1} \mathbf{f} \\ \operatorname{cov}\left(\mathbf{f}_{*}\right) &=K\left(X_{*}, X_{*}\right)-K\left(X_{*}, X\right) K(X, X)^{-1} K\left(X, X_{*}\right) \end{aligned} $$

Rasmussen 和 Williams 给出了一个实现高斯过程回归的实用方法：

\begin{algorithm}
\caption{高斯过程回归算法}
\begin{algorithmic}
\REQUIRE \\
    输入 $\mathbf{X}$ \\
    目标 $\mathbf{y}$ \\
    协方差函数 $k$ \\
    噪音水平 $\sigma^2_n$ \\
    测试输入 $\mathbf{x}_*$
\ENSURE \\
    均值 $\bar{f}_*$ \\
    方差 $\mathbb{V}\left[f_{*}\right]$
\FUNCTION{GaussianProcessRegression}{$\mathbf{X}, \mathbf{y}, k, \sigma^2_n, \mathbf{x}_*$}
\STATE $L \gets \text{cholesky} \left(K + \sigma^2_n I\right)$
\STATE $\alpha \gets L^{\top} \setminus \left(L \setminus \mathbf{y}\right)$
\STATE $\bar{f}_* \gets \mathbf{k}^{\top}_* \alpha$
\STATE $\mathbf{v} \gets L \setminus \mathbf{k}_*$
\STATE $\mathbb{V}\left[f_{*}\right] \gets k \left(\mathbf{x}_*, \mathbf{x}_*\right) - \mathbf{v}^{\top} \mathbf{v}$
\RETURN $\bar{f}_*, \mathbb{V}\left[f_{*}\right]$
\ENDFUNCTION
\end{algorithmic}
\end{algorithm}

高斯过程后验和采样的序列如下图所示：

先验的协方差矩阵和后验的协方差矩阵可视化如下图所示：

本小结代码请参见这里。

贝叶斯优化

主动学习

在很多机器学习问题中，数据标注往往需要耗费很大成本。**主动学习（Active Learning）**在最大化模型准确率时最小化标注成本，例如对不确定性最高的数据进行标注。由于我们仅知道少量数据点，因此我们需要一个代理模型（Surrogate Model）来建模真正的模型。高斯过程因其灵活性和具有估计不确定性估计的特性不失为一个常用的代理模型。

在估计 $f \left(x\right)$ 的过程中，我们希望最小化评估的次数，因此我们可以通过主动学习来“智能”地选择下一个评估的数据点。通过不断的选择具有最高不确定性的数据点来获得 $f \left(x\right)$ 更准确的估计，直至收敛或达到停止条件。下图展示了利用主动学习估计真实数据分布的过程：

/images/cn/2020-06-06-bayesian-optimization/ active-gp- png 300

贝叶斯优化问题

贝叶斯优化的核心问题是：基于现有的已知情况，如果选择下一步评估的数据点？在主动学习中我们选择不确定性最大的点，但在贝叶斯优化中我们需要在探索不确定性区域（探索）和关注已知具有较优目标值的区域之间进行权衡（开发）。这种评价的依据称之为采集函数（Acquisition Functions），采集函数通过当前模型启发式的评估是否选择一个数据点。

贝叶斯优化的目标是找到一个函数 $f: \mathbb{R}^d \mapsto \mathbb{R}$ 最大值（或最小值）对应的位置 $x \in \mathbb{R}^d$ 。为了解决这个问题，我们遵循如下算法：

选择一个代理模型用于建模真实函数 $f$ 和定义其先验。
给定观测集合，利用贝叶斯公式获取后验。
利用采集函数 $\alpha \left(x\right)$ 确性下一个采样点 $x_t = \arg\max_x \alpha \left(x\right)$ 。
将采样的点加入观测集合，重复步骤 2 直至收敛或达到停止条件。

采集函数

Probability of Improvement (PI)

Probability of Improvement (PI) 采集函数会选择具有最大可能性提高当前最大的 $f \left(x^{+}\right)$ 值的点作为下一个查询点，即：

$$ x_{t+1} = \arg\max \left(\alpha_{PI} \left(x\right)\right) = \arg\max \left(P \left(f \left(x\right)\right) \geq \left(f \left(x^{+}\right) + \epsilon\right)\right) $$

其中， $P \left(\cdot\right)$ 表示概率， $\epsilon$ 为一个较小的正数， $x^{+} = \arg\max_{x_i \in x_{1:t}} f \left(x_i\right)$ ， $x_i$ 为第 $i$ 步查询点的位置。如果采用高斯过程作为代理模型，上式则转变为：

$$ x_{t+1} = \arg\max_x \Phi \left(\dfrac{\mu_t \left(x\right) - f \left(x^{+}\right) - \epsilon}{\sigma_t \left(x\right)}\right) $$

其中， $\Phi \left(\cdot\right)$ 表示标准正态分布累积分布函数。PI 利用 $\epsilon$ 来权衡探索和开发，增加 $\epsilon$ 的值会更加倾向进行探索。

Expected Improvement (EI)

PI 仅关注了有多大的可能性能够提高，而没有关注能够提高多少。Expected Improvement (EI) 则会选择具有最大期望提高的点作为下一个查询点，即：

$$ x_{t+1} = \arg\min_x \mathbb{E} \left(\left\|h_{t+1} \left(x\right) - f \left(x^*\right)\right\| | \mathcal{D}_t\right) $$

其中， $f$ 为真实函数， $h_{t+1}$ 为代理模型在 $t+1$ 步的后验均值， $\mathcal{D}_t = \left\{\left(x_i, f\left(x_i\right)\right)\right\}, \forall x \in x_{1:t}$ 为训练数据， $x^*$ 为 $f$ 取得最大值的真实位置。

上式中我们希望选择能够最小化与最大目标值之间距离的点，由于我们并不知道真实函数 $f$ ，Mockus ¹ 提出了一种解决办法：

$$ x_{t+1} = \arg\max_x \mathbb{E} \left(\max \left\{0, h_{t+1} \left(x\right) - f \left(x^{+}\right)\right\} | \mathcal{D}_t\right) $$

其中， $f \left(x^{+}\right)$ 为到目前为止遇见的最大函数值，如果采用高斯过程作为代理模型，上式则转变为：

$$ \begin{aligned} EI(x) &= \left\{\begin{array}{ll} \left(\mu_{t}(x)-f\left(x^{+}\right)-\epsilon\right) \Phi(Z)+\sigma_{t}(x) \phi(Z), & \text { if } \sigma_{t}(x)>0 \\ 0 & \text { if } \sigma_{t}(x)=0 \end{array}\right. \\ Z &= \frac{\mu_{t}(x)-f\left(x^{+}\right)-\epsilon}{\sigma_{t}(x)} \end{aligned} $$

其中 $\Phi \left(\cdot\right)$ 表示标准正态分布累积分布函数， $\phi \left(\cdot\right)$ 表示标准正态分布概率密度函数。类似 PI，EI 也可以利用 $\epsilon$ 来权衡探索和开发，增加 $\epsilon$ 的值会更加倾向进行探索。

对比和其他采集函数

上图展示了在仅包含一个训练观测数据 $\left(0.5, f \left(0.5\right)\right)$ 情况下不同点的采集函数值。可以看出 $\alpha_{EI}$ 和 $\alpha_{PI}$ 的最大值分别为 0.3 和 0.47。选择一个具有较小的 $\alpha_{PI}$ 和一个较大的 $\alpha_{EI}$ 的点可以理解为一个高的风险和高的回报。因此，当多个点具有相同的 $\alpha_{EI}$ 时，我们应该优先选择具有较小风险（高 $\alpha_{PI}$ ）的点，类似的，当多个点具有相同的 $\alpha_{PI}$ 时，我们应该优先选择具有较大回报（高 $\alpha_{EI}$ ）的点。

其他采集函数还有 Thompson Sampling ²，Upper Confidence Bound (UCB)，Gaussian Process Upper Confidence Bound (GP-UCB) ³，Entropy Search ⁴，Predictive Entropy Search ⁵ 等，细节请参见原始论文或 A Tutorial on Bayesian Optimization ⁶。

开放资源

Mockus, J. B., & Mockus, L. J. (1991). Bayesian approach to global optimization and application to multiobjective and constrained problems. Journal of Optimization Theory and Applications, 70(1), 157-172. ↩︎
Thompson, W. R. (1933). On the likelihood that one unknown probability exceeds another in view of the evidence of two samples. Biometrika, 25(3/4), 285-294. ↩︎
Auer, P. (2002). Using confidence bounds for exploitation-exploration trade-offs. Journal of Machine Learning Research, 3(Nov), 397-422. ↩︎
Hennig, P., & Schuler, C. J. (2012). Entropy search for information-efficient global optimization. Journal of Machine Learning Research, 13(Jun), 1809-1837. ↩︎
Hernández-Lobato, J. M., Hoffman, M. W., & Ghahramani, Z. (2014). Predictive entropy search for efficient global optimization of black-box functions. In Advances in neural information processing systems (pp. 918-926). ↩︎
Frazier, P. I. (2018). A tutorial on bayesian optimization. arXiv preprint arXiv:1807.02811. ↩︎

启发式算法 (Heuristic Algorithms)

Fri, 05 Apr 2019 00:00:00 +0000

启发式算法 (Heuristic Algorithms)

启发式算法 (Heuristic Algorithms) 是相对于最优算法提出的。一个问题的最优算法是指求得该问题每个实例的最优解. 启发式算法可以这样定义 ¹：一个基于直观或经验构造的算法，在可接受的花费 (指计算时间、占用空间等) 下给出待解决组合优化问题每一个实例的一个可行解，该可行解与最优解的偏离程度不一定事先可以预计。

在某些情况下，特别是实际问题中，最优算法的计算时间使人无法忍受或因问题的难度使其计算时间随问题规模的增加以指数速度增加，此时只能通过启发式算法求得问题的一个可行解。

利用启发式算法进行目标优化的一些优缺点如下：

优点	缺点
1. 算法简单直观，易于修改 2. 算法能够在可接受的时间内给出一个较优解	1. 不能保证为全局最优解 2. 算法不稳定，性能取决于具体问题和设计者经验

启发式算法简单的划分为如下三类：简单启发式算法 (Simple Heuristic Algorithms)，元启发式算法 (Meta-Heuristic Algorithms) 和 超启发式算法 (Hyper-Heuristic Algorithms)。

简单启发式算法 (Simple Heuristic Algorithms)

贪心算法 (Greedy Algorithm)

贪心算法是指一种在求解问题时总是采取当前状态下最优的选择从而得到最优解的算法。贪心算法的基本步骤定义如下：

确定问题的最优子结构。
设计递归解，并保证在任一阶段，最优选择之一总是贪心选择。
实现基于贪心策略的递归算法，并转换成迭代算法。

对于利用贪心算法求解的问题需要包含如下两个重要的性质：

最优子结构性质。当一个问题具有最优子结构性质时，可用动态规划法求解，但有时用贪心算法求解会更加的简单有效。同时并非所有具有最优子结构性质的问题都可以利用贪心算法求解。
贪心选择性质。所求问题的整体最优解可以通过一系列局部最优的选择 (即贪心选择) 来达到。这是贪心算法可行的基本要素，也是贪心算法与动态规划算法的主要区别。

贪心算法和动态规划算法之间的差异如下表所示：

贪心算法	动态规划
每个阶段可以根据选择当前状态最优解快速的做出决策	每个阶段的选择建立在子问题的解之上
可以在子问题求解之前贪婪的做出选择	子问题需先进行求解
自顶向下的求解	自底向上的求解 (也可采用带备忘录的自顶向下方法)
通常情况下简单高效	效率可能比较低

局部搜索 (Local Search) 和爬山算法 (Hill Climbing)

局部搜索算法基于贪婪思想，从一个候选解开始，持续地在其邻域中搜索，直至邻域中没有更好的解。对于一个优化问题：

$$ \min f \left(x\right), x \in \mathbb{R}^n $$

其中， $f \left(x\right)$ 为目标函数。搜索可以理解为从一个解移动到另一个解的过程，令 $s \left(x\right)$ 表示通过移动得到的一个解， $S \left(x\right)$ 为从当前解出发所有可能的解的集合 (邻域)，则局部搜索算法的步骤描述如下：

初始化一个可行解 $x$ 。
在当前解的邻域内选择一个移动后的解 $s \left(x\right)$ ，使得 $f \left(s \left(x\right)\right) < f \left(x\right), s \left(x\right) \in S \left(x\right)$ ，如果不存在这样的解，则 $x$ 为最优解，算法停止。
令 $x = s \left(x\right)$ ，重复步骤 2。

当我们的优化目标为最大化目标函数 $f \left(x\right)$ 时，这种局部搜索算法称之为爬山算法。

元启发式算法 (Meta-Heuristic Algorithms)

元启发式算法 (Meta-Heuristic Algorithms) 是启发式算法的改进，通常使用随机搜索技巧，可以应用在非常广泛的问题上，但不能保证效率。本节部分内容参考了《智能优化方法》² 和《现代优化计算方法》¹。

禁忌搜索 (Tabu Search)

禁忌搜索 (Tabu Search) 是由 Glover ³ 提出的一种优化方法。禁忌搜索通过在解邻域内搜索更优的解的方式寻找目标的最优解，在搜索的过程中将搜索历史放入禁忌表 (Tabu List) 中从而避免重复搜索。禁忌表通过模仿人类的记忆功能，禁忌搜索因此得名。

在禁忌搜索算法中，禁忌表用于防止搜索过程出现循环，避免陷入局部最优。对于一个给定长度的禁忌表，随着新的禁忌对象的不断进入，旧的禁忌对象会逐步退出，从而可以重新被访问。禁忌表是禁忌搜索算法的核心，其功能同人类的短时记忆功能相似，因此又称之为“短期表”。

在某些特定的条件下，无论某个选择是否包含在禁忌表中，我们都接受这个选择并更新当前解和历史最优解，这个选择所满足的特定条件称之为渴望水平。

一个基本的禁忌搜索算法的步骤描述如下：

给定一个初始可行解，将禁忌表设置为空。
选择候选集中的最优解，若其满足渴望水平，则更新渴望水平和当前解；否则选择未被禁忌的最优解。
更新禁忌表。
判断是否满足停止条件，如果满足，则停止算法；否则转至步骤 2。

模拟退火 (Simulated Annealing)

模拟退火 (Simulated Annealing) 是一种通过在邻域中寻找目标值相对小的状态从而求解全局最优的算法，现代的模拟退火是由 Kirkpatrick 等人于 1983 年提出 ⁴。模拟退火算法源自于对热力学中退火过程的模拟，在给定一个初始温度下，通过不断降低温度，使得算法能够在多项式时间内得到一个近似最优解。

对于一个优化问题 $\min f \left(x\right)$ ，模拟退火算法的步骤描述如下：

给定一个初始可行解 $x_0$ ，初始温度 $T_0$ 和终止温度 $T_f$ ，令迭代计数为 $k$ 。
随机选取一个邻域解 $x_k$ ，计算目标函数增量 $\Delta f = f \left(x_k\right) - f \left(x\right)$ 。若 $\Delta f < 0$ ，则令 $x = x_k$ ；否则生成随机数 $\xi = U \left(0, 1\right)$ ，若随机数小于转移概率 $P \left(\Delta f, T\right)$ ，则令 $x = x_k$ 。
降低温度 $T$ 。
若达到最大迭代次数 $k_{max}$ 或最低温度 $T_f$ ，则停止算法；否则转至步骤 2。

整个算法的伪代码如下：

\begin{algorithm}
\caption{模拟退火算法}
\begin{algorithmic}
\STATE $x \gets x_0$
\STATE $T \gets T_0$
\STATE $k \gets 0$
\WHILE{$k \leq k_{max}$ \AND $T \geq T_f$}
    \STATE $x_k \gets $ \CALL{neighbor}{$s$}
    \STATE $\Delta f = f \left(x_k\right) - f \left(x\right)$
    \IF{$\Delta f < 0$ \OR \CALL{random}{$0, 1$} $ \leq P \left(\Delta f, T\right)$}
        \STATE $x \gets x_k$
    \ENDIF
    \STATE $T \gets $ \CALL{cooling}{$T, k, k_{max}$}
    \STATE $k \gets k + 1$
\ENDWHILE
\end{algorithmic}
\end{algorithm}

在进行邻域搜索的过程中，当温度较高时，搜索的空间较大，反之搜索的空间较小。类似的，当 $\Delta f > 0$ 时，转移概率的设置也同当前温度的大小成正比。常用的降温函数有两种：

$T_{k+1} = T_k * r$ ，其中 $r \in \left(0.95, 0.99\right)$ ， $r$ 设置的越大，温度下降越快。
$T_{k+1} = T_k - \Delta T$ ，其中 $\Delta T$ 为每一步温度的减少量。

初始温度和终止温度对算法的影响较大，相关参数设置的细节请参见参考文献。

模拟退火算法是对局部搜索和爬山算法的改进，我们通过如下示例对比两者之间的差异。假设目标函数如下：

$$ f \left(x, y\right) = e^{- \left(x^2 + y^2\right)} + 2 e^{- \left(\left(x - 1.7\right)^2 + \left(y - 1.7\right)^2\right)} $$

优化问题定义为：

$$ \max f \left(x, y\right), x \in \left[-2, 4\right], y \in \left[-2, 4\right] $$

我们分别令初始解为 $\left(1.5, -1.5\right)$ 和 $\left(3.5, 0.5\right)$ ，下图 (上) 为爬山算法的结果，下图 (下) 为模拟退火算法的结果。

其中，白色的大点为初始解位置，粉色的大点为求解的最优解位置，颜色从白到粉描述了迭代次数。从图中不难看出，由于局部最大值的存在，从不同的初始解出发，爬山算法容易陷入局部最大值，而模拟退火算法则相对稳定。

遗传算法 (Genetic Algorithm)

遗传算法 (Genetic Algorithm, GA) 是由 John Holland 提出，其学生 Goldberg 对整个算法进行了进一步完善 ⁵。算法的整个思想来源于达尔文的进化论，其基本思想是根据问题的目标函数构造一个适应度函数 (Fitness Function)，对于种群中的每个个体 (即问题的一个解) 进行评估 (计算适应度)，选择，交叉和变异，通过多轮的繁殖选择适应度最好的个体作为问题的最优解。算法的整个流程如下所示：

初始化种群

在初始化种群时，我们首先需要对每一个个体进行编码，常用的编码方式有二进制编码，实值编码 ⁶，矩阵编码 ⁷，树形编码等。以二进制为例 (如下不做特殊说明时均以二进制编码为例)，对于 $p \in \left\{0, 1, \dotsc, 100\right\}$ 中 $p_i = 50$ 可以表示为：

$$ x_i = 50_{10} = 0110010_{2} $$

对于一个具体的问题，我们需要选择合适的编码方式对问题的解进行编码，编码后的个体可以称之为一个染色体。则一个染色体可以表示为：

$$ x = \left(p_1, p_2, \dotsc, p_m\right) $$

其中， $m$ 为染色体的长度或编码的位数。初始化种群个体共 $n$ 个，对于任意一个个体染色体的任意一位 $i$ ，随机生成一个随机数 $\text{rand} \in U \left(0, 1\right)$ ，若 $\text{rand} > 0.5$ ，则 $p_i = 1$ ，否则 $p_i = 0$ 。

计算适应度

适应度为评价个体优劣程度的函数 $f\left(x\right)$ ，通常为问题的目标函数，对最小化优化问题 $f\left(x\right) = - \min \sum{\mathcal{L} \left(\hat{y}, y\right)}$ ，对最大化优化问题 $f\left(x\right) = \max \sum{\mathcal{L} \left(\hat{y}, y\right)}$ ，其中 $\mathcal{L}$ 为损失函数。

选择

对于种群中的每个个体，计算其适应度，记第 $i$ 个个体的适应度为 $F_i = f\left(x_i\right)$ 。则个体在一次选择中被选中的概率为：

$$ P_i = \dfrac{F_i}{\sum_{i=1}^{n}{F_i}} $$

为了保证种群的数量不变，我们需要重复 $n$ 次选择过程，单次选择采用轮盘赌的方法。利用计算得到的被选中的概率计算每个个体的累积概率：

$$ \begin{equation} \begin{split} CP_0 &= 0 \\ CP_i &= \sum_{j=1}^{i}{P_i} \end{split} \end{equation} $$

对于如下一个示例：

指标 \ 个体	$x_1$	$x_2$	$x_3$	$x_4$	$x_5$	$x_6$
适应度 (F)	100	60	60	40	30	20
概率 (P)	0.322	0.194	0.194	0.129	0.097	0.064
累积概率 (CP)	0.322	0.516	0.71	0.839	0.936	1

每次选择时，随机生成 $\text{rand} \in U \left(0, 1\right)$ ，当 $CP_{i-1} \leq \text{rand} \leq CP_i$ 时，选择个体 $x_i$ 。选择的过程如同在下图的轮盘上安装一个指针并随机旋转，每次指针停止的位置的即为选择的个体。

交叉

交叉运算类似于染色体之间的交叉，常用的方法有单点交叉，多点交叉和均匀交叉等。

单点交叉：在染色体中选择一个切点，然后将其中一部分同另一个染色体的对应部分进行交换得到两个新的个体。交叉过程如下图所示：

多点交叉：在染色体中选择多个切点，对其任意两个切点之间部分以概率 $P_c$ 进行交换，其中 $P_c$ 为一个较大的值，例如 $P_m = 0.9$ 。两点交叉过程如下图所示：

均匀交叉：染色体任意对应的位置以一定的概率进行交换得到新的个体。交叉过程如下图所示：

变异

变异即对于一个染色体的任意位置的值以一定的概率 $P_m$ 发生变化，对于二进制编码来说即反转该位置的值。其中 $P_m$ 为一个较小的值，例如 $P_m = 0.05$ 。

小结

在整个遗传运算的过程中，不同的操作发挥着不同的作用：

选择：优胜劣汰，适者生存。
交叉：丰富种群，持续优化。
变异：随机扰动，避免局部最优。

除此之外，对于基本的遗传算法还有多种优化方法，例如：精英主义，即将每一代中的最优解原封不动的复制到下一代中，这保证了最优解可以存活到整个算法结束。

示例 - 商旅问题

以商旅问题为例，利用 GA 算法求解中国 34 个省会城市的商旅问题。求解代码利用了 Deap 库，结果可视化如下图所示：

一个更有趣的例子是利用 GA 算法，使用不同颜色和透明度的多边形的叠加表示一张图片，在线体验详见这里，下图为不同参数下的蒙娜丽莎图片的表示情况：

蚁群算法 (Ant Colony Optimization, ACO)

1991 年，意大利学者 Dorigo M. 等人在第一届欧洲人工生命会议 (ECAL) 上首次提出了蚁群算法。1996 年 Dorigo M. 等人发表的文章 “Ant system: optimization by a colony of cooperating agents” ⁸ 为蚁群算法奠定了基础。在自然界中，蚂蚁会分泌一种叫做信息素的化学物质，蚂蚁的许多行为受信息素的调控。蚂蚁在运动过程中能够感知其经过的路径上信息素的浓度，蚂蚁倾向朝着信息素浓度高的方向移动。以下图为例 ⁹：

蚂蚁从蚁巢 (N) 出发到达食物源所在地 (F)，取得食物后再折返回蚁巢。整个过程中蚂蚁有多种路径可以选择，单位时间内路径上通过蚂蚁的数量越多，则该路径上留下的信息素浓度越高。因此，最短路径上走过的蚂蚁数量越多，则后来的蚂蚁选择该路径的机率就越大，从而蚂蚁通过信息的交流实现了寻找食物和蚁巢之间最短路的目的。

粒子群算法 (Particle Swarm Optimization, PSO)

Eberhart, R. 和 Kennedy, J. 于 1995 年提出了粒子群优化算法 ¹⁰ ¹¹。粒子群算法模仿的是自然界中鸟群和鱼群等群体的行为，其基本原理描述如下：

一个由 $m$ 个粒子 (Particle) 组成的群体 (Swarm) 在 $D$ 维空间中飞行，每个粒子在搜索时，考虑自己历史搜索到的最优解和群体内 (或邻域内) 其他粒子历史搜索到的最优解，在此基础上进行位置 (状态，也就是解) 的变化。令第 $i$ 个粒子的位置为 $x_i$ ，速度为 $v_i$ ，历史搜索的最优解对应的点为 $p_i$ ，群体内 (或邻域内) 所有粒子历史搜索到的最优解对应的点为 $p_g$ ，则粒子的位置和速度依据如下公式进行变化：

$$ \begin{equation} \begin{split} v^{k+1}_i &= \omega v^k_i + c_1 \xi \left(p^k_i - x^k_i\right) + c_2 \eta \left(p^k_g - x^k_i\right) \\ x^{k+1}_i &= x^k_i + v^{k+1}_i \end{split} \end{equation} $$

其中， $\omega$ 为惯性参数； $c_1$ 和 $c_2$ 为学习因子，其一般为正数，通常情况下等于 2； $\xi, \eta \in U \left[0, 1\right]$ 。学习因子使得粒子具有自我总结和向群体中优秀个体学习的能力，从而向自己的历史最优点以及群体内或邻域内的最优点靠近。同时，粒子的速度被限制在一个最大速度 $V_{max}$ 范围内。

对于 Rosenbrock 函数

$$ f \left(x, y\right) = \left(1 - x\right)^2 + 100 \left(y - x^2\right)^2 $$

当 $x \in \left[-2, 2\right], y \in \left[-1, 3\right]$ ，定义优化问题为最小化目标函数，最优解为 $\left(0, 0\right)$ 。利用 PySwarms 扩展包的优化过程可视化如下：

其中， $m = 50, \omega = 0.8, c_1 = 0.5, c_2 = 0.3$ ，迭代次数为 200。

本节相关示例代码详见这里。

超启发式算法 (Hyper-Heuristic Algorithms)

超启发式算法 (Hyper-Heuristic Algorithms) 提供了一种高层次启发式方法，通过管理或操纵一系列低层次启发式算法 (Low-Level Heuristics，LLH)，以产生新的启发式算法。这些新启发式算法被用于求解各类组合优化问题 ¹²。

下图给出了超启发式算法的概念模型。该模型分为两个层面：在问题域层面上，应用领域专家根据自己的背景知识，在智能计算专家协助下，提供一系列 LLH 和问题的定义、评估函数等信息；在高层次启发式方法层面上，智能计算专家设计高效的管理操纵机制，运用问题域所提供的 LLH 算法库和问题特征信息，构造出新的启发式算法。

邢文训, & 谢金星. (2005). 现代优化计算方法. 清华大学出版社. ↩︎ ↩︎
汪定伟, 王俊伟, 王洪峰, 张瑞友, & 郭哲. (2007). 智能优化方法. 高等教育出版社. ↩︎
Glover, F. W., & Laguna, M. (1997). Tabu Search. Springer US. ↩︎
Kirkpatrick, S., Gelatt, C. D., & Vecchi, M. P. (1983). Optimization by Simulated Annealing. Science, 220(4598), 671–680. ↩︎
https://en.wikipedia.org/wiki/Genetic_algorithm ↩︎
Michalewicz, Z., Janikow, C. Z., & Krawczyk, J. B. (1992). A modified genetic algorithm for optimal control problems. Computers & Mathematics with Applications, 23(12), 83-94. ↩︎
Gottlieb, J., & Paulmann, L. (1998, May). Genetic algorithms for the fixed charge transportation problem. In Evolutionary Computation Proceedings, 1998. IEEE World Congress on Computational Intelligence., The 1998 IEEE International Conference on (pp. 330-335). IEEE. ↩︎
Dorigo, M., Maniezzo, V., & Colorni, A. (1996). Ant system: optimization by a colony of cooperating agents. IEEE Transactions on Systems, man, and cybernetics, Part B: Cybernetics, 26(1), 29-41. ↩︎
Toksari, M. D. (2016). A hybrid algorithm of Ant Colony Optimization (ACO) and Iterated Local Search (ILS) for estimating electricity domestic consumption: Case of Turkey. International Journal of Electrical Power & Energy Systems, 78, 776-782. ↩︎
Eberhart, R., & Kennedy, J. (1995, November). Particle swarm optimization. In Proceedings of the IEEE international conference on neural networks (Vol. 4, pp. 1942-1948). ↩︎
Eberhart, R., & Kennedy, J. (1995, October). A new optimizer using particle swarm theory. In MHS'95. Proceedings of the Sixth International Symposium on Micro Machine and Human Science (pp. 39-43). IEEE. ↩︎
江贺. (2011). 超启发式算法：跨领域的问题求解模式. 中国计算机学会通讯, 7(2), 63-70 ↩︎

计算复杂性 (Computational Complexity) 与动态规划 (Dynamic Programming)

Sun, 18 Nov 2018 00:00:00 +0000

计算复杂性

计算复杂性 (Computational Complexity) 是用于对一个问题求解所需的资源 (通常为空间和时间) 的度量。在评估一个算法的时候，除了算法本身的准确性以外，同时需要关注算法运行的时间以及占用的内存，从而根据实际情况选择合适的算法。

函数的增长

计算复杂性中的空间和时间的评估方法类似，在此我们更多的以时间复杂度为例。算法的运行时间刻画了算法的效率，对于一个输入规模为 $n$ 的问题，定义一个算法求解该问题 最坏情况 下的运行时间为 $T \left(n\right)$ ，我们可以使用一些 渐进记号 更加方便地对其进行描述。

$\Theta$ 记号

对于一个给定的函数 $g \left(n\right)$ ， $\Theta \left(g \left(n\right)\right)$ 可以表示如下函数的集合：

$$ \Theta \left(g \left(n\right)\right) = \left\{f \left(n\right): \exists c_1 > 0, c_2 > 0, n_0 > 0, s.t. \forall n \geq n_0, 0 \leq c_1 g \left(n\right) \leq f \left(n\right) \leq c_2 g \left(n\right) \right\} $$

也就是说当 $n$ 足够大时，函数 $f \left(n\right)$ 能够被 $c_1 g \left(n\right)$ 和 $c_2 g \left(n\right)$ 夹在中间，我们称 $g \left(n\right)$ 为 $f \left(n\right)$ 的一个 渐进紧确界 (Asymptotically Tight Bound)。

$O$ 记号

$\Theta$ 记号给出了一个函数的上界和下界，当只有一个 渐进上界 时，可使用 $O$ 记号。 $O \left(g \left(n\right)\right)$ 表示的函数集合为：

$$ O \left(g \left(n\right)\right) = \left\{f \left(n\right): \exists c > 0, n_0 > 0, s.t. \forall n \geq n_0, 0 \leq f \left(n\right) \leq c g \left(n\right)\right\} $$

$O$ 记号描述的为函数的上界，因此可以用它来限制算法在最坏情况下的运行时间。

$\Omega$ 记号

$\Omega$ 记号提供了 渐进下界，其表示的函数集合为：

$$ \Omega \left(g \left(n\right)\right) = \left\{f \left(n\right): \exists c > 0, n_0 > 0, s.t. \forall n \geq n_0, 0 \leq c g \left(n\right) \leq f \left(n\right)\right\} $$

根据上面的三个渐进记号，不难证明如下定理：

定理 1 对于任意两个函数 $f \left(n\right)$ 和 $g \left(n\right)$ ，有 $f \left(n\right) = \Theta \left(g \left(n\right)\right)$ ，当且仅当 $f \left(n\right) = O \left(g \left(n\right)\right)$ 且 $f \left(n\right) = \Omega \left(g \left(n\right)\right)$ 。

$o$ 记号

$O$ 记号提供的渐进上界可能是也可能不是渐进紧确的，例如 $2n^2 = O \left(n^2\right)$ 是渐进紧确的，但 $2n = O \left(n^2\right)$ 是非渐进紧确的。我们使用 $o$ 记号表示非渐进紧确的上界，其表示的函数集合为：

$$ o \left(g \left(n\right)\right) = \left\{f \left(n\right): \forall c > 0, \exists n_0 > 0, s.t. \forall n \geq n_0, 0 \leq f \left(n\right) < c g \left(n\right)\right\} $$

$\omega$ 记号

$\omega$ 记号与 $\Omega$ 记号的关系类似于 $o$ 记号与 $O$ 记号的关系，我们使用 $\omega$ 记号表示一个非渐进紧确的下界，其表示的函数集合为：

$$ \omega \left(g \left(n\right)\right) = \left\{f \left(n\right): \forall c > 0, \exists n_0 > 0, s.t. \forall n \geq n_0, 0 \leq c g \left(n\right) < f \left(n\right)\right\} $$

NP 完全性

计算问题可以按照在不同计算模型下所需资源的不同予以分类，从而得到一个对算法问题“难度”的类别，这就是复杂性理论中复杂性类概念的来源 ¹。对于输入规模为 $n$ 的问题，一个算法在最坏情况下的运行时间为 $O \left(n^k\right)$ ，其中 $k$ 为一个确定的常数，我们称这类算法为 多项式时间的算法。

本节我们将介绍四类问题：P 类问题，NP 类问题，NPC 类问题和 NPH 类问题。

P 类问题

P 类问题 (Polynomial Problem，多项式问题) 是指能在多项式时间内解决的问题。

NP 类问题

NP 类问题 (Non-Deteministic Polynomial Problem，非确定性多项式问题) 是指能在多项式时间内被证明的问题，也就是可以在多项式时间内对于一个给定的解验证其是否正确。所有的 P 类问题都是 NP 类问题，但目前 (截至 2018 年，下文如不做特殊说明均表示截至到该时间) 人类还未证明 $P \neq NP$ 还是 $P = NP$ 。

NPC 类问题 (NP-Complete Problems)

在理解 NPC 类问题之前，我们需要引入如下几个概念：

最优化问题 (Optimization Problem) 与 判定问题 (Decision Problem)：最优化问题是指问题的每一个可行解都关联一个值，我们希望找到具有最佳值的可行解。判定问题是指问题的答案仅为“是”或“否”的问题。NP 完全性仅适用于判定问题，但通过对最优化问题强加一个界，可以将其转换为判定问题。
归约 (Reduction)：假设存在一个判定问题 A，该问题的输入称之为实例，我们希望能够在多项式时间内解决该问题。假设存在另一个不同的判定问题 B，并且已知能够在多项式时间内解决该问题，同时假设存在一个过程，它可以将 A 的任何实例 $\alpha$ 转换成 B 的某个实例 $\beta$ ，转换操作需要在多项式时间内完成，同时两个实例的解是相同的。则我们称这一过程为多项式 规约算法 (Reduction Algorithm)。通过这个过程，我们可以将问题 A 的求解“归约”为对问题 B 的求解，从而利用问题 B 的“易求解性”来证明 A 的“易求解性”。

从而我们可以定义 NPC 类问题为：首先 NPC 类问题是一个 NP 类问题，其次所有的 NP 类问题都可以用多项式时间归约到这类问题。因此，只要找到 NPC 类问题的一个多项式时间的解，则所有的 NP 问题都可以通过多项式时间归约到该问题，并用多项式时间解决该问题，从而使得 $NP = P$ ，但目前，NPC 类问题并没有找到一个多项式时间的算法。

NPH 类问题 (NP-Hard Problems)

NPH 类问题定义为所有的 NP 类问题都可以通过多项式时间归约到这类问题，但 NPH 类问题不一定是 NP 类问题。NPH 类问题同样很难找到多项式时间的解，由于 NPH 类问题相比较 NPC 类问题放松了约束，因此即便 NPC 类问题找到了多项式时间的解，NPH 类问题仍可能无法在多项式时间内求解。

下图分别展示了 $P \neq NP$ 和 $P = NP$ 两种假设情况下四类问题之间的关系：

动态规划

动态规划 (Dynamic Programming, DP) 算法通常基于一个递归公式和一个或多个初始状态，并且当前子问题的解可以通过之前的子问题构造出来。动态规划算法求解问题的时间复杂度仅为多项式复杂度，相比其他解法，例如：回溯法，暴利破解法所需的时间要少。动态规划中的 “Programming” 并非表示利用计算机编程，而是一种表格法。动态规划对于每个子问题只求解一次，将解保存在一个表格中，从而避免不必要的重复计算。

动态规划算法的适用情况如下 ²：

最优子结构性质，即问题的最优解由相关子问题的最优解组合而成，子问题可以独立求解。
无后效性，即每个状态均不会影响之前的状态。
子问题重叠性质，即在用递归算法自顶向下对问题进行求解时，每次产生的子问题并不总是新问题，有些子问题会被重复计算多次。

一个动态规划算法的核心包含两个部分：状态和 状态转移方程。状态即一个子问题的表示，同时这个表示需要具备 无后效性。状态转移方程用于描述状态之间的关系，也就是如何利用之前的状态构造出当前的状态进而求解。

动态规划有两种等价的实现方法：

带备忘的自顶向下法 (Top-Down with Memoization)，该方法采用自然的递归形式编写过程，但会保留每个子问题的解，当需要一个子问题的解时会先检查是否保存过，如果有则直接返回该结果。
自底向上法 (Bottom-Up Method)，该方法需要恰当的定义子问题“规模”，任何子问题的求解都值依赖于“更小”的子问题的求解，从而可以按照子问题的规模从小到大求解。

两种方法具有相同的渐进运行时间，在某些特殊的情况下，自顶向下的方法并未真正递归地考虑所有可能的子问题；自底向上的方法由于没有频繁的递归调用，时间复杂性函数通常具有更小的系数。

背包问题

背包问题 (Knapsack problem) 是一种组合优化的 NPC 类问题。问题可以描述为：给定一组物品，每种物品都有自己的重量和价值，在限定的总重量内，合理地选择物品使得总价值最高。

形式化的定义，我们有 $n$ 种物品，物品 $j$ 的重量为 $w_j$ ，价值为 $p_j$ ，假定所有物品的重量和价值都是非负的，背包所能承受的最大重量为 $W$ 。如果限定每种物品只能选择 0 个或 1 个，则该问题称为 0-1 背包问题；如果限定物品 $j$ 最多只能选择 $b_j$ 个，则该问题称为 有界背包问题；如果不限定每种物品的数量，则该问题称为 无界背包问题。最优化问题可以表示为：

$$ \begin{equation} \begin{split} \text{maximize} & \sum_{j=1}^{n}{p_j x_j} \\ s.t. & \sum_{j=1}^{n}{w_j x_j} \leq W, x_j \in \left\{0, 1, ..., b_j\right\} \end{split} \end{equation} $$

以 0-1 背包问题为例，用 $d_{i, w}$ 表示取 $i$ 件商品填充一个最大承重 $w$ 的背包的最大价值，问题的最优解即为 $d_{n, W}$ 。不难写出 0-1 背包问题的状态转移方程如下：

$$ d_{i, w} = \begin{cases} d_{i - 1, w}, & w < w_i \\ \max \left(d_{i - 1, w}, d_{i - 1, w - w_i} + p_i\right), & w \geq w_i \\ 0, & i w = 0 \end{cases} $$

一个 0-1 背包问题的具体示例如下：背包承受的最大重量 $W = 10$ ，共有 $n = 5$ 种物品，编号分别为 $A, B, C, D, E$ ，重量分别为 $2, 2, 6, 5, 4$ ，价值分别为 $6, 3, 5, 4, 6$ ，利用 BP 求解该问题，不同 $i, w$ 情况下的状态如下表所示 (计算过程详见这里)：

i \ w	1	2	3	4	5	6	7	8	9	10
1	NA	(A) 2 - 6	(A) 2 - 6	(A) 2 - 6	(A) 2 - 6	(A) 2 - 6	(A) 2 - 6	(A) 2 - 6	(A) 2 - 6	(A) 2 - 6
2	NA	(A) 2 - 6	(A) 2 - 6	(A, B) 4 - 9	(A, B) 4 - 9	(A, B) 4 - 9	(A, B) 4 - 9	(A, B) 4 - 9	(A, B) 4 - 9	(A, B) 4 - 9
3	NA	(A) 2 - 6	(A) 2 - 6	(A, B) 4 - 9	(A, B) 4 - 9	(A, B) 4 - 9	(A, B) 4 - 9	(A, C) 8 - 11	(A, C) 8 - 11	(A, B, C) 10 - 14
4	NA	(A) 2 - 6	(A) 2 - 6	(A, B) 4 - 9	(A, B) 4 - 9	(A, B) 4 - 9	(A, D) 7 - 10	(A, C) 8 - 11	(A, B, D) 9 - 13	(A, B, C) 10 - 14
5	NA	(A) 2 - 6	(A) 2 - 6	(A, B) 4 - 9	(A, B) 4 - 9	(A, E) 6 - 12	(A, E) 6 - 12	(A, B, E) 8 - 15	(A, B, E) 8 - 15	(A, B, E) 8 - 15

其中，NA 表示未选取任何物品，单元格上部括号中的为选取物品的编号，单元格下部分别为选取物品的总重量和总价值。

最长公共子序列与最长公共子串

给定一个序列 $X = \left\{x_1, x_2, \dotsc, x_m\right\}$ ，另一个序列 $Z = \left\{z_1, z_2, \dotsc, z_k\right\}$ 在满足如下条件时称其为 $X$ 的一个 子序例 (Subsequence)，即存在一个严格递增的 $X$ 的下标序列 $\left\{i_1, i_2, \dotsc, i_k\right\}$ ，对于所有的 $j = 1, 2, \dotsc, k$ ，满足 $x_{i_j} = z_j$ 。给定两个序例 $X$ 和 $Y$ ，如果 $Z$ 既是 $X$ 的子序列，也是 $Y$ 的子序列，则称它为 $X$ 和 $Y$ 的 公共子序列 (Common Subsequence)。最长公共子序列 (Longest Common Subsequence) 问题为给定两个序列 $X = \left\{x_1, x_2, \dotsc, x_m\right\}$ 和 $Y = \left\{y_1, y_2, \dotsc, y_n\right\}$ ，求 $X$ 和 $Y$ 最长的公共子序列。

我们可以按如下递归的方式求解最长公共子序列问题：

当 $x_i = y_j$ 时，求解 $X = \left\{x_1, x_2, \dotsc, x_{i-1}\right\}$ 和 $Y = \left\{y_1, y_2, \dotsc, y_{j-1}\right\}$ 的最长公共子序列，在其尾部添加 $x_i$ 和 $y_j$ 即为当前状态下的最长公共子序列。
当 $x_i \neq y_j$ 时，我们则需求解 $X = \left\{x_1, x_2, \dotsc, x_{i-1}\right\}$ 和 $Y = \left\{y_1, y_2, \dotsc, y_j\right\}$ 与 $X = \left\{x_1, x_2, \dotsc, x_i\right\}$ 和 $Y = \left\{y_1, y_2, \dotsc, y_{j-1}\right\}$ 两种情况下最长的公共子序列作为当前状态下的最长公共子序列。

用 $c_{i, j}$ 表示 $X = \left\{x_1, x_2, \dotsc, x_i\right\}$ 和 $Y = \left\{y_1, y_2, \dotsc, y_j\right\}$ 情况下的最长公共子序列的长度，则状态转移方程如下：

$$ c_{i, w} = \begin{cases} c_{i - 1, j - 1} + i, & x_i = y_j \\ \max \left(c_{i, j - 1}, c_{i - 1, j}\right), & x_i \neq y_j \\ 0, & i j = 0 \end{cases} $$

例如：给定序列 $X = \left\{A, B, C, B, D, A, B\right\}$ 和序列 $Y = \left\{B, D, C, A, B, A\right\}$ ，不同状态下最长公共子序列如下表所示 (计算过程详见这里)：

	$j$	0	1	2	3	4	5	6
$i$		$y_j$	B	D	C	A	B	A
0	$x_i$	0	0	0	0	0	0	0
1	A	0	0 (↑)	0 (↑)	0 (↑)	1 (↖)	1 (←)	1 (↖)
2	B	0	1 (↖)	1 (←)	1 (←)	1 (↑)	2 (↖)	2 (←)
3	C	0	1 (↑)	1 (↑)	2 (↖)	2 (←)	2 (↑)	2 (↑)
4	B	0	1 (↖)	1 (↑)	2 (↑)	2 (↑)	3 (↖)	3 (←)
5	D	0	1 (↑)	2 (↖)	2 (↑)	2 (↑)	3 (↑)	3 (↑)
6	A	0	1 (↑)	2 (↑)	2 (↑)	3 (↖)	3 (↑)	4 (↖)
7	B	0	1 (↖)	2 (↑)	2 (↑)	3 (↑)	4 (↖)	4 (↑)

其中，每个单元格前面的数字为最长公共子序列的长度，后面的符号为还原最长公共子序列使用的备忘录符号。

最长公共子串 (Longest Common Substring) 同最长公共子序列问题略有不同，子序列不要求字符是连续的，而子串要求字符必须是连续的。例如：给定序列 $X = \left\{A, B, C, B, D, A, B\right\}$ 和序列 $Y = \left\{B, D, C, A, B, A\right\}$ ，最长公共子序列为 $\left\{B, C, B, A\right\}$ ，而最长公共子串为 $\left\{A, B\right\}$ 或 $\left\{B, D\right\}$ 。用 $c_{i, j}$ 表示 $X = \left\{x_1, x_2, \dotsc, x_i\right\}$ 和 $Y = \left\{y_1, y_2, \dotsc, y_j\right\}$ 情况下的最长公共子串的长度，则状态转移方程如下：

$$ c_{i, w} = \begin{cases} c_{i - 1, j - 1} + i, & x_i = y_j \\ 0, & x_i \neq y_j \\ 0, & i j = 0 \end{cases} $$

利用动态规划可以在 $\Theta \left(nm\right)$ 的时间复杂度内求解，利用广义后缀树 ³ 可以进一步降低问题求解的时间复杂度 ⁴。

Floyd-Warshall 算法

Floyd-Warshall 算法 是一种求解任意两点之间 最短路 的算法，相比 Dijkstra 算法 ⁵，Floyd-Warshall 算法可以处理有向图或负权图 (但不可以存在负权回路) 的情况 ⁶。

用 $d_{i, j}^{\left(k\right)}$ 表示从 $i$ 到 $j$ 路径上最大节点的标号为 $k$ 的最短路径的长度。有：

$d_{i, j}^{\left(k\right)} = d_{i, k}^{\left(k-1\right)} + d_{k, j}^{\left(k-1\right)}$ ，若最短路径经过点 $k$ 。
$d_{i, j}^{\left(k\right)} = d_{i, j}^{\left(k-1\right)}$ ，若最短路径不经过点 $k$ 。

则状态转移方程如下：

$$ d_{i, j}^{\left(k\right)} = \begin{cases} w_{i, j}, & k = 0 \\ \min \left(d_{i, j}^{\left(k-1\right)}, d_{i, k}^{\left(k-1\right)} + d_{k, j}^{\left(k-1\right)}\right), & k \leq 1 \end{cases} $$

以下图所示的最短路问题为例：

Floyd-Warshall 算法的求解伪代码如下所示：

\begin{algorithm}
\caption{Floyd-Warshall 算法}
\begin{algorithmic}
\REQUIRE \\
    边集合 $w$ \\
    顶点数量 $c$
\ENSURE \\
    距离矩阵 $d$ \\
    备忘录矩阵 $m$
\FUNCTION{Floyd-Warshall}{$w, c$}
\FOR{$i$ = $1$ to $c$}
    \FOR{$j$ = $1$ to $c$}
        \STATE $d_{i, j} \gets \infty$
    \ENDFOR
\ENDFOR
\FOR{$i$ = $1$ to $c$}
    \STATE $d_{i, i} \gets 0$
\ENDFOR
\FORALL{$w_{i, j}$}
    \STATE $d_{i, j} \gets w_{i, j}$
\ENDFOR
\FOR{$k$ = $1$ to $c$}
    \FOR{$i$ = $1$ to $c$}
        \FOR{$j$ = $1$ to $c$}
            \IF{$d_{i, j} > d_{i, k} + d_{k, j}$}
                \STATE $d_{i, j} \gets d_{i, k} + d_{k, j}$
                \STATE $m_{i, j} \gets k$
            \ENDIF
        \ENDFOR
    \ENDFOR
\ENDFOR
\ENDFUNCTION
\end{algorithmic}
\end{algorithm}

通过备忘录矩阵 $m$ ，恢复从点 $i$ 到点 $j$ 的过程如下所示：

\begin{algorithm}
\caption{Floyd-Warshall-Path 算法}
\begin{algorithmic}
\REQUIRE \\
    备忘录矩阵 $m$ \\
    起点 $i$ \\
    终点 $j$ \\
    路径 $p$
\FUNCTION{Floyd-Warshall-Path}{$m, i, j, p$}
\IF{$i == j$}
    \RETURN
\ENDIF
\IF{$m_{i, j} == 0$}
    \STATE $p \gets p \cup j$
\ELSE
    \STATE Floyd-Warshall-Path($m, i, m_{i, j}, p$)
    \STATE Floyd-Warshall-Path($m, m_{i, j}, j, p$)
\ENDIF
\ENDFUNCTION
\end{algorithmic}
\end{algorithm}

文章部分内容参考了 Thomas H. Cormen 等人的《算法导论》