术语/词组 | 解释 |
|---|---|
Undirected Graphical Models | 无向图模型:一种用图结构表示变量间概率关系模型。图中的边没有方向,表示变量间的双向依赖关系。也称为马尔可夫随机场。 |
Partition Function | 配分函数:在概率模型中,为了使未归一化的概率分布 ˜p(x)成为一个总和为1的有效概率分布 p(x)而使用的归一化常数。其计算(对所有可能状态的求和或积分)通常是计算上难以处理的。 |
Unnormalized Probability Distribution | 未归一化的概率分布:一个与概率成正比的函数 ˜p(x),但其本身不是一个概率分布,因为它的积分或总和不为1。需要除以配分函数 Z 来归一化。 |
Gradient | 梯度:一个向量,指向函数值增长最快的方向。在机器学习中,我们计算对数似然梯度 以使用梯度下降法来更新模型参数。 |
Positive Phase | 正相:对数似然梯度中的一个项 |
Negative Phase | 负相:对数似然梯度中的另一个项 |
Contrastive Divergence | 对比散度:一种训练算法,是随机最大似然的高效近似。它不需要将马尔可夫链运行至平稳分布,而是只运行有限的几步(如一步),从而大大加快训练速度。 |
Stochastic Maximum Likelihood | 随机最大似然:使用蒙特卡洛采样(如MCMC)来近似负相梯度,进而进行最大似然估计的算法。 |
Markov Chains | 马尔可夫链:一系列随机状态,每个状态的概率只依赖于前一个状态。在机器学习中,马尔可夫链蒙特卡洛方法用于从复杂概率分布中采样。 |
Burn in | 预烧期:在MCMC采样中,从初始状态开始运行马尔可夫链,直到其状态分布接近目标平稳分布的过程。在预烧期之后采集的样本才被认为是有效的。 |
Stochastic Gradient Descent | 随机梯度下降:一种优化算法,不是在整个数据集上计算梯度,而是在每个训练步骤中基于一小批数据计算梯度,从而加快大规模数据集的训练速度。 |