术语/词组 | 解释 |
|---|---|
Affine | 指线性变换加上一个平移(偏置项),即 y = Wx + b。在深度学习中常被不严谨地称为“线性”。 |
Almost everywhere | 测度论中的术语,指除了一个零测集之外的所有点都成立。例如,“函数几乎处处连续”。 |
Almost sure convergence | 概率论中一种很强的收敛形式,指随机变量序列以概率1收敛于某个极限。 |
Asymptotically unbiased | 指一个估计量的偏差随着样本数量的增加而趋近于零。 |
Bayes' rule | 一个基本的概率公式,用于在已知先验概率和似然的情况下计算后验概率。 |
Bayesian probability | 对概率的一种解释,将概率视为对某事件发生的“信念度”,而非频率。 |
Bayesian statistics | 统计学的一个学派,将未知参数视为随机变量,并利用贝叶斯定理结合先验知识和数据来更新对参数的信念(后验分布)。 |
Central limit theorem | 中心极限定理,指出大量独立同分布的随机变量之和的分布近似于正态分布。 |
Chain rule (calculus) | 微积分中的链式法则,用于计算复合函数的导数。是反向传播算法的数学基础。 |
Chain rule of probability | 概率论中的链式法则,用于将联合概率分解为条件概率的乘积。 |
Conditional independence | 在给定另一个随机变量的条件下,两个随机变量相互独立。 |
Constrained optimization | 在满足一定约束条件下寻找目标函数最优值的问题。 |
Convex optimization | 目标函数和约束条件都是凸的优化问题,这类问题通常有高效的求解方法和全局最优解。 |
Curse of dimensionality | 维度灾难,指在高维空间中,数据变得极其稀疏,许多低维空间中的直觉和方法不再适用。 |
Differential entropy | 连续随机变量不确定性的度量,是香农熵在连续情况下的推广。 |
Dirac delta function | 狄拉克δ函数,一个在原点处无限大、其他地方为零,且整体积分为1的广义函数。用于描述点质量或点概率。 |
Frequentist probability | 对概率的一种解释,将概率定义为事件在长期重复试验中发生的频率。 |
Frequentist statistics | 统计学的一个学派,将概率模型的参数视为固定的未知常数,通过数据来估计。 |