加入收藏 | 设为首页 |

晚安英文-机器学习总结(算法):高斯、高斯进程、SVM、归一化

海外新闻 时间: 浏览:163 次

高斯

高斯判别剖析(GDA)

关于高维空间中的一般似然和先验函数,很难用贝叶斯定理进行揣度。可是,假如运用已知的散布函数对它们建模是可行的,咱们能够设法经过剖析轻松地处理它们。考虑一个分类问题,将方针分组为苹果或橙子。假定散布p(x | y = apple)和p(x | y = orange)都能够用多元高斯散布建模。关于100100的图画,x将包括1001003的特征(像素色彩RGB)。这是多元高斯散布的通用公式。

运用练习数据集,咱们从每个图画中相同的空间方位(i,j)核算每个特征的平均值。下面的0将是一个30000维向量,包括这些特征的均值,方针是苹果。在核算1时,咱们对ora晚安英文-机器学习总结(算法):高斯、高斯进程、SVM、归一化nge重复相同的进程。

这儿是界说

可是,咱们简化了这个问题,所以咱们对条件概率p(x|y=0)和p(x|y=1)同享相同的协方差矩阵。这个矩阵将运用来自组合数据(苹果和桔子)的图画来核算。由于这种简化,两个条件散布的形状是相同的。如下图所示,在划分类时,咱们能够很简单地在两种形式之间画出一个决议计划鸿沟。

咱们能够删去咱们的简化并别离核算两个协方差矩阵。可是,决议计划鸿沟将是非线性的。实践上,受形状的影响,它会变得十分复杂。

贝叶斯线性回归

假如用高斯散布对先验和似然进行建模是可行的,咱们会这样做,由于后验是高斯散布的,能够很简单地进行剖析核算。

让咱们举一个运用贝叶斯定理和线性回归来树立模型的比如。咱们的方针是运用MAP 找到模型参数

经过将先验和似然性都建模为高斯,MAP变为

上面的后验实践上是高斯散布的,即便它不是很明显。咱们想要找到对应的均值和协方差。

首要,咱们能够将高斯界说扩展为

经过将其与方程进行比较,咱们发现和为:

猜测散布

为了做出猜测,咱们能够将后验散布边缘化,即∫p(y|w)p(w)dw

相同,咱们能够经过剖析来处理积分问题

运用贝叶斯揣度(下图),跟着猜测与已知的圈内练习数据的间隔越来越远,不确认性也会添加。

关于点估核算法,咱们不会估量猜测确实定性。

自动学习

自动学习运用当时的练习数据集在决议下一步应该丈量什么(x₀→y₀)。

让咱们逐渐进行

  1. 运用现有模型核算上面未观察到的x₀的猜测散布。
  2. 挑选一个X 0,其间₀将是最大的并实践丈量相应的Y 0。
  3. 运用贝叶斯线性回归,运用包括新旧丈量值(x₀,y₀)的练习数据集更新后验p(w | y,X)。
  4. 再次重复上述进程以构建模型。

高斯散布的熵为

咱们对x₀的挑选将最大程度地下降后验熵

拉普拉斯迫临

如前所述,咱们能够运用高斯散布对先验和似然进行建模来核算后验散布。但不必定都是高斯函数。但咱们依然能够假定后验函数是高斯散布的并运用拉普拉斯近似核算散布。运用拉普拉斯近似,咱们假定后验函数为高斯函数:

让咱们用MAP核算后验并将f界说为

让咱们留意,上面优化MAP与优化f相同。分子中的指数函数是单调函数。

咱们能够用泰勒展开式将f近似到二阶

拉普拉斯近似的隐秘在于z的挑选,咱们将运用从MAP中优化得到的权值w*作为z,如前所述,优化MAP与优化f是相同的,因而f ' (z)应该等于0。后验散布能够进一步简化为

咱们能够认识到,这契合多元高斯散布的界说,其间

假如咱们运用逻辑回归(yᵢxᵢᵀw) 核算p,则的负逆将为:

这是终晚安英文-机器学习总结(算法):高斯、高斯进程、SVM、归一化究的算法,其间是可调正则化因子

在进程(1)中,咱们能够运用梯度办法或其他优化办法来找到优化的w *。然后,咱们能够运用进程(2)中的公式核算后验的协方差。咱们的后验模型(第3步)将是具有在(1)和(2)中核算的均值和协方差的高斯模型。

高斯进程

多元高斯条件散布

设x为n维向量,能够运用下面的高斯散布用n均值和协方差矩阵建模。

咱们能够将x分红2个子向量x₁ 和x₂。咱们也相应地细分。

现在,咱们要用上面的子重量来表明条件概率p(x₁| x₂)。

这为咱们做出猜测奠定了根底。假定x₂ 是练习数据会集的数据。一般的概念是,假如咱们想对一个新的数据点进行新的猜测,咱们会发现它与现有的练习数据点类似。然后,咱们运用练习数据集的标签揣度成果。

直觉

考虑咱们有两个人的体重和身高(person₁(150,66)和person₂(200,72))。让咱们运用此信息构建一个高斯模型。首要,咱们运用身高信息来树立协方差矩阵,以量化person₁和person₂的类似性。然后,能够用均值为175(即两个人的均值)的高斯散布对两个人的体重进行建模。

假如咱们从该高斯散布中抽取样本,那么这两个人的期望值应别离为150和200。咱们的下一个主要任务是构建一个以身高作为猜测体重的输入的函数。

首要,咱们扩展上面的高斯散布,对person₃和person₄进行两个体重猜测(f₁和f₂)。运用这四个人的身高信息,咱们核算了一个新的协方差矩阵。这个矩阵量化了这四个人之间的相关性。咱们能够从头的散布样本中对person₃和person₄的不知道体重进行猜测。

假如咱们能够对高度值hᵢ进行大规模的猜测呢?

当从采样时,咱们得到了一个将身高(从h₁到h n)映射到体重的函数,就像上面的蓝线相同,即便它看起来很古怪或是过错的。咱们能够重复采样来发生许多函数。这便是为什么高斯进程被认为是在函数上发生散布的原因。

例如,下面的左图演示了另一个高斯进程的5个这样的采样函数(5条曲线以不同的色彩晚安英文-机器学习总结(算法):高斯、高斯进程、SVM、归一化)。

可是,咱们对特定的函数不感兴趣。不过,假如咱们画了足够多的函数,咱们应该能很好地了解x的每个值的期望猜测是什么以及它的或许规模是什么。右上方的图表显现了预期的猜测,暗影区域在一个规范差之内。咱们不再做点估算了。关于特定的x,咱们核算期望猜测(蓝线)及其方差(猜测中的或许规模)。如上所示,跟着咱们远离已知的练习数据点,咱们的猜测的不确认性添加了。

高斯进程公式

其间f是从练习数据生成的散布。f *是咱们要猜测的。给定练习数据,咱们想核算条件散布

让咱们将f * 建模为

依据之前核算的条件散布,咱们能够将f*与f联系起来

和*别离是f和f *的均值(在咱们的示例中,= 175)。

假如数据经过预处理并契合特定条件,则能够进一步简化此公式。例如,假如咱们的练习数据集足够大,而且咱们正在猜测规模与f类似的数据,则能够假定 = *。此外,假如f以零为中心,咱们能够将方程进一步简化为

可是,求K的逆在数值上是不稳定的。因而,咱们能够先用cholesky分化来分化k,然后用线性代数来处理问题。

总归,咱们运用身高信息来树立协方差矩阵来量化people之间的相关性。咱们将此矩阵分化为子组件,并运用其从头创立练习数据会集已知标签的体重散布。

贝叶斯线性回归与高斯进程

让咱们来看看贝叶斯线性回归和高斯进程之间的类似性。贝叶斯线性回归对模型参数w进行高斯散布建模。标签y是另一个以Xw为均值的高斯散布,其方差来自方差为的噪声。关于高斯进程,方差来自于噪声和协方差矩阵K。

在此处的示例中,让咱们进一步将猜测y简化为零中心。当咱们比较这两个猜测时,它们十分类似。差异在于一种运用协方差矩阵,另一种运用核。简而言之,高斯进程能够概念化为核化的贝叶斯线性回归。不是核算xᵢxⱼᵀ,咱们将其替换为核。

这儿总结了怎么运用这两种办法进行新的猜测y₀

支撑向量机(SVM —分类)

在依据高斯的办法中,咱们对每个类的数据散布进行建模(即p(x | y))。然后,咱们能够在数据分类中创立决议计划鸿沟。支撑向量机分类器选用不同的办法,不需求发现散布。它经过线性回归和hinge丢失将数据点分为两个相应的类别之一。在视觉上,SVM在别离两个类时坚持最大的鸿沟。

在上面的SVM示例中,假如wᵀxⁱ<0,则x归于绿色。不然,它归于赤色。当运用hinge丢失时,咱们只关怀挨近相反类的点(支撑向量)。远离边沿鸿沟的点的本钱为零,由于咱们现已正确地对其进行了分类,而且它们不挨近决议计划鸿沟。SVM仅赏罚过错的猜测或挨近过错的猜测。SVM本钱函数中的第一项是hinge丢失。

当yⁱwᵀxⁱ < 1时,它为每个点x添加一个丢失。这些是违背鸿沟束缚的点。第二项是l2正则化。

SVM的方针能够写成下面的优化问题。它以最小的w最大化xw ≥ 1(关于y = 1)。

出于这个方针,SVM最大化了其决议计划鸿沟的余量。而且,练习后的w将笔直于此决议计划鸿沟。

SVM期望xᵀw≥1(关于y = 1),而且要使w最小。这个条件相当于p‖w‖ ≥ 1(其间p是x在w上的投影)。

为了最小化‖w‖,咱们期望尽或许地添加p。其间一个支撑向量(蓝)沿w的投影如下图所示。鄙人面的左图中,没有优化决议计划鸿沟。它的鸿沟比它所能到达的要小。为了添加p,咱们能够顺时针旋转w。

如上所示,它还显着地添加了鸿沟。当咱们的SVM方针企图下降w时,右边的图表显现了它与添加margin的作用是相同的。也便是说,咱们的SVM方针具有与最大化决议计划鸿沟margin相同的作用。

综上所述,假如u和v是两个类鸿沟之间或许间隔最短的支撑向量,那么SVM w*的最优解将坐落uv上,且该解的margin最大。

为了防止过度拟合,咱们调整正则化因子以减轻练习数据中的噪声。下图显现了有无正则化对决议计划鸿沟的影响。假如咱们在数据中存在噪音,则正则化能够协助咱们消除离群值。

SVM with kernels

咱们能够进一步修正SVM,运用核输出作为输入

归一化

一般来说,为了练习一个机器学习模型,咱们首要对输入特征进行规范化,使模型更简单练习。

让咱们学习更多的归一化技能。这些技能与深度学习(DL)的联系或许比机器学习(ML)更亲近。

批归一化

为什么咱们只要在深层网络的每一层中归一化输入时才对输入履行归一化呢?

归一化中运用的均值和方差是由mini-batc晚安英文-机器学习总结(算法):高斯、高斯进程、SVM、归一化h核算得到的。假定深度学习(DL)中的每个后续层或多或少都是i.i.d。这是一个十分斗胆的假定,一般并不正确。可是在许多核算机视觉问题中,这能够在模型练习中带来了巨大的改进。

批归一化引进可练习的参数和。假如上面的=和=,则能够撤销此归一化。在练习开始时,咱们初始化= 1和= 0以充分运用前期练习中的归一化。终究,这些参数将在练习中学习,以确认它应该是什么值。

有一件事咱们需求当心。每一层都用练习数据的均值和方差进行练习。因而,在推理进程晚安英文-机器学习总结(算法):高斯、高斯进程、SVM、归一化中,咱们持续运用练习数据集的均值和方差。这保护了咱们用来练习模型的计算数据。

权重归一化

在批量规范化中,咱们将输入规范化为不同维度的相同份额。在权重归一化中,咱们将权重归一化,而不是归一化到下一层的输入。这是测验改进优化进程的条件并进步处理方案收敛性的测验。

现在,咱们将权重练习分为学习w的巨细和向量方向。也便是说,咱们不是直接练习w,而是练习一个标量g和一个单位向量,使v得到w。

这使咱们能够操控w的巨细,并供给了另一种办法来经过操控w的巨细来操控练习的稳定性。

从某些视点看,批归一化假定到下一层的特征从一个练习数据点到另一个练习数据点具有相同的散布。因而,咱们运用从批次样本核算出的均值和方差对数据进行归一化。尽管它适用于卷积神经网络(CNN),但关于RNN或强化学习而言,在时序模型中每个层或后续层中的哪些特征或许高度相关是个问题。权重归一化与mini-batch或输入假定无关。因而,它更适合于循环神经网络和强化学习。

层归一化

层归一化是处理RNN中批归一化缺陷的另一种归一化办法。这武侠电影儿要问的要害问题是将运用哪些数据来核算归一化特征中的均值和方差。

在批归一化中,它是依据批次样品中的每个特征核算的。在层归一化中,它是依据数据点的特征核算的。

请留意,一个层的输出的改动往往会导致下一个晚安英文-机器学习总结(算法):高斯、高斯进程、SVM、归一化层的总输入的高度相关的改动,特别是关于其输出能够改动许多的relu单元。这表明,经过固定每一层内总输入的均值和方差,能够削减“协变量偏移”问题。因而,咱们核算同一层中所有躲藏单元的层归一化计算…

简而言之,在练习下一层时,层归一化期望使下一层的计算数据坚持一致。