Optimization

Optimization

The solution of the function could be a local minimum, a local maximum, or a saddle point at a position where the function gradient is zero:

When the eigenvalues of the function’s Hessian matrix at the zero-gradient position are all positive, we have a local minimum for the function.

When the eigenvalues of the function’s Hessian matrix at the zero-gradient position are all negative, we have a local maximum for the function.

When the eigenvalues of the function’s Hessian matrix at the zero-gradient position are negative and positive, we have a saddle point for the function.

references

https://d2l.ai/chapter_optimization/optimization-intro.html

概率论相关(1)-先验概率、后验概率与似然

先验概率、后验概率与似然

今天看到一个比较好的关于先验、后验和似然的通俗解释,先验概率就是基于历史数据的统计经验,后验概率是在已知结果发生时推断原因的概率,似然概率是已知原因推断结果的概率。

根据上述解释,假设我们有一个数据集,这个数据集服从某一种分布,也可以理解为是一个黑盒子模型,黑盒子模型里面包含了很多参数,则似然概率就是已知参数得到某样本的概率,后验概率就是已知某样本得到参数的概率。

为了更理解这一概念,再来看一下著名的贝叶斯公式:

其中$p(\theta)$是先验概率, $P(\theta \mid x)$是后验概率,$p(x \mid \theta)$是似然函数。

这里区分一下两个概念,对于$p(x \mid \theta)$如果$\theta$已知且不变,x是变量,则此函数称为概率函数,而如果x已知且保持不变,$\theta$是变量,则此函数称为似然函数。

最大似然估计(MLE)

最大似然,也就是说要让似然最大,则在数据集上的学习过程就是求模型参数使得当前观察到的样本概率最大,所以最大似然估计的目的就是根据已知的样本结果,反推最有可能导致这个结果的参数值。最大似然估计的适用场景是”模型已定、参数未知”,一个重要前提是样本集中的样本都是独立同分布的随机变量,因为只有独立同分布,样本集的似然函数才能等于各样本似然函数的乘积。

假设一个用于学习的样本集是:$D=\left{x{1}, x{2}, \cdots, x{N}\right}$,来估计参数向量θ,则$l(\theta)=p(D \mid \theta)=p\left(x{1}, x{2}, \cdots, x{N} \mid \theta\right)=\prod{i=1}^{N} p\left(x{i} \mid \theta\right)$,则使得似然函数最大的参数值求解过程为:

最大后验估计(MAP)

最大后验估计与最大似然估计的不同之处在于最大后验估计中引入了先验概率,因此结合贝叶斯公式和最大似然估计,最大后验估计就转化为了:

L2正则就是加入了高斯先验,L1正则就是加入了拉普拉斯先验。

贝叶斯估计

在MLE和MAP中,都是假设模型参数$\theta$未知,但都是固定的值,属于点估计,而在贝叶斯估计中,假设模型参数是未知的随机变量,而不是确定值,最终得到的参数不是具体的值,而是一个分布,然后用这个分布的期望来作为最终的参数值。

总结

最后让我们用大佬讲义中的片段总结一下本篇的主要内容:

参考资料

贝叶斯估计、最大似然估计、最大后验概率估计

极大似然估计、最大后验估计