第二十篇 机器学习(4)-uplift模型

uplift模型

uplift模型中文为增益模型,是工业界因果推断与机器学习结合最成熟的算法之一。传统的监督学习模型,往往是对输入x去预测一个y,而增益模型注重于x的变化对y的影响,以广告为例,传统的监督学习往往是给定这个特征去预测用户是否会点击,而增益模型注重的是给这个客户投放广告与否对客户是否购买广告商品所产生的影响。

因果推断

因果推断是从观察到的数据中推断出变量之间的因果关系的过程。在统计学和数据科学中,因果推断涉及到尝试理解一个事件或行为是什么导致了另一个事件或行为。这与相关性或关联不同,因果推断试图确定一个变量的变化是否直接导致另一个变量的变化。

第十七篇 强化学习(1)-马尔可夫决策过程

马尔可夫决策过程

马尔可夫性质:当前状态可以完全表征过程。

对于任意有限的马尔可夫决策过程,都存在一个最优策略,不差于其他所有可能的策略。

贝尔曼方程

第零篇 概率论相关(1)-先验概率、后验概率与似然

先验概率、后验概率与似然

今天看到一个比较好的关于先验、后验和似然的通俗解释,先验概率就是基于历史数据的统计经验,后验概率是在已知结果发生时推断原因的概率,似然概率是已知原因推断结果的概率。

根据上述解释,假设我们有一个数据集,这个数据集服从某一种分布,也可以理解为是一个黑盒子模型,黑盒子模型里面包含了很多参数,则似然概率就是已知参数得到某样本的概率,后验概率就是已知某样本得到参数的概率。

为了更理解这一概念,再来看一下著名的贝叶斯公式:

其中$p(\theta)$是先验概率, $P(\theta \mid x)$是后验概率,$p(x \mid \theta)$是似然函数。

这里区分一下两个概念,对于$p(x \mid \theta)$如果$\theta$已知且不变,x是变量,则此函数称为概率函数,而如果x已知且保持不变,$\theta$是变量,则此函数称为似然函数。

最大似然估计(MLE)

最大似然,也就是说要让似然最大,则在数据集上的学习过程就是求模型参数使得当前观察到的样本概率最大,所以最大似然估计的目的就是根据已知的样本结果,反推最有可能导致这个结果的参数值。最大似然估计的适用场景是”模型已定、参数未知”,一个重要前提是样本集中的样本都是独立同分布的随机变量,因为只有独立同分布,样本集的似然函数才能等于各样本似然函数的乘积。

假设一个用于学习的样本集是:$D=\left{x{1}, x{2}, \cdots, x{N}\right}$,来估计参数向量θ,则$l(\theta)=p(D \mid \theta)=p\left(x{1}, x{2}, \cdots, x{N} \mid \theta\right)=\prod{i=1}^{N} p\left(x{i} \mid \theta\right)$,则使得似然函数最大的参数值求解过程为:

最大后验估计(MAP)

最大后验估计与最大似然估计的不同之处在于最大后验估计中引入了先验概率,因此结合贝叶斯公式和最大似然估计,最大后验估计就转化为了:

L2正则就是加入了高斯先验,L1正则就是加入了拉普拉斯先验。

贝叶斯估计

在MLE和MAP中,都是假设模型参数$\theta$未知,但都是固定的值,属于点估计,而在贝叶斯估计中,假设模型参数是未知的随机变量,而不是确定值,最终得到的参数不是具体的值,而是一个分布,然后用这个分布的期望来作为最终的参数值。

总结

最后让我们用大佬讲义中的片段总结一下本篇的主要内容:

参考资料

贝叶斯估计、最大似然估计、最大后验概率估计

极大似然估计、最大后验估计