机器学习(2)-朴素贝叶斯
朴素贝叶斯
朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的分类算法,被广泛用于文本分类和其他分类问题。它被称为”朴素”是因为它假设每个特征与其他特征之间都是相互独立的,这是一个较为简化的假设,但在实践中,朴素贝叶斯通常表现得相当好。
在朴素贝叶斯中,我们考虑一个分类问题,其中 A 是类别,而 B 是特征。贝叶斯定理用于计算给定特征的情况下某个类别的概率。我们可以使用训练数据中的频率估计概率,并计算每个类别的概率。然后,给定一个新的特征向量,我们可以使用贝叶斯定理计算每个类别的后验概率,并选择具有最高概率的类别作为预测结果。
朴素贝叶斯公式
贝叶斯定理
贝叶斯定理描述了在已知某些证据的情况下,某个假设的概率:
其中:
- ( P(A|B) ) 是在事件 B 发生的情况下,事件 A 发生的后验概率。
- ( P(B|A) ) 是在事件 A 发生的情况下,事件 B 发生的条件概率。
- ( P(A) ) 是事件 A 发生的先验概率。
- ( P(B) ) 是事件 B 发生的边缘概率。
\subsection*{朴素贝叶斯分类器}
在朴素贝叶斯分类器中,假设特征之间相互独立。对于一个给定的样本 ( x = (x_1, x_2, \ldots, x_n) ),我们需要计算每个类别的后验概率 ( P(C_k | x) ),并选择具有最高后验概率的类别作为预测结果。
后验概率
根据贝叶斯定理,后验概率可以表示为:
其中:
- ( P(C_k | x) ) 是在特征向量 ( x ) 给定的情况下,类别 ( C_k ) 的后验概率。
- ( P(x | C_k) ) 是在类别 ( C_k ) 给定的情况下,特征向量 ( x ) 的条件概率。
- ( P(C_k) ) 是类别 ( C_k ) 的先验概率。
- ( P(x) ) 是特征向量 ( x ) 的边缘概率。
条件概率
由于假设特征之间相互独立,条件概率 ( P(x | C_k) ) 可以分解为各个特征的条件概率的乘积:
类别先验概率
类别先验概率 ( P(C_k) ) 通常通过训练数据中的类别频率来估计:
边缘概率
边缘概率 ( P(x) ) 可以通过全概率公式计算:
但在实际应用中,通常不需要显式计算 ( P(x) ),因为它是所有类别的后验概率的归一化常数,不会影响类别的选择。
最大后验概率
选择具有最大后验概率的类别作为预测结果:
机器学习(2)-朴素贝叶斯
install_url
to use ShareThis. Please set it in _config.yml
.