机器学习(2)-朴素贝叶斯

朴素贝叶斯

朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的分类算法,被广泛用于文本分类和其他分类问题。它被称为”朴素”是因为它假设每个特征与其他特征之间都是相互独立的,这是一个较为简化的假设,但在实践中,朴素贝叶斯通常表现得相当好。

在朴素贝叶斯中,我们考虑一个分类问题,其中 A 是类别,而 B 是特征。贝叶斯定理用于计算给定特征的情况下某个类别的概率。我们可以使用训练数据中的频率估计概率,并计算每个类别的概率。然后,给定一个新的特征向量,我们可以使用贝叶斯定理计算每个类别的后验概率,并选择具有最高概率的类别作为预测结果。

朴素贝叶斯公式

贝叶斯定理

贝叶斯定理描述了在已知某些证据的情况下,某个假设的概率:

其中:

  • ( P(A|B) ) 是在事件 B 发生的情况下,事件 A 发生的后验概率。
  • ( P(B|A) ) 是在事件 A 发生的情况下,事件 B 发生的条件概率。
  • ( P(A) ) 是事件 A 发生的先验概率。
  • ( P(B) ) 是事件 B 发生的边缘概率。

\subsection*{朴素贝叶斯分类器}

在朴素贝叶斯分类器中,假设特征之间相互独立。对于一个给定的样本 ( x = (x_1, x_2, \ldots, x_n) ),我们需要计算每个类别的后验概率 ( P(C_k | x) ),并选择具有最高后验概率的类别作为预测结果。

后验概率

根据贝叶斯定理,后验概率可以表示为:

其中:

  • ( P(C_k | x) ) 是在特征向量 ( x ) 给定的情况下,类别 ( C_k ) 的后验概率。
  • ( P(x | C_k) ) 是在类别 ( C_k ) 给定的情况下,特征向量 ( x ) 的条件概率。
  • ( P(C_k) ) 是类别 ( C_k ) 的先验概率。
  • ( P(x) ) 是特征向量 ( x ) 的边缘概率。

条件概率

由于假设特征之间相互独立,条件概率 ( P(x | C_k) ) 可以分解为各个特征的条件概率的乘积:

类别先验概率

类别先验概率 ( P(C_k) ) 通常通过训练数据中的类别频率来估计:

边缘概率

边缘概率 ( P(x) ) 可以通过全概率公式计算:

但在实际应用中,通常不需要显式计算 ( P(x) ),因为它是所有类别的后验概率的归一化常数,不会影响类别的选择。

最大后验概率

选择具有最大后验概率的类别作为预测结果:

机器学习(2)-朴素贝叶斯

http://yoursite.com/2021/08/29/ML-1/

Author

s-serenity

Posted on

2021-08-29

Updated on

2024-11-04

Licensed under

You need to set install_url to use ShareThis. Please set it in _config.yml.
You forgot to set the business or currency_code for Paypal. Please set it in _config.yml.

Comments

You forgot to set the shortname for Disqus. Please set it in _config.yml.