一、贝叶斯决策论
-
贝叶斯决策论(Bayesian decision theory)是采用概率方法进行决策的基本方法。
-
首先,使用主观概率,对未知状态进行概率估计
-
然后,采用贝叶斯公式做概率上的修正
-
最后,利用计算得到的期望概率值与修正后得到的概率做出最后的决策
-
贝叶斯方法的综合判别能力很强
二、朴素贝叶斯法概述
- 朴素贝叶斯法(Naive Bayes)
-基于贝叶斯定理与特征条件独立假设的分类方法。 - 核心思想
- 对于给定的训练数据集
- 首先,基于特征条件独立假设学习输入/输出的联合概率分布
- 然后,基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y
- y即为对应的类别 - 朴素贝叶斯算法,常用作自然语言处理的文本分类任务。
1、朴素贝叶斯法的前导知识
- 先验概率
- 条件概率
- 全概率公式
- 后验概率
2、朴素贝叶斯的算法流程
-
朴素贝叶斯算法总共有三步:
- 计算先验概率
- 统计样本集中样本总量
- 求出类别的可取值的个数
- 对每个类别统计样本数量
- 计算出所有的频率,并用频率逼近概率:
- 计算条件概率
- 将样本集划分成
个子样本集,记作 - 分别对每个样本子集进行计算
- 统计该子集中每个属性a的取值为
的样本的数量,记作 - 于是,可得
- 将样本集划分成
- 预测
- 针对待预测样本t,计算其对于每个类别y的后验概率
- 计算结果概率值最大的类别即为待预测样本的预测类别
- 统计样本集中样本总量
3、朴素贝叶斯算法的优缺点分析
-
优点:
- 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
- 对小规模的数据表现很好
- 对缺失数据不太敏感
-
缺点:
-
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率
-
需要知道先验概率
-
各个属性间是独立的,这个前提假设太强