文章目录
- 一、 朴素贝叶斯分类器 简介
- 二、 后验概率 及 对比内容
- 三、 先验概率 及 未知处理方案
- 四、 处理多属性数据集方案
- 五、 朴素贝叶斯分类 案例
一、 朴素贝叶斯分类器 简介
1 . 分类任务简介 :
① 样本和属性 : 给定一个数据集 , 每个样本都有
维的特征向量 , 即每个样本有
个属性值 ;
② 属性值分类 : 样本的某个属性值
有
个取值类型 , 即根据该属性
可以将样本分为
类 ;
③ 分类操作 : 给定未知样本
, 将其按照属性值
, 分为
个类型中的一类 ;
2 . 朴素贝叶斯分类器 分类过程 :
① 提出假设 : 假设属性的
个取值分别是
;
② 计算每个分类的概率 :
样本
属于
类别的概率 :
;
样本
属于
类别的概率 :
;
样本
属于
类别的概率 :
;
③ 分类结果确定 : 将样本
分类为
类别 , 前提是该类别概率是最大的 , 其大于其余
样本属于其余类别的概率 , 表示为 :
二、 后验概率 及 对比内容
1 . 后验概率 : 上述的 样本
属于
类别的概率
是最大的 , 贝叶斯方法中会将该
样本分类为
类别 , 同时该最大概率称为 后验概率 ;
根据贝叶斯定理可以计算后验概率值 :
2 . 对比不同假设的概率 :
① 不考虑
:
是一个常数 , 可以不考虑该值 , 所有的概率都除以了该值 , 对比各个类别概率时 , 可以不考虑改值具体是多少 ;
② 对比内容 : 只对比不同概率的
的值大小即可 ;
三、 先验概率 及 未知处理方案
1 . 先验概率未知 : 如果先验概率
是未知的
2 . 概率相等策略 : 那么假定这些类型
出现的概率是相等的 ;
① 如 : 进行邮件过滤时 , 不知道收到正常邮件 , 和垃圾邮件的概率各是多少 , 假定
概率收到正常邮件 , 假定
概率收到垃圾邮件 ;
② 如果上述类别的先验概率
相等 , 那么只需要对比 似然概率
的大小即可 ;
3 . 使用测试集数据计算先验概率 :
① 已知条件 :
是训练集数据样本总个数 ,
是被分类为
类别的样本个数 , 即属性
取值
的样本个数 ;
② 计算方法 : 计算
先验概率 , 使用
公式计算即可 , 即将本训练集中的分类比例当做其先验概率 ;
四、 处理多属性数据集方案
1 . 多属性特征 : 如果要处理的样本数据的特征有
个属性 , 其取值
组成了向量
;
2 . 后验概率 : 计算最终分类为
时 , 多个属性的取值为
向量的概率 , 即
3 . 朴素贝叶斯由来 : 朴素地认为这些属性之间不存在依赖关系 , 就可以使用乘法法则计算这些属性取值同时发生的概率 ;
4 . 计算单个分类概率 : 分类为
时
个属性每个取值取值概率 :
当最终分类为
时 , 第
个属性取值
的概率为
;
当最终分类为
时 , 第
个属性取值
的概率为
;
当最终分类为
时 , 第
个属性取值
的概率为
;
最终分类为
时 ,
个属性取值
向量的概率 :
5 . 多属性分类概率总结 : 分类为
时
个属性取值
向量的概率为 :
6 . 分类属性
计算方式 : 如果第
个属性的取值是离散的 , 即分类属性 , 那么通过以下公式计算 :
是分类为
类型的数据集样本个数 ;
是被分类成
类型的样本中 , 并且第
个值是
的样本个数 ;
7 . 回归属性
计算方式 : 如果第
个属性的取值是连续的 , 即回归属性 , 那么通过以下公式计算 :
这是通过概率密度函数进行计算 , 假定该属性服从高斯分布概率模型 ;
是高斯分布概率密度函数 ,
是平均值 ,
是标准差 ;
8 . 样本分类 :
① 样本 : 给出未知属性类型样本 , 其
个已知的属性取值为
向量 ;
② 分类个数 : 其根据分类属性可能分为
类 ;
③ 分类 : 求其取值为
向量时 , 分类为
的概率 , 哪个概率最大 , 其被分为哪个
类型 , 表示为
④ 后验概率 : 多属性取值为
向量时 , 分类为
的概率进行比较 , 分母都是
, 是一个常数 , 可以不考虑这种情况 , 只比较
值的大小 ,
值最大的情况 , 就是分类的目标分类
, 也就是后验概率 ;
五、 朴素贝叶斯分类 案例
1 . 需求 : 根据 年龄 , 收入水平 , 是否是学生 , 信用等级 , 预测该用户是否会购买商品 ;
年龄 | 收入水平 | 是否是学生 | 信用等级 | 是否购买商品 |
---|---|---|---|---|
小于 30 岁 | 高收入 | 不是 | 一般 | 不会 |
小于 30 岁 | 高收入 | 不是 | 很好 | 不会 |
31 ~ 39 岁 | 高收入 | 不是 | 一般 | 会 |
40 岁以上 | 中等收入 | 不是 | 一般 | 会 |
40 岁以上 | 低收入 | 是 | 一般 | 会 |
40 岁以上 | 低收入 | 是 | 很好 | 不会 |
31 ~ 40 岁 | 低收入 | 不是 | 很好 | 会 |
小于 30 岁 | 中等收入 | 不是 | 一般 | 不会 |
小于 30 岁 | 低收入 | 是 | 一般 | 会 |
40 岁以上 | 中等收入 | 是 | 一般 | 会 |
小于 30 岁 | 中等收入 | 是 | 很好 | 会 |
31 ~ 39 岁 | 中等收入 | 不是 | 很好 | 会 |
31 ~ 39 岁 | 高收入 | 是 | 一般 | 会 |
40 岁以上 | 中等收入 | 不是 | 很好 | 不会 |
2 . 为某未知类型样本进行分类 ;
① 未知样本的
个属性值为 : 年龄 小于 30 岁 , 收入 中等 , 是否是学生 是 , 信用等级 一般 , 四个值组成向量
;
② 分类类型 : 是否购买商品 , 是 或者 否 ; 购买商品为 时间
, 不购买商品为事件
;
③ 样本
个属性取值
, 并且类型为
的概率 :
;
④ 样本
个属性取值
, 并且类型为
的概率 :
;
3 . 计算取值
向量时 , 某分类的概率
:
① 以
计算为例 : 样本
个属性取值
, 并且类型为
的概率 , 直接求该概率是无法计算的 ;
② 引入贝叶斯公式 : 使用其逆概率
, 当类型是
是 , 取值为
的概率 ;
③ 逆概率
: 当类型是
是 , 取值为
的概率 ; 即 当购买商品时 , 前
个属性取值为
向量的概率 ;
4 . 计算取值
向量时 , 某分类的概率
:
① 以
计算为例 : 样本
个属性取值
, 并且类型为
的概率 , 直接求该概率是无法计算的 ;
② 引入贝叶斯公式 : 使用其逆概率
, 当类型是
是 , 取值为
的概率 ;
③ 逆概率
: 当类型是
是 , 取值为
的概率 ; 即 当购买商品时 , 前
个属性取值为
向量的概率 ;
5 . 比较取值
和 取值
的两个概率 :
① 原始概率 : 将
和
两个概率进行比较 ;
即
和
两个概率进行比较 ;
② 省略分母比较分子 : 分母都是
, 可以只比较分子 ,
和
进行比较 ;
6 . 计算
个先验概率 :
表示购买商品的概率 , 即上面
个训练集样本中 , 购买商品的概率 , 是
;
表示不买商品的概率 , 即上面
个训练集样本中 , 不买商品的概率 , 是
;
7 . 计算
概率 : 样本用户购买商品时 , 前
个属性取值
向量的概率 ;
① 属性独立 : 朴素贝叶斯分类中认为属性间都是独立的 , 互不干扰 , 可以将 “前
个属性取值
向量的概率” 变成概率乘积 ;
② 未知样本的
个属性值为 : 年龄 小于 30 岁 , 收入 中等 , 是否是学生 是 , 信用等级 一般 , 四个值组成向量
;
计算 : 买商品的用户样本中 , 取值为
向量的概率 , 如下 :
其中 :
买商品的用户中 , 年龄 小于 30 岁的概率 ;
买商品的用户中 , 收入中等的概率 ;
买商品的用户中 , 是学生的概率 ;
买商品的用户中 , 信用等级一般的概率 ;
③
计算 :
个人买商品 , 其中有
个小于 30 岁 ;
④
计算 :
个人买商品 , 其中有
个 中等收入者 ;
⑤
计算 :
个人买商品 , 其中有
个 是学生 ;
⑥
计算 :
个人买商品 , 其中有
个人信用等级一般 ;
⑦
计算结果 :
8 . 计算
值 :
9 . 计算
概率 : 样本用户没有购买商品时 , 前
个属性取值
向量的概率 ;
① 属性独立 : 朴素贝叶斯分类中认为属性间都是独立的 , 互不干扰 , 可以将 “前
个属性取值
向量的概率” 变成概率乘积 ;
② 未知样本的
个属性值为 : 年龄 小于 30 岁 , 收入 中等 , 是否是学生 是 , 信用等级 一般 , 四个值组成向量
;
计算 : 不买商品的用户样本中 , 取值为
向量的概率 , 如下 :
其中 :
不买商品的用户中 , 年龄 小于 30 岁的概率 ;
不买商品的用户中 , 收入中等的概率 ;
不买商品的用户中 , 是学生的概率 ;
不买商品的用户中 , 信用等级一般的概率 ;
③
计算 :
个人不买商品 , 其中有
个小于 30 岁 ;
④
计算 :
个人不买商品 , 其中有
个 中等收入者 ;
⑤
计算 :
个人不买商品 , 其中有
个 是学生 ;
⑥
计算 :
个人不买商品 , 其中有 $2 个人信用等级一般 ;
⑦
计算结果 :
10 . 计算
值 :
11 . 比较
和
两个值 :
由上面进行对比得出 , 使用朴素贝叶斯分类 , 该样本用户会购买商品 ;