贝叶斯分类(朴素)
• 是一种统计学分类方法
• 可以用来对一个未知的样本判定其属于特定类的概率
• 分类模型是在有指导的学习下获得
• 分类算法可与决策树和神经网络算法媲美
• 用于大型数据库时具有较高的分类准确率和高效率。
基础概念
朴素贝叶斯分类的假设前提:类别C确定的情况下,不同属性(X1,X2)间是相互独立的,即条件独立。(朴素即为条件独立)
即:C确定下,P(X1,X2)=P(X1)P(X2) ;或表示为:P(X1,X2|C)=P(X1|C)P(X2|C)
设X是未知类别的数据样本(属性值已知),H为假定:X属于某特定类的类C。分类问题即为,确定P(H|X)——给定观测数据样本X,假定H成立的概率。
后验概率:P(H|X),在条件X下,H的后验概率
先验概率:P(H)
贝叶斯定理
注:P(X/H)相当于已知带标签的数据,即有导师了。
换个表达形式就会明朗很多: