博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
02-NLP-02-朴素贝叶斯
阅读量:5775 次
发布时间:2019-06-18

本文共 2515 字,大约阅读时间需要 8 分钟。

朴素贝叶斯

1. 引言

贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。

2. 贝叶斯公式

贝叶斯公式就一行:

P(Y|X)=P(X|Y)P(Y)P(X)

而它其实是由以下的联合概率公式推导出来:

P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)

其中P(Y)叫做先验概率,P(Y|X)叫做后验概率,P(Y,X)叫做联合概率。

没了,贝叶斯最核心的公式就这么些。

3. 用机器学习的视角理解贝叶斯公式

在机器学习的视角下,我们把X理解成“具有某特征”,把Y理解成“类别标签”(一般机器学习为题中都是X=>特征Y=>结果对吧)。在最简单的二分类问题(判定)下,我们将Y理解成“属于某类”的标签。于是贝叶斯公式就变形成了下面的样子:

P(|)=P(|)P()P()

我们简化解释一下上述公式:

P(|)=在已知某样本“具有某特征”的条件下,该样本“属于某类”的概率。所以叫做『后验概率』

P(|)=在已知某样本“属于某类”的条件下,该样本“具有某特征”的概率。 
P()=(在未知某样本具有该“具有某特征”的条件下,)该样本“属于某类”的概率。所以叫做『先验概率』
P()=(在未知某样本“属于某类”的条件下,)该样本“具有某特征”的概率。

而我们二分类问题的最终目的就是要判断P(|)是否大于1/2就够了。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,而后者获取方法就简单多了,我们只需要找到一些包含已知特征标签的样本,即可进行训练。而样本的类别标签都是明确的,所以贝叶斯方法在机器学习里属于有监督学习方法。

这里再补充一下,一般『先验概率』、『后验概率』是相对出现的,比如P(Y)P(Y|X)是关于Y的先验概率与后验概率,P(X)P(X|Y)是关于X的先验概率与后验概率。

4. 垃圾邮件识别(二分类问题)

举个例子好啦,我们现在要对邮件进行分类,识别垃圾邮件和普通邮件,如果我们选择使用朴素贝叶斯分类器,那目标就是判断P(|)是否大于1/2。现在假设我们有垃圾邮件和正常邮件各1万封(实际中垃圾邮件的数目会更少,这里存在一个数据不平衡的问题)作为训练集。需要判断以下这个邮件是否属于垃圾邮件:

“我司可办理正规发票(保真)17%增值税发票点数优惠!”

也就是判断概率P(|17%)是否大于1/2

咳咳,有木有发现,转换成的这个概率,计算的方法:就是写个计数器,然后+1 +1 +1统计出所有垃圾邮件和正常邮件中出现这句话的次数啊!!!好,具体点说:

如果采用将此句完整的话在所有样本中检索,可能只会出现一次,很难检索到。因此此方法行不通,需要先进行分词然后再检索。即从现在粗粒度的一大段话,转化为细粒度的分词。

P(|17%) =+

5. 分词

一个很悲哀但是很现实的结论: 训练集是有限的,而句子的可能性则是无限的。所以覆盖所有句子可能性的训练集是不存在的。因此,需要用更加细粒度的分词来解决。

所以解决方法是? 句子的可能性无限,但是词语就那么些!!汉语常用字2500个,常用词语也就56000个(你终于明白小学语文老师的用心良苦了)。按人们的经验理解,两句话意思相近并不强求非得每个字、词语都一样。比如“我司可办理正规发票,17%增值税发票点数优惠!”,这句话就比之前那句话少了“(保真)”这个词,但是意思基本一样。如果把这些情况也考虑进来,那样本数量就会增加,这就方便我们计算了。

于是,我们可以不拿句子作为特征,而是拿句子里面的词语(组合)作为特征去考虑。比如“正规发票”可以作为一个单独的词语,“增值税”也可以作为一个单独的词语等等。

句子“我司可办理正规发票,17%增值税发票点数优惠!”就可以变成(“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”))

于是你接触到了中文NLP中,最最最重要的技术之一:分词!!!也就是把一整句话拆分成更细粒度的词语来进行表示。另外,分词之后去除标点符号、数字甚至无关成分(停用词)是特征预处理中的一项技术

中文分词是一个专门的技术领域(我不会告诉你某搜索引擎厂码砖工有专门做分词的!!!),上过之前课程的同学都知道python有一个非常方便的分词工具jieba,假定我们已经完成分词工作:

我们观察(“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”),这可以理解成一个向量:向量的每一维度都表示着该特征词在文本中的特定位置存在。这种将特征拆分成更小的单元,依据这些更灵活、更细粒度的特征进行判断的思维方式,在自然语言处理与机器学习中都是非常常见又有效的。

关键词抽取(统计概率的方法):jieba中有,sklearn中有feature_extraction.text

因此贝叶斯公式就变成了:

P(|,,,,,,,,,) =P(,,,,,,,,,)|""P()P(,,,,,,

转载于:https://www.cnblogs.com/Josie-chen/p/9124558.html

你可能感兴趣的文章
分布式缓存的面试题2
查看>>
响应式网站对百度友好关键
查看>>
洛谷P2179 骑行川藏
查看>>
暑假周总结三
查看>>
debian stretch + kernel 4.4 固件发布(支持硬件加速),可安装kodi
查看>>
(十八)js控制台方法
查看>>
VB关键字总结
查看>>
虚拟机类加载机制
查看>>
android代码生成jar包并混淆
查看>>
Java基础2-基本语法
查看>>
SPI总线通信电路设计
查看>>
一个不错的vue项目
查看>>
屏蔽指定IP访问网站
查看>>
[leetcode] 237. Delete Node in a Linked List
查看>>
python学习 第一天
查看>>
根据毫秒数计算出当前的“年/月/日/时/分/秒/星期”并不是件容易的事
查看>>
python的图形模块PIL小记
查看>>
shell变量子串
查看>>
201521123009 《Java程序设计》第8周学习总结
查看>>
iOS的主要框架介绍 (转载)
查看>>