朴素贝叶斯分类器 基于Hadoop平台MapReduce的实现
通过对提供的训练集的训练,对测试集进行预测。
训练集:好差评 + 已分词好的酒店评价数据
测试集:给定正确答案 + 已经分词好的评价数据
将结果与正确答案对比 验证预测结果的正确性
先验概率基于已有知识对随机事件进行概率预估,但不考虑任何相关因素。
后验概率基于已有知识对随机事件进行概率预估,并考虑相关因素
贝叶斯定理(或称贝叶斯法则、贝叶斯规则)描述了一个事件的可能性,这个可能性是基于了预先对于一些与该事件相关的情况的知识。
训练集上,很多样本的取值可能并不在其中,但是这不并代表这种情况发生的概率为0,因此不应该出现概率为0的可能性,通过卡普拉斯即可修正。
ln函数在大于0的区间单调递增,并且概率计算乘积的时候,多个小概率乘积时容易产生为0的错误结果。均取对数,概率乘积可转换为概率相加,并且不影响大小的比较结果。