首页 | 官方网站   微博 | 高级检索  
     

一种双层贝叶斯模型:随机森林朴素贝叶斯
引用本文:张文钧,蒋良孝,张欢,陈龙.一种双层贝叶斯模型:随机森林朴素贝叶斯[J].计算机研究与发展,2021,58(9):2040-2051.
作者姓名:张文钧  蒋良孝  张欢  陈龙
作者单位:中国地质大学计算机学院 武汉 430074;中国地质大学计算机学院 武汉 430074;智能地学信息处理湖北省重点实验室(中国地质大学) 武汉430074
摘    要:文本分类是自然语言处理领域的一项基础工作.文本数据的高维性和稀疏性,给文本分类带来了许多问题和挑战.朴素贝叶斯模型因其简单、高效、易理解的特点被广泛应用于文本分类任务,但其属性条件独立假设在现实的文本数据中很难满足,从而影响了它的分类性能.为了削弱朴素贝叶斯的属性条件独立假设,学者们提出了许多改进方法,主要包括结构扩展、实例选择、实例加权、特征选择、特征加权等.然而,所有这些方法都是基于独立的单词特征来构建朴素贝叶斯分类模型,在一定程度上限制了它们的分类性能.为此,尝试用特征学习的方法来改进朴素贝叶斯文本分类模型,提出了一种双层贝叶斯模型:随机森林朴素贝叶斯(random forest naive Bayes,RFNB).RFNB分为2层,第1层利用随机森林从原始的单词特征中学习单词组合的高层特征.然后将学习到的新特征输入第2层,经过一位有效编码后用于构建伯努利朴素贝叶斯模型.在大量广泛使用的文本数据集上的实验结果表明,提出的RFNB模型明显优于现有的最先进的朴素贝叶斯文本分类模型和其他经典的文本分类模型.

关 键 词:朴素贝叶斯  随机森林  特征学习  特征表示  文本分类

A Two-Layer Bayes Model:Random Forest Naive Bayes
Zhang Wenjun,Jiang Liangxiao,Zhang Huan,Chen Long.A Two-Layer Bayes Model:Random Forest Naive Bayes[J].Journal of Computer Research and Development,2021,58(9):2040-2051.
Authors:Zhang Wenjun  Jiang Liangxiao  Zhang Huan  Chen Long
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号