首页 | 官方网站   微博 | 高级检索  
     

基于集成学习的标题分类算法研究
引用本文:高元,刘柏嵩.基于集成学习的标题分类算法研究[J].计算机应用研究,2017,34(4).
作者姓名:高元  刘柏嵩
作者单位:宁波大学,宁波大学
摘    要:标题分类是对一个标题性语句进行分类,通常这个标题是不超过20个字的短文本,内容精炼概括性强。针对标题文本的特征稀疏性和含义不确定性,提出了一种融合随机森林与贝叶斯多项式的标题分类算法。该算法把贝叶斯多项式模型引入到随机森林底层分类器构建过程中,同时利用随机森林附带的OOB数据提出了一种基于二维权重分布的投票机制。最后在图书馆真实书目数据上进行实验,针对分类性能与当前基于LDA主题扩展的SVM算法进行对比。实验结果表明在一定条件下,该方法性能稳定,表现较佳。

关 键 词:自然语言处理    标题分类    集成学习    改进随机森林    OOB二维权重分布  
收稿时间:2016/3/14 0:00:00
修稿时间:2017/2/15 0:00:00

Headlines classification method based on ensemble learning
Gao Yuan and Liu Baisong.Headlines classification method based on ensemble learning[J].Application Research of Computers,2017,34(4).
Authors:Gao Yuan and Liu Baisong
Affiliation:University of Ningbo,
Abstract:
Keywords:natural language processing  headlines classification  ensemble learning  improved random forest  OOB two-dimensional weight distribution
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号