基于LDA模型融合Catboost算法的文本自动分类系统设计与实现 |
| |
引用本文: | 刘爱琴,郭少鹏,张卓星.基于LDA模型融合Catboost算法的文本自动分类系统设计与实现[J].国家图书馆学刊,2023,32(5):84-92. |
| |
作者姓名: | 刘爱琴 郭少鹏 张卓星 |
| |
作者单位: | 山西大学经济与管理学院 |
| |
摘 要: | 互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。
|
关 键 词: | 隐含狄利克雷分布(LDA) 文本自动分类 SVM算法 Catboost算法 |
本文献已被 维普 等数据库收录! |
| 点击此处可从《国家图书馆学刊》浏览原始摘要信息 |
|
点击此处可从《国家图书馆学刊》下载全文 |
|