使用概念描述的中文短文本分类算法 |
| |
引用本文: | 杨天平,朱征宇.使用概念描述的中文短文本分类算法[J].计算机应用,2012,32(12):3335-3338. |
| |
作者姓名: | 杨天平 朱征宇 |
| |
作者单位: | 1. 重庆大学 计算机学院,重庆 4000302. 重庆大学 软件工程重庆市重点实验室,重庆 400030 |
| |
基金项目: | 科技部国家科技支撑计划重点项目(2011BAH25B04) |
| |
摘 要: | 针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种使用了概念描述的短文本分类算法,该方法首先构建出全局的语义概念词表;然后,使用概念词表分别对预测短文本和训练短文本概念化描述,使得预测短文本在训练集中找出拥有相似概念描述的训练短文本组合成预测长文本,同时将训练集内部的短文本也进行自组合形成训练长文本;最后,再使用传统的长文本分类算法进行分类。实验证明,该方法能够有效挖掘短文本内部隐含的语义信息,充分对短文本进行语义扩展,提高了短文本分类的准确度。
|
关 键 词: | 短文本分类 概念描述 数据挖掘 机器学习 自然语言处理 |
收稿时间: | 2012-06-10 |
修稿时间: | 2012-07-27 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《计算机应用》浏览原始摘要信息 |
|
点击此处可从《计算机应用》下载全文 |
|