基于卡方特征选择和LDA主题模型的中文短文本分类期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于卡方特征选择和LDA主题模型的中文短文本分类

作者姓名：	郑诚熊大康刘倩倩

作者单位：	安徽大学计算机科学与技术学院;

摘要：	中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。
关键词：	短文本分类特征选择主题模型
本文献已被 CNKI 等数据库收录！