一种改进的短文本层次聚类算法 |
| |
引用本文: | 李天彩,席耀一,王波,张佳明.一种改进的短文本层次聚类算法[J].信息工程大学学报,2015,16(6). |
| |
作者姓名: | 李天彩 席耀一 王波 张佳明 |
| |
作者单位: | 信息工程大学 |
| |
摘 要: | 互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差。提出了一种使用词向量表示特征并结合关键词提取的短文本聚类算法:定义特征权重计算公式,计算类簇中特征的权重,得到类簇的关键词;使用Skip gram模型训练得到的词向量计算关键词之间的语义相似度进而得到类簇的相似度实现聚类。在4个数据集上进行的实验结果表明文章的方法效果优于传统的聚类算法,宏平均较次优结果分别提高了22.3%、24.9%、2.9%和34.4%。
|
关 键 词: | 短文本 聚类 词向量 关键词提取 |
Improved Short Text Hierarchical Clustering Algorithm |
| |
Affiliation: | Information Engineering University |
| |
Abstract: | |
| |
Keywords: | short texts clustering word vector keyword extraction |
|
| 点击此处可从《信息工程大学学报》浏览原始摘要信息 |
|
点击此处可从《信息工程大学学报》下载全文 |
|