一种分布式中文微博热点话题的发现方法 |
| |
引用本文: | 张翔,吝睿涛.一种分布式中文微博热点话题的发现方法[J].无线互联科技,2014(12):168-169. |
| |
作者姓名: | 张翔 吝睿涛 |
| |
作者单位: | 西安建筑科技大学信息与控制工程学院; |
| |
摘 要: | 针对微博数据文本内容短小、特征词稀疏以及规模庞大的特点,提出了一种基于MapReduce编程模型的发现微博热点话题的方法。该方法首先利用隐主题分析技术解决了微博内容短小、特征词稀疏的问题,然后利用CURE算法缓解了Kmeans算法对初始点敏感的问题,最后采用基于MapReduce编程模型Kmeans聚类算法,对海量微博短文本数据进行快速聚类。实验结果表明该方法可以有效提高微博热点话题发现的效率。
|
关 键 词: | 微博 MapReduce Kmeans 聚类 话题发现 |
本文献已被 CNKI 维普 等数据库收录! |
|