共查询到20条相似文献,搜索用时 31 毫秒
1.
介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。 相似文献
2.
3.
4.
设计并实现了一个基于MapReduce的网络舆情分析系统。系统采用HDFS和HBase双存储机制存储数据。通过实验分析与效果比对,选用MMSeg4j为系统进行中文分词。改进了Canopy—Kmeans算法实现文本自动聚类,提高了系统的聚类准确度及效率。目前,该系统已应用于某部队舆情分析系统中,能够实时发现热点话题、准确把握舆情趋势,为应对舆论危机、制定舆论政策提供了科学系统的信息支持。 相似文献
5.
微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择能力对VSM特征向量进行降维,然后利用主成分分析(PCA)方法确定K-均值算法的初始聚类中心,进而采用K-均值算法得到聚类结果,最后根据微博转发、评论和高影响力用户数量定义热度指数,热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验,结果表明所提方法相对于2种传统方法的准确率分别提升7.3%和1.1%,实时性分别提升45%和53%。 相似文献
6.
<正>本文设计了一种对K-means初始化改进的Canopy+Kmeans++聚类方法,提高上轨迹聚类算法的效率,为进一步提升轨迹大数据聚类的迭代计算效率,本文利用Spark计算架构的可伸缩性和分布式等特,实现Canopy+Kmeans++轨迹聚类算法的并行化,并通过对比实验来证明该并行化聚类方案的有效性。 相似文献
7.
8.
由Jeh和Widom提出的SimRank算法是一种普适"结构相似度"计算模型。由于SimRank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本文提出了基于MapReduce计算模型的分布式SimRank算法,利用该算法对RDF图进行相似度度量,然后利用分布式的AP聚类算法对图节点进行聚类分析。实验结果表明,该方法能够高效的完成图节点的相似度度量,实现图的有效聚类。 相似文献
9.
针对雷达信号分选中辐射源数目不确定、脉冲数据分布形式复杂、对噪声影响敏感等问题,提出了一种基于改进谱聚类联合数据场理论的聚类分选算法。该算法首先利用数据场理论对数据进行预处理,根据势值大小实现干扰点的去除,并利用势心的数目确定初始聚类数,然后再利用网格密度划分得到合理的地标点,最后再基于地标稀疏表示的谱聚类算法完成聚类分选。通过设置两组类型不同的脉冲信号数据进行仿真实验,分选正确率均达到95%以上,验证了该算法具有较高准确率和鲁棒性。 相似文献
10.
近年来,各领域内频频发生各类突发事件,对社会稳定发展产生了一定程度的影响.本文提出了一种基于多种词特征的微博突发事件检测模型,可以在海量微博数据中对突发事件进行检测,便于相关决策者进行微博监控和舆论引导,尽可能减少突发事件给社会带来的危害.首先根据时间信息对微博数据进行时间切片,对每一个时间窗口内的数据分别计算各个词语的词频特征、话题标签特征和词频增长率特征;然后基于D-S证据理论和层次分析法,确定词的各个特征权重,并进行加权融合得到词的突发特征值,将突发特征值大的词挑选出来构成突发特征词集,构建基于共现度和结合紧密度的突发事件特征词集的耦合度矩阵;最后将该耦合度矩阵作为凝聚式层次聚类算法的输入,生成一棵由突发词为叶子节点的二叉树,并采用内部相似度的二叉树剪枝算法对聚类结果进行划分,即可实现对相应时间窗口突发事件的检测.实验结果表明,基于突发词的事件检测模型在簇内部相似度阈值等于1.1时效果最好,正确率达到0.8462、召回率达到0.8684、F值为0.8571,表明了本文所提方法的有效性. 相似文献
11.
12.
传统的减法聚类算法时间复杂度高,算法不具有分布式特性,不满足大数据处理的要求.提出一种基于Hadoop的改进减法聚类算法,利用MapReduce模型改进减法聚类执行过程,实现求解邻域半径、初始化密度指标、更新密度指标和划分数据记录等过程的并行化.实验结果表明,同传统的串行算法相比,提出的算法能够对大数据进行快速聚类,同时表现出良好的稳定性与扩展性. 相似文献
13.
14.
解决数据稀疏问题是中心词驱动句法分析中的一个重要问题,基于词类的统计语言模型是解决统计模型数据稀疏问题的重要方法.本文在分析经典平滑算法的基础上,提出一种基于语义依存信息和互信息的词聚类算法,并利用绝对权重差分方法构造了一种可变长语言模型,即根据历史词对当前词预测所作的贡献不同,n值的大小也随之变化.进而提出了一种基于语义类和可变长模型的中心词驱动句法分析改进模型,既增强了句法分析模型的消歧能力,又解决了严重的数据稀疏问题.改进模型性能有了明显的提高,精确率和召回率分别为84.53%和82.41%,综合指标F值比Collins的中心词驱动句法分析模型提高了2.02个百分点. 相似文献
15.
针对在线文本情感摘要生成问题,本文提出了一种基于Opinosis图和马尔科夫随机游走模型的情感摘要框架.首先,该框架将原始文本转化为Opinosis图,并利用其挖掘出文本中的特征词,这些特征词可以用来对原始文本的句子进行分类;其次本文在基于聚类的条件马尔科夫随机游走模型的基础上增加了情感层,改进后的模型可以判断同一聚类中各句子的情感倾向是否具有代表性并结合情感和聚类信息对句子进行排序.实验结果表明,本文提出的方法与基准算法相比在ROUGE(Recall-Oriented Understudy for Gisting Evaluation)值上具有明显提高. 相似文献
16.
17.
基于EM(Expectation Maximization)的混合模型聚类的效果与参数的初始值存在密切的关系.提出了一种基于近似密度的EM参数初始化方法,该方法用近似密度估计聚类样本点,再根据每个聚类统计EM的混合比、均值、协方差参数的初始值.并应用于人体腹部医学图像数据的高斯混合模型聚类分析,实验结果表明该方法比Kmeans随机初始化方法有更好的聚类效果. 相似文献
18.
19.
针对基于密度的聚类算法不能发现密度分布不均匀数据样本的问题,提出了一种基于自适应密度阈值的未知雷达信号分选算法。该方法利用同一部雷达数据的分布特性进行聚类,通过寻找局部密度阈值,以达到分选不同密度分布的雷达信号的目的,并且在此基础上提出一个引理,提升了算法的时间效率。算法测试表明,该方法对噪声不敏感,能够发现任意形状、大小和密度的聚类。 相似文献