共查询到19条相似文献,搜索用时 93 毫秒
1.
2.
3.
《电子技术与软件工程》2016,(3)
在复杂网络中自动发现社团具有重要的实际应用价值。本文提出一种基于Jaccard相似度的社团发现方法,首先使用结点的相似度寻找优先邻居结点,再从优先邻居结点中获得最佳邻居结点,最后将互为友好结点的两个结点合并,最终得到若干个结点的组成小社团,然后利用CNM算法凝聚小社团,完成社团发现聚类。实验表明本算法执行时间缩短,所发现社团模块度增加,是一个有效的社团发现算法。 相似文献
4.
5.
针对微博数据文本内容短小、特征词稀疏以及规模庞大的特点,提出了一种基于MapReduce编程模型的发现微博热点话题的方法。该方法首先利用隐主题分析技术解决了微博内容短小、特征词稀疏的问题,然后利用CURE算法缓解了Kmeans算法对初始点敏感的问题,最后采用基于MapReduce编程模型Kmeans聚类算法,对海量微博短文本数据进行快速聚类。实验结果表明该方法可以有效提高微博热点话题发现的效率。 相似文献
6.
微博中水军发表的评论内容具有重复或者相似性,提出了基于文本相似度的微博网络水军发现算法.评论内容可以用特征码来表示.特征码再通过高效的B-Tree来索引,使整个系统具有极高的处理效率.根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为水军.再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性.试验表明,该方法能够准确、有效地找出水军账户. 相似文献
7.
针对微博口语化、文本短小等特点以及现有研究的不足,本文提出了一种融合用户关系的自适应微博话题跟踪方法.首先,在当前跟踪的时间窗内,推文被映射到特征空间,并作为候选推文集合.然后,针对推文的分布特点以及话题跟踪的目的,变换推文特征空间.在此基础上,利用改进的K-means聚类算法对候选推文集合进行二元聚类,从而划分出相关推文集合,即当前话题目标模型.本文通过Twitter平台获取数据进行实验,实验结果表明,该方法能够实时地跟踪话题热度的变化以及焦点的演变,并提高了微博中话题跟踪的稳定性.该方法为用户推荐、舆情分析等领域提供了有效的支撑. 相似文献
8.
9.
微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择能力对VSM特征向量进行降维,然后利用主成分分析(PCA)方法确定K-均值算法的初始聚类中心,进而采用K-均值算法得到聚类结果,最后根据微博转发、评论和高影响力用户数量定义热度指数,热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验,结果表明所提方法相对于2种传统方法的准确率分别提升7.3%和1.1%,实时性分别提升45%和53%。 相似文献
10.
11.
12.
The data is noisy and diverse,with a large number of meaningless topics in social network.The traditional method of bursty topic discovery cannot solve the sparseness problem in social network,and require complicated post-processing.In order to tackle this problem,a bursty topic discovery method based on recurrent neural network and topic model was proposed.Firstly,the weight prior based on RNN and IDF were constructed to learn the relationship between words.At the same time,the word pairs were constructed to solve the sparseness problem.Secondly,the “spike and slab” prior was introduced to decouple the sparsity and smoothness of the bursty topic distribution.Finally,the burstiness of words were leveraged to model the bursty topic and the common topic,and automatically discover the bursty topics.To evaluate the effectiveness of proposed method,the various experiments were conducted.Both qualitative and quantitative evaluations demonstrate that the proposed RTM-SBTD method outperforms favorably against several state-of-the-art methods. 相似文献
13.
捕鱼算法优化核极限学习机的微博热点话题预测 总被引:1,自引:0,他引:1
微博热点话题预测对网络舆情控制与管理具有重要意义,针对微博网络热点话题的随机性、非线性以及核极限学习的隐层权值和隐层阈值优化难题,提出一种捕鱼算法优化在核极限学习的微博热点话题预测模型。首先将微博网络热点话题历史样本划分训练样本和测试样本集,然后采用在核极限学习对微博热点话题训练样本进行学习与建模,并采用捕鱼算法优化在线极限学习的隐层权值和隐层阈值,最后采用微博热点话题测试样本对其性能进行测试。实验结果表明,本文模型可以描述微博热点话题的发展趋势,提高了网络热点话题的预测精度,而且性能优于其它网络热点话题预测模型。 相似文献
14.
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。 相似文献
15.
16.
Filter特征选择算法具有通用性强、算法复杂度低的特点,但对某一个具体的分类器选择的特征子集也许并不是最优的;Wrapper方法与其相反,对特定的分类器可以找到最优的特征子集,但算法复杂度很高.研究一种Filter与Wrapper相结合的混合型算法.首先从特征对样本分类效果的角度提出互补系数的概念,然后基于ReliefF评估和互补系数,提出ReCom算法.实验证明,由ReCom算法得到的特征子集与ReliefF算法得到的特征子集相比具有更好的性能,并且与传统Wrapper方法相比,该算法大大降低了时间复杂度. 相似文献
17.
如何利用数量庞大的专利并从中找到用户感兴趣的专利进行推荐是很多专利数据库迫切需要解决的问题。文中从专利文本的标题和摘要入手,提出一种基于文本挖掘的专利推荐方法。首先,利用词袋模型将专利文本转化成计算机能够识别的数据;其次,利用文本聚类算法完成专利数据集进行领域划分;再次,结合词频-逆文档频率特征权重计算和余弦相似度来选择合适的发明人进行专利的推荐;最后,以我国物流产业下的专利数据作为数据集完成文中所提方法的验证与分析。实验结果表明,基于文本挖掘的专利推荐研究能够实现对发明人的个性化推荐。 相似文献
18.
19.
针对现有场景文本识别方法只关注局部序列字符 分类,而忽略了整个单词全局信息的问题,提出 了一种多级特征选择的场景文本识别(multilevel feature selection scene text recogn ition,MFSSTR)算 法。该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征 和语义特 征。在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel attention sele ction decoder, MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制 将新的特征 空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测, 同时在训练 过程中引入中间监督,逐渐细化文本预测。实验结果表明,本文算法在多个公共场景文本 数据集上识 别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%。 相似文献