首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 343 毫秒
1.
赵煜  邵必林  边根庆  宋丹 《计算机应用》2015,35(7):1959-1964
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。  相似文献   

2.
罗知林  陈挺  蔡皖东 《计算机科学》2014,41(4):62-64,74
转发(Retweet)是微博中一个重要的信息传播机制,用户可以将其关注者(Follower)的有趣微博转发到自身平台,分享给他的粉丝(Fan),快速地实现微博信息的传播。主要对微博转发预测进行了研究,首先提取了重要特征,比如用户间的微网络结构、权重比率、用户个人信息等,以研究用户微博转发行为,然后基于以上特征提出了一个随机森林微博转发预测算法(RFMR)。实验结果表明,RFMR算法优于其他分类算法,可以有效地用来预测微博转发。  相似文献   

3.
微博转发行为是实现信息传播的重要方式,微博转发预测对微博影响力分析、微博话题分析具有重要价值。现有微博转发预测研究大多围绕消息属性、用户属性等微博自身特征,该文提出融合热点话题的微博转发预测方法,对背景热点话题内容和传播趋势对用户转发行为的影响进行量化分析,提出融合背景热点信息的转发兴趣、转发活跃度、行为模式等特征,并基于分类算法建立了面向热点话题相关微博的转发预测模型,在真实数据上的实验结果表明,该方法的预测准确性达到96.6%,提升幅度最高达到12.14%。  相似文献   

4.
微博转发预测是研究信息传播的关键问题之一,对于舆情监控、广告投放、商业决策具有重要意义。用户兴趣、微博作者影响力及微博内容等信息均影响信息传播过程。转发行为预测的挑战性问题在于如何捕获更多有意义的影响因素以提高预测性能。提出基于混合特征学习的转发预测方法,该方法首先引入并分析了局部社会影响力特征、用户特征、微博内容特征的计算方法;接着,基于分类器建立预测模型;最后,比较了不同类型微博的转发预测效果。在新浪微博平台数据的实验结果表明,局部社会影响力特征、用户特征、微博内容特征都对转发预测有较大影响,其中微博内容特征的影响最大。随机森林预测效果最好,准确率达到83.1%;与朴素贝叶斯、逻辑回归、支持向量机模型相比,准确率平均提高约7.4%,最高提高约10.8%。另外,该方法对自然灾害、环境、审判、维权等类型的微博进行转发预测时,效果更加明显,说明这类事件转发的规律性更强。  相似文献   

5.
刘功申  孟魁  谢婧 《计算机科学》2014,41(12):33-37
以新浪微博为研究对象,基于用户特征将用户对微博转发量的影响力进行量化,提出了一种微博预警算法。首先,分别研究了大转发量与小转发量的微博作者的用户基本特征,获得其中对关键用户与非关键用户具有良好区分度的特征,并基于信息增益的特征选择法获得用户特征对用户关键性的区分度。随后,基于特征加权模型,提出了一种用户对微博转发量的影响力的量化算法。最后,提出了一种微博预警算法,该算法对给定的新发布的微博,以其作者及已有转发用户的特征就用户对该微博转发量的影响力进行量化,当影响力超过一定阈值时,输出预警信息。该算法可以有效控制敏感微博在网络上的传播及扩散。  相似文献   

6.
微博用户影响力分析作为社交网络分析的重要组成部分,一直受到研究人员的关注。针对现有研究工作分析用户行为时间性的不足和忽略用户与参与话题之间关联性等问题,提出了一种面向微博话题的用户影响力分析算法——基于话题和传播能力的用户排序(TSRank)算法。首先,基于微博话题分析用户转发行为时间性,进一步构建用户转发和用户博文转发两种话题转发关系网络,预测用户话题信息传播能力;然后,分析用户个人历史微博和背景话题微博文本内容,挖掘用户与背景话题之间的关联性;最后,综合考虑用户话题信息传播能力以及用户与背景话题间关联性计算微博用户影响力。爬取新浪微博真实话题数据进行实验,实验结果表明,话题关联度更高用户的话题转发量明显大于关联度很低的用户,引入用户转发行为时间性相比无转发时间性,TSRank算法的捕获率(CR)提高了18.7%,进一步与典型影响力分析算法WBRank、TwitterRank和PageRank相比,TSRank算法在准确率和召回率上分别提高了5.9%、8.7%、13.1%和6.7%、9.1%、14.2%,验证了TSRank算法的有效性。该研究成果对社交网络的社会属性、话题传播等理论研究以及好友推荐、舆情监控等应用研究具有支撑作用。  相似文献   

7.
为了评价微博的传播效果, 在分析影响用户转发行为因素的基础上, 提出了采用用户影响力、用户活跃度、兴趣相似度、微博内容重要性和用户亲密程度五项特征进行转发行为预测的SVM算法, 以及基于该算法的转发规模预测算法。最后给出了传播规模预测的评价方法。针对新浪微博用户数据的实验表明, 预测精度达到了86. 63%。  相似文献   

8.
基于关系图特征的微博水军发现方法   总被引:1,自引:0,他引:1  
随着网络水军策略的不断演变,传统的基于用户内容和用户行为的发现方法 对新型社交网络水军的识别效果不断下降.水军用户可以变更自身的博文内容与转发行为, 但无法改变与网络中正常用户的连结关系,形成的结构图具有一定的稳定性, 因此,相对于用户的内容特征与行为特征,用户关系特征在水军识别中具有更强的鲁棒性与准确度. 由此,本文提出一种基于用户关系图特征的微博水军账号识别方法. 实验中通过爬虫程序抓取新浪微博网络数据; 然后,提取用户的属性特征、时间特征、关系图特征;最后,利用三种机器学习算法对用户进行分类预测. 仿真结果表明,添加新特征后对水军账号的识别准确率、召回率提高5%以上, 从而验证了关系图特征在水军识别中的有效性.  相似文献   

9.
微博用户行为预测旨在研究用户的行为习惯,本文主要从用户属性、用户兴趣和用户情绪三个方面,对影响微博用户行为的因素进行研究分析,提取影响用户行为的特征,训练预测模型. 实验中还将情感和兴趣特征在预测模型中的作用进行了对比,结果显示预测模型在转发行为预测的平均准确率能够达到82.56%,在评论行为预测的平均准确率能够达到84.59%,在点赞行为预测的平均准确率能够达到79.35%,表明了用户兴趣和情感特征对于微博用户行为预测结果提升中的有效性.  相似文献   

10.
众多谣言在公开社交平台微博上肆意产生与传播,谣言检测有利于降低谣言对社会产生的不良影响。为探究微博用户的行为特征与该用户发布谣言的关联,提出一种基于用户行为特征的微博谣言检测算法(RDUC)。该模型主要以用户的点赞、转发和评论等行为特征作为主要参数,挖掘用户历史行为与谣言发布的关联,并且将ERNIE模型和DPCNN模型相结合对微博谣言事件进行检测。通过使用Ma公开数据集进行实验并与3种常用的谣言检测算法比较得出:该算法的准确率高达90.1%,高于这3种常用谣言检测算法。因此RDUC算法具有实际意义和应用价值。  相似文献   

11.
微博的传播效果研究对于提高市场营销效率、加强舆情监控和准确发现热点具有重要作用。针对以前传播效果研究中未考虑用户个体差异的问题,提出一种基于行为分析的微博转发规模和传播深度预测方法。从微博用户自身、用户关系和微博内容3个方面提取9个相关特征,结合逻辑回归(LR)方法提出一种转发行为预测模型,并基于此模型结合信息沿用户传播特点,通过逐级对相邻用户迭代统计分析得到转发规模和传播深度预测方法。在新浪微博数据集上的实验结果表明,所提方法对转发规模和传播深度预测的正确率分别约为87.1%和81.6%,能较好地预测出信息传播效果。  相似文献   

12.
针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。  相似文献   

13.
用户影响力度量是目前微博研究的基础和热点方向,为了提高微博传播影响力度量的准确性,提出一种基于行为权值的微博用户影响力度量算法。对网络用户的转发、评论和提及等行为进行分析,将数据输入到最小二乘支持向量机中进行学习找到最合理的权值,并建立传播影响力度量模型,采用具体数据对算法的性能进行仿真测试。结果表明,相对于其他微博用户影响力度量算法,该算法不仅提高了微博用户影响力的度量准确性,而且可以准确刻画各种用户行为对网络传播力贡献。  相似文献   

14.
杨丰瑞 《计算机应用研究》2020,37(9):2625-2628,2633
高维复杂数据处理是数据挖掘领域中的关键问题,针对现有特征选择分类算法存在的预测精确度失衡、整体分类效率低下等问题,提出了一种结合概率相关性和极限随机森林的特征选择分类算法(P-ERF)。该算法使用充分考虑特征之间相关性与P值结合的特征选择方式,避免了树节点分裂过程中造成的冗余性问题;并以随机树为基分类器、极限随机森林为整体框架,使P-ERF算法获得了更高的精准度和更好的泛化误差。实验结果表明,P-ERF算法相较于随机森林算法、极限随机森林算法,在数据集分类精度与整体性方面均得到良好的效果。  相似文献   

15.
异常检测系统在网络空间安全中起着至关重要的作用,为网络安全提供有效的保障.对于复杂的网络流量信息,传统的单一的分类器往往无法同时具备较高检测精确度和较强的泛化能力.此外,基于全特征的异常检测模型往往会受到冗余特征的干扰,影响检测的效率和精度.针对这些问题,本文提出了一种基于平均特征重要性的特征选择和集成学习的模型,选取决策树(DT)、随机森林(RF)、额外树(ET)作为基分类器,建立投票集成模型,并基于基尼系数计算基分类器的平均特征重要性进行特征选择.在多个数据集上的实验评估结果表明,本文提出的集成模型优于经典集成学习模型及其他著名异常检测集成模型.且提出的基于平均特征重要性的特征选择方法可以使集成模型准确率平均进一步提升约0.13%,训练时间平均节省约30%.  相似文献   

16.
针对传统的工控网络流量数据在复杂网络环境下特征维度高,特征处理复杂度高,模型检测效率低等问题,本文使用了一种基于随机森林(random forest, RF)和长短期记忆网络(long short-term memory, LSTM)结合的流量异常识别与检测方法.首先使用随机森林算法计算流量特征的重要度评分,筛选出重要特征,剔除冗余特征,然后使用LSTM进行异常流量的识别与检测.为了评估模型的有效性与优越性,本文使用准确率、精确率、召回率和F1-score进行模型评价,并与传统的机器学习方法 Naive Bayes、QDA、KNN算法进行对比.实验结果表明,在公开数据集CIC-IDS-2017中,异常流量识别的总体准确率达99%.与传统的机器学习算法相比,该方法有效地提高了复杂网络环境下异常检测的准确性和效率,在工业控制网络安全和异常检测方面具有实际应用价值.  相似文献   

17.
社交网络给每个社会中的人提供了自由表达个人情感、观点、兴趣、建议等言论的平台。用户在这些平台上发表的言论、所做的行为以及用户在平台上建立的社交圈子也给数据挖掘带来了新的数据和机会。提出了一种利用用户在微博上的公开数据信息实现对该用户的MBTI个性维度进行分类分析的方法。在该方法中,基于对用户微博数据的分析,提出了能够表征用户心理和行为的文本和非文本特征,然后采用三种机器学习的分类方法—提升决策树、支持向量机和贝叶斯逻辑递归来对微博用户的个性进行分类分析。实验结果表明,通过对微博数据的挖掘可以在不同MBTI个性维度上达到75%~90%的准确率。  相似文献   

18.
Feature selection is an important method of data preprocessing in data mining. In this paper, a novel feature selection method based on multi-fractal dimension and harmony search algorithm is proposed. Multi-fractal dimension is adopted as the evaluation criterion of feature subset, which can determine the number of selected features. An improved harmony search algorithm is used as the search strategy to improve the efficiency of feature selection. The performance of the proposed method is compared with that of other feature selection algorithms on UCI data-sets. Besides, the proposed method is also used to predict the daily average concentration of PM2.5 in China. Experimental results show that the proposed method can obtain competitive results in terms of both prediction accuracy and the number of selected features.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号