首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 953 毫秒
1.
《计算机工程》2017,(4):200-206
在线社交网络采样方法常作为其他采样方法的评估基准,但是该方法采样命中率和采样效率较低,影响了其应用。为此,提出一种自适应UNI采样方法。该方法将用户ID系统空间划分为若干区间进行采样,根据各区间命中率自适应地调节在各区间的采样概率,以提高采样命中率和效率。设定采样概率下限阈值解决冷启动问题,同时利用区间的采样率调节区间采样概率,防止陷入局部最优。将该方法应用于新浪微博的采样数据进行验证,实验结果表明,该方法可提高采样效率和采样命中率。  相似文献   

2.
李晓丽  许可  宋俊德 《软件》2012,(11):228-230
随着在线社交网络的广泛应用,多种多样的采样算法应用于在线社交网络结构和特性的建模和分析。本文首先对这些常用的在线社交网络采样算法做分类对比,然后对应用相对广泛的snow ball采样算法进行深入研究。本文通过对国内最早、应用最广泛的在线社交网络新浪微博的数据进行采样分析,研究新浪微博网络结构的特点,验证得出数据量不足会导致在线社交网络的网络半径和度分布产生较大偏差。  相似文献   

3.
针对现有在线社交网络(OSNs)采样方法无法有效地应用于低连通性的社交网络,且采集的样本顶点平均度严重偏离原始社交网络、顶点过度采样等问题,本文基于蒙特卡罗随机游走(MHRW)采样方法,引入双重跳跃策略、并行机制和顶点缓存区,提出一种跳跃无偏并行顶点(JPS)采样方法。将在线社交网络数据集建模为包含顶点和边的社交图进行模拟采样,利用Python/Matplotlib绘图库绘制采集的样本顶点属性图。实验结果表明,该采样方法更有效地应用于不同连通强度的社交图,提高了采样过程中的顶点更新率,降低了样本顶点的平均度偏差且能够更快速地收敛。  相似文献   

4.
针对现有机器学习算法难以有效提高不均衡在线贯序数据中少类样本分类精度的问题,提出了一种基于主曲线的不均衡在线贯序极限学习机。该方法的核心思路是根据在线贯序数据的分布特性,均衡各类别样本,以减少少类样本合成过程中的盲目性,主要包括离线和在线两个阶段。离线阶段采用主曲线分别建立各类别样本的分布模型,利用少类样本合成过采样算法对少类样本过采样,并根据各样本点到对应主曲线的投影距离分别为其设定相应大小的隶属度,最后根据隶属区间削减多类和少类虚拟样本,进而建立初始模型。在线阶段对贯序到达的少类样本过采样,并根据隶属区间均衡贯序样本,进而动态更新网络权值。通过理论分析证明了所提算法在理论上存在损失信息上界。采用UCI标准数据集和实际澳门气象数据进行仿真实验,结果表明,与现有典型算法相比,该算法对少类样本的预测精度更高,数值稳定性更好。  相似文献   

5.
推荐系统利用用户的历史记录、物品的基础信息等数据进行建模来捕获用户的偏好,有效缓解了信息过载等问题,虽然其已应用广泛,但整个推荐领域面临的挑战却依旧存在,其中数据稀疏这一问题对于推荐性能有举足轻重的影响。近年来,大量研究表明基于社交信息的推荐算法能够有效缓解数据稀疏问题,但它们也仍然存在一定的局限。线上的社交网络是非常稀疏的,并且线上社交网络中的“朋友”通常包括同学、同事、亲戚等,因此,拥有显式朋友关系的用户不一定拥有相似的偏好,即直接利用显式朋友的兴趣偏好进行推荐会存在噪声问题。此外,大部分基于隐式反馈的算法通常直接对用户没有交互过的物品进行随机采样,然后将其作为用户实际交互过的物品的负样本来优化模型,然而用户没有交互过的物品并不代表用户不喜欢,这种粗粒度的采样策略忽略了用户的真实偏好,同样也带来了一定程度的噪声。生成对抗网络(GANs)因其在训练中捕获复杂数据分布的能力以及强大的鲁棒性被广泛应用到推荐系统中,为了减弱上述噪声问题带来的影响,本文基于生成对抗网络提出了一种细粒度的对抗采样推荐模型(ASGAN),包括一个生成器和判别器。其中,生成器首先利用图表示学习技术初始化社交网络,接着为用户生成一个与其偏好相似的朋友,然后再从该朋友喜欢的物品集中同时生成该用户喜欢的物品和用户不喜欢的物品。判别器则尽可能区分出用户实际交互过的物品和生成器生成的两类物品。随着对抗训练的进行,生成器能更有效地进行社交朋友采样和物品采样,而判别器能够良好地捕获用户的真实偏好分布。最后,在三个公开的真实数据集上与现有的六个工作进行对比,实验结果证明:ASGAN拥有更好的推荐性能,通过重构社交网络和细粒度采样有效缓解了社交信息和物品采样策略带来的噪声问题。  相似文献   

6.
基于双层采样主动学习的社交网络虚假用户检测方法   总被引:1,自引:0,他引:1  
社交网络的飞速发展给用户带来了便捷,但是社交网络开放性的特点使得其容易受到虚假用户的影响.虚假用户借用社交网络传播虚假信息达到自身的目的,这种行为严重影响着社交网络的安全性和稳定性.目前社交网络虚假用户的检测方法主要通过用户的行为、文本和网络关系等特征对用户进行分类,由于人工标注用户数据需要的代价较大,导致分类器能够使用的标签样本不足.为解决此问题,本文提出一种基于双层采样主动学习的社交网络虚假用户检测方法,该方法使用样本不确定性、代表性和多样性3个指标评估未标记样本的价值,并使用排序和聚类相结合的双层采样算法对未标记样本进行筛选,选出最有价值的样本给专家标注,用于对分类模型的训练.在Twitter、Apontador和Youtube数据集上的实验说明本文所提方法在标签样本数量不足的情况下,只使用少量有标签样本就可以达到与有监督学习接近的检测效果;并且,对比其他主动学习方法,本文方法具有更高的准确率和召回率,需要的标签样本数量更少.  相似文献   

7.
在线社交网络是伴随着互联网技术发展产生的,它属于众多复杂网络中的一种。近年来,对于在线社交网络的研究不断深入,研究方向可以细分为网络拓扑特征的分析、虚拟社区划分算法的研究、传播动力学研究、网络采样与重构、网络拓扑识别等。大数据研究的兴起使得在线社交网络的研究更加受到人们的关注。当前,人们的日常生活几乎离不开在线社交网络,也因此每天都会有大量的用户数据产生,分析、利用这些数据可以帮助人们了解自己并创造更多的价值。  相似文献   

8.
郭鑫  李文静  乔俊飞 《控制与决策》2020,35(7):1597-1605
针对在线模块化神经网络难以实时有效划分样本空间,提出一种改进的在线自适应模块化神经网络.首先,基于距离与密度实时更新样本局部密度及RBF神经元中心,实现样本空间在线划分;然后,将子网络模块数根据划分样本空间的个数进行自适应增减,每个子网络模块对属于对应样本空间的样本进行学习;最后,集成模块对子网络模块的输出结果进行集成,输出最终结果.针对在线梯度下降法要求样本有足够的随机性问题,提出一种具有固定记忆的在线梯度下降法对网络进行在线学习.通过对典型非线性时变系统及污水处理过程中出水氨氮浓度进行预测,验证了该模块化神经网络能够实时有效地更新RBF神经元中心,并减少学习过程中子网络模块不必要的增减,且网络结构更加简洁,能够准确预测不同的时变系统.  相似文献   

9.
针对现有在线社交网络用户分类方法不能有效利用用户属性和关系网络信息提高分类性能的问题,设计了一种基于随机游走模型的多标签分类方法MLCMRW。该方法的分类过程包括学习用户初始化类别标签以及通过迭代推理获得用户稳定标签分布两个阶段,并且其可以同时考虑用户属性以及关系网络特征信息进行分类。多个在线社交网络数据集上进行的实验表明,MLCMRW比其它已有的代表性方法有更好的分类性能,并且更适合对现实中的在线社交网络进行用户分类。  相似文献   

10.
不平衡数据是机器学习中普遍存在的问题并得到广泛研究,即少数类的样本数量远远小于多数类样本的数量.传统基于最小化错误率方法的不足在于:分类结果会倾向于多数类,造成少数类的精度降低,通常还存在时间复杂度较高的问题.为解决上述问题,提出一种基于样本空间分布的数据采样方法,伪负样本采样方法.伪负样本指被标记为负样本(多数类)但与正样本(少数类)有很大相关性的样本.算法主要包括3个关键步骤:1)计算正样本的空间分布中心并得到每个正样本到空间中心的平均距离;2)以同样的距离计算方法计算每个负样本到空间分布中心的距离,并与平均距离进行比较,将其距离小于平均距离的负样本标记为伪负样本;3)将伪负样本从负样本集中删除并加入到正样本集中.算法的优势在于不改变原始数据集的数量,因此不会引入噪声样本或导致潜在信息丢失;在不降低整体分类精度的情况下,提高少数类的精确度.此外,其时间复杂度较低.经过13个数据进行多角度实验,表明伪负样本采样方法具有较高的预测准确性.  相似文献   

11.
刘泉  张铭 《中文信息学报》2017,31(3):118-124
近年来随着新浪微博、人人网等社交网络新媒体的涌现,线上影响力传播得到了越来越多企业和研究机构的关注。如何在给定资源的约束下实现最大的传播范围(影响力最大化问题),对病毒营销等市场战略的有效开展有着重要意义。如果能充分利用社交网络上的异质性信息来更准确地定位用户所属的领域,进而基于领域实现影响力最大化,将对从整体角度出发的传统研究和片面的结构或内容角度的研究形成很好的补充。该文同时利用新浪微博上用户之间的社交关系和微博内容的话题两个维度的信息将用户划分为不同的领域;进而提出了一种基于贪心和动态规划混合的改良算法实现基于领域的影响力最大化。实验表明该文的领域影响力模型较好优化了传统影响力最大化的时间消耗,同时拥有相近的精度。  相似文献   

12.
微博网络测量研究   总被引:9,自引:0,他引:9  
随着移动通信和Web技术的不断突破,以微博为代表的在线社会网络在中国广泛发展起来,越来越多的人开始使用微博进行信息分发和舆论传播.为了了解中国微博网络中的拓扑结构特征和用户行为特征等内在信息,对国内最大的微博系统——新浪微博——开展了主动测量,并结合已有的在线社会网络测量结果,对新浪微博的网络拓扑和用户行为特征进行了分析和比较.主要发现包括:1)新浪微博网络具有小世界特性;2)新浪微博网络的入度分布属于幂次分布,而出度分布表现为某种分段幂率函数;3)与类似社会网络相比,新浪微博网络的出入度不具有相关性;4)新浪微博网络属于同配网络;5)新浪微博用户发博时间具有明显的日分布和周分布模式;6)新浪微博用户博文数目分布表现为威布尔分布;7)新浪微博用户博文的转发和评价行为具有很强的相关性,且博文转发概率要高于评价概率.这些测量研究和发现不仅有助于设计出符合中国微博网络结构特征的数学模型和计算模型,也是实现对微博舆论的监测、引导、控制等方面的重要依据和基础.  相似文献   

13.
Today’s ubiquitous online social networks serve multiple purposes, including social communication (Facebook, Renren), and news dissemination (Twitter). But how does a social network’s design define its functionality? Answering this would need social network providers to take a proactive role in defining and guiding user behavior. In this paper, we first take a step to answer this question with a data-driven approach, through measurement and analysis of the Sina Weibo microblogging service. Often compared to Twitter because of its format,Weibo is interesting for our analysis because it serves as a social communication tool and a platform for news dissemination, too. While similar to Twitter in functionality, Weibo provides a distinguishing feature, comments, allowing users to form threaded conversations around a single tweet. Our study focuses on this feature, and how it contributes to interactions and improves social engagement.We use analysis of comment interactions to uncover their role in social interactivity, and use comment graphs to demonstrate the structure of Weibo users interactions. Finally, we present a case study that shows the impact of comments in malicious user detection, a key application on microblogging systems. That is, using properties of comments significantly improves the accuracy in both modeling and detection of malicious users.  相似文献   

14.
微博用户影响力分析作为社交网络分析的重要组成部分,一直受到研究人员的关注。针对现有研究工作分析用户行为时间性的不足和忽略用户与参与话题之间关联性等问题,提出了一种面向微博话题的用户影响力分析算法——基于话题和传播能力的用户排序(TSRank)算法。首先,基于微博话题分析用户转发行为时间性,进一步构建用户转发和用户博文转发两种话题转发关系网络,预测用户话题信息传播能力;然后,分析用户个人历史微博和背景话题微博文本内容,挖掘用户与背景话题之间的关联性;最后,综合考虑用户话题信息传播能力以及用户与背景话题间关联性计算微博用户影响力。爬取新浪微博真实话题数据进行实验,实验结果表明,话题关联度更高用户的话题转发量明显大于关联度很低的用户,引入用户转发行为时间性相比无转发时间性,TSRank算法的捕获率(CR)提高了18.7%,进一步与典型影响力分析算法WBRank、TwitterRank和PageRank相比,TSRank算法在准确率和召回率上分别提高了5.9%、8.7%、13.1%和6.7%、9.1%、14.2%,验证了TSRank算法的有效性。该研究成果对社交网络的社会属性、话题传播等理论研究以及好友推荐、舆情监控等应用研究具有支撑作用。  相似文献   

15.
微博特有的移动终端轻博客发布与交互模式,使其迅速成为使用范围最大、影响力最大的社交媒体。新浪中文微博现有超过3亿用户,发展最为迅速,中文微博和其他微博相比具有独特性,一些大“V”博主的影响力堪比电台电视。通过分析微博的网络结构特征,总结出微博相对于其他传统社会载体的特性。利用PageRank算法的思想,设计了基于用户质量的User Impack Rank(UIR)排序算法。UIR算法通过用户相对微力值和用户相对链接质量对各博主的影响力进行动态的评估。在一个活跃的微博社区数据集上进行了全面的实验,实验结果显示了UIR算法能更加准确和客观地对用户的影响力进行排序,并且能有效地消除僵尸粉丝对排序的影响。  相似文献   

16.
In the era of the social web, many people manage their social relationships through various online social networking services. It has been found that identifying the types of social relationships among users in online social networks facilitates the marketing of products via electronic “word of mouth.” However, it is a great challenge to identify the types of social relationships, given very limited information in a social network. In this article, we study how to identify the types of relationships across multiple heterogeneous social networks and examine if combining certain information from different social networks can help improve the identification accuracy. The main contribution of our research is that we develop a novel decision tree initiated random walk model, which takes into account both global network structure and local user behavior to bootstrap the performance of relationship identification. Experiments conducted based on two real‐world social networks, Sina Weibo and Jiepang, demonstrate that the proposed model achieves an average accuracy of 92.0%, significantly outperforming other baseline methods. Our experiments also confirm the effectiveness of combining information from multiple social networks. Moreover, our results reveal that human mobility features indicating location categories, coincidence, and check‐in patterns are among the most discriminative features for relationship identification.  相似文献   

17.
社会网络信息的可信度问题近年来受到了相当大的关注。谣言的散播可能造成社会恐慌,引发信任危机。在国内,新浪微博用户量的快速增长,使其成为了谣言传播的温床。及时清理在新浪微博中传播的谣言,对于社会的和谐发展有着现实的意义。该文以新浪微博为背景,将谣言检测任务作为分类问题,首次提出将微博评论的情感倾向作为谣言检测分类器的一项特征。实验结果表明,引入评论的评论情感倾向特征后,使得谣言检测的分类结果得到了可观的提升。  相似文献   

18.
杨超  秦廷栋  范波  李涛 《计算机科学》2018,45(11):138-142, 159
将人工免疫危险理论引入到用户行为特征的分析中,以有效地识别微博水军用户。以新浪微博为例,分析了新浪微博水军的行为特征,选取微博总数、微博等级、是否认证、阳光信用、粉丝数等特征属性,将属性分析结果作为区别水军与正常用户的特征信号,并基于树突状细胞算法(Dendritic Cells Algorithm,DCA)实现新浪微博水军的识别。使用新浪微博用户的真实数据对算法的有效性进行了验证和对比实验,结果表明该方法能够有效检测出新浪微博中的水军用户,具有较高的检测准确率。  相似文献   

19.
在线社交网络中的意见领袖通常是指在社交网络的信息传播中具有较大社会影响力的个体。针对当前意见领袖挖掘方法中只考虑社交网络的拓扑结构和节点的个体属性,缺乏信息传播中交互特征的问题,该文提出了基于扩展独立级联模型,并融入网络结构特征、个体属性和行为特征的意见领袖挖掘模型(extended independent cascade, EIC)。该模型以个体属性、个体在信息传播过程中的交互行为建立加权的传播网络,利用改进的CELF(cost effective lazy forward)算法,挖掘网络中影响力较大的个体。通过实验验证,在意见领袖的扩展核心率指标上,该算法优于拓扑结构类算法,且具有较好的稳定性,同时并未降低意见领袖的传播范围。  相似文献   

20.
随着微博研究的深入,对微博用户可信度的评价成为一个研究热点。针对微博用户可信度评价的问题,提出了一种基于关联关系的用户可信度分析方法。以新浪微博为研究对象,首先从用户的资料信息、交互信息和行为信息三个方面出发,分析了用户的7个相关特征,利用层次分析法(AHP),进而得到用户自评价可信度;然后以用户自评价作为基点,以用户关系网络作为载体,结合用户之间潜在的用户互评关系,通过改进PageRank算法,提出了用户可信度评价模型User-Rank,进而,利用关系网络中其他用户对待分析用户的可信度进行综合评价。大规模的微博真实数据的实验表明,所提方法能够取得良好的用户可信度评价效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号