首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
传统的文献聚类算法根据分析文献关键词进行,忽视了文献之间的引用关系,导致了主题漂移和搜索精度不高的问题。针对引文网络中的聚类问题,受到优先情节和增长定律的启发,提出了一种基于角色划分的分层次的文献软聚类算法。首先根据文献之间的引用关系构造引用矩阵,进行结构挖掘;然后根据结构挖掘的结果为每一聚类构造聚类主题,进而进行关键词分析,精化聚类。实验结果表明,该算法能够有效地提高搜索精度和效率。  相似文献   

2.
基于动态主题模型融合多维数据的微博社区发现算法   总被引:1,自引:0,他引:1  
随着微博用户的不断增加,微博网络已经成为用户进行信息交流的平台.针对由于博文长度受限,传统的社区发现算法无法有效解决微博网络的稀疏性等问题,提出了DC-DTM算法.DC-DTM算法首先将微博网络映射为有向加权网络,网络中边的方向反映结点之间的关注关系,利用提出的DTM模型计算出结点之间的语义相似度,并将其作为节点间连边的权重.DTM模型是一种微博主题模型,该模型不仅能够挖掘博客的主题分布,而且能计算出某一主题中用户的影响力大小.其次,利用提出的复杂度低的标签传播算法WLPA进行微博网络的社区发现.该算法的初始化阶段将影响力大的用户结点作为初始结点,标签按照结点的影响力从大到小进行传播,克服了传统标签传播算法的逆流现象,提高了标签传播算法的稳定性.在真实数据上的实验表明,DTM模型能很好地对微博进行主题挖掘,DC-DTM算法能够有效地挖掘出微博网络的社区.  相似文献   

3.
基于图的关联规则挖掘高效算法研究   总被引:4,自引:0,他引:4  
通过对文献[1]中介绍的基于图的关联规则挖掘算法的详细分析,提出了一种新的基于完全子图的关联规则挖掘算法。该算法利用完全子图与频繁项集的对应关系,以完全子图结点的度作为判断标准,完全避免了不必比较项目之间的比较:同时通过设置关联图结点的order值,完全避免了相同项目集的重复比较,从而在寻找k-项频繁集(k〉3)的过程中,时间复杂度远小于原算法的1/k-1。因此,该算法减小了存傅空间,加快了挖掘速度,提高了算法的效率。  相似文献   

4.
提出一种基于有向限制图的宏模块合法化算法,将宏模块合法化问题抽象为图的问题.该算法建立水平和垂直方向两张有向图,把每个宏模块抽象为两张图中的结点,把两个模块之间的位置关系抽象为图中的边,从而把二维问题转化成两个一维问题,大大降低问题的复杂度.实验证明,该算法可以有效地消除宏模块之间的重叠,并且有效控制了所有宏模块的位移距离.  相似文献   

5.
社会网络服务(SNS)用户的人脉关系研究大多采用图论的知识,对社会网络关系图的结点和边进行探讨,而没有考虑到用户自身的偏好.因此提出一种基于用户偏好的二级人脉推荐方法.利用最小均方误差(LMS)算法,把用户偏好合理地转化为用户偏好特征向量,用相似度度量方法来计算用户之间的相似度,以确定与用户偏好最相近的用户集,并完成用户的二级好友推荐.实验结果表明,该算法的好友推荐准确度较高.  相似文献   

6.
为了从数据集更有效地检测出虚假评论群组.提出一种基于谱聚类的检测算法.对数据集中的多维数据样本进行分析,确定衡量用户之间相似程度的指标;利用用户相似度指标构造一幅以用户为节点、用户之间相似度为边上权值的带权评论者图;将该图的邻接矩阵作为相似度矩阵,利用谱聚类算法对其进行群组检测,将所有用户分为15个候选群组;对检测出的候选群组进一步挖掘,分析其内部特征.将不同方法检测得到的候选群组内部特征进行比较,结果表明该算法具有更高的有效性.  相似文献   

7.
复杂网络的局部社团结构挖掘算法   总被引:1,自引:0,他引:1  
袁超  柴毅 《自动化学报》2014,40(5):921-934
挖掘复杂网络的社团结构对研究复杂系统具有重要的理论和实践意义.其中,相较于全局社团,局部社团的挖掘难度更大,相关文献更少.现有的局部社团挖掘算法大都精度较低、稳定性较差.本文提出了一个有效的局部社团挖掘算法,称为内外夹推法(Shell interception and core expansion,SICE).算法有两个创新之处:1)将节点相似度模型引入到局部社团挖掘算法中(节点相似度模型在局部社团挖掘中较难应用),并提出了“一次一个子图”的社团扩展模式;2)提出了一种“内外夹推”的思想.这两个创新使SICE算法摆脱了缺乏网络全局信息的困扰,并解决了以往算法的一个致命缺陷,从而使算法具有很高的精度和稳定性.通过理论分析和实验比较,证明SICE算法要远好于当前的同类算法,甚至不逊色于性能较好的全局社团挖掘算法.  相似文献   

8.
张应龙  李翠平  陈红 《软件学报》2014,25(11):2602-2615
信息网络无处不在.通过把网络中的对象抽象为点,把对象之间的关系刻画为边,相应的信息网络就可以用图来表示.图中结点相似度计算是图数据管理中的基本问题,在很多领域都有运用,比如社会网络分析、信息检索和推荐系统等.其中,著名的相似度度量是以Personalized PageRank和SimRank为代表.这两种度量本质都是以图中的路径来定义,然而它们侧重的路径截然不同.为此,提出了一个度量 SuperSimRank.它不仅涵盖了这些路径,而且考虑了Personalized PageRank和SimRank两者都没有考虑的路径,从而能够更加体现出这种链接关系的本质.在此基础上对SuperSimRank进行了理论分析,从而提出了相应的优化算法,使得计算性能从最坏情况O(kn4)提高到O(knl).这里,k 是迭代次数,n 是结点数,l 是边数.最后,通过实验验证了 SuperSimRank 优于 SimRank 和 Personalized PageRank,同时验证了优化算法在各种情况下都是有效的.  相似文献   

9.
不确定数据管理逐渐成为一个重要的研究方向.作为网络交换重要标准的XML数据的不确定管理也成为一个研究热点.基于关键字的概率XML检索是其中一个重要的分支.目前对于概率XML关键字检索的研究,都只考察了结点之间的独立(IND)关系和互斥(MUX)关系.由于更普遍的结点依赖关系在表述和计算上的复杂性,较少有工作讨论.文中讨论概率XML模型PrXML~({exp,ind,mux})中基于SLCA语义的关键字过滤.这种模型中通过EXP结点描述更普遍的结点依赖关系.文中在定义了子树中关键字概率分布表tab及其相关的运算后,分别给出了模型中不同类型结点关键字概率分布表的计算方法,并给出了不需要构造可能世界直接求解SLCA结点概率的算法.文章通过实验评估了算法的特性和性能.  相似文献   

10.
Self-Training算法的性能很大程度上取决于高置信度样本的识别准确度。受DPC算法启发,利用密度峰值定义样本间的原型关系,并构造出近亲结点图这一新型数据结构。在此基础上,提出了一种近亲结点图编辑的Self-Training算法(self-training algorithm with editing direct relative node graph-DRNG)。DRNG采用假设检验的方法选择高置信度样本,将其加入有标签样本集进行迭代训练。因误分的高密度样本点对Self-Training算法的分类性能影响较大,所以,DRNG综合考虑距离和密度两个方面定义了近亲结点图中割边的非对称权重,增大了高密度点的割边权重,使其落在拒绝域外的概率增加,减小了因其误分类而产生的风险。为了验证DRNG的性能,在8个基准数据集上与类似算法进行对比实验,实验结果验证了DRNG的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号