首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
成对约束作为半监督学习的一个重要分支,它以无监督的聚类算法为基础,通过利用少量的监督信息来提高聚类的性能。提出了一种基于成对约束的半监督聚类方法,在FCM-NMF聚类算法框架下,采用非负矩阵分解提取样本的本质特征,并且加入成对约束条件指导聚类过程进行模糊聚类。构造出的新的目标函数采用梯度下降法和交替迭代公式来找局部最优解,并在UCI数据集上讨论了成对约束的数量对聚类的影响、价值系数的设置对聚类的影响,并与常见的半监督聚类性能进行了比较,证明了其正确性、有效性、稳定性。  相似文献   

2.
针对微博文本内容短、稀疏、高维等特点,提出一种改进的半监督微博聚类算法。该算法利用词项间的关系丰富文本特征,通过定义词项文档间关联关系和词项文档内关联关系揭示词项间语义的关联程度,并由此自动生成有标记的数据来指导聚类过程。对词项先验信息进行成对约束编码,构建基于词项间成对约束的三重非负矩阵分解模型来实现微博的半监督聚类。实验结果表明,该算法可以减少繁琐的人工标记过程,并能高效地进行微博聚类。  相似文献   

3.
针对目前网络入侵检测率低、误报率高的问题,提出一种基于半监督聚类云模型动态加权的入侵检测方法。由于属性对分类贡献程度不同,引入云相对贴近度的概念给出计算属性权重的方法。以半监督聚类算法为基础建立云模型,并对属性使用动态加权,通过对云模型的更新逐渐强化云分类器指导数据的分类。通过实验证明了该方法的可行性与有效性。  相似文献   

4.
针对网络故障检测中利用先验知识不足和多数谱聚类算法需事先确定聚类数的问题,提出一种新的基于成对约束信息传播与自动确定聚类数相结合的半监督自动谱聚类算法。通过学习一种新的相似性测度函数来满足约束条件,改进NJW聚类算法,对非规范化的Laplacian矩阵特征向量进行自动谱聚类,从而提高聚类性能。在UCI标准数据集和网络实测数据上的实验表明,该算法较相关比对算法聚类准确率更高,可满足网络故障检测的实际需要。  相似文献   

5.
真实世界多层网络具有多维度、高复杂性的特征,使得仅使用网络拓扑信息进行聚类的算法往往不能精准挖掘网络的公共社区结构。为了解决这一问题,本文提出一种基于非负矩阵分解的半监督模型(Semi-supervised Model with Non-negative Matrix Factorization, SeNMF)。首先,该模型设计基于PageRank算法的贪婪搜索方法获取网络的共识先验信息,用以增强每一层网络的拓扑结构,降低网络噪声;然后利用整体非负矩阵分解将所有网络层的低维表示在格拉斯曼流形上融合以获取更优的公共低维表示矩阵;最后利用K-means聚类得到网络的公共社区结构。实验表明,无论是网络层数的增加还是层间噪声的增强,SeNMF模型相较其他算法在多层网络聚类时均具有一定的优越性。  相似文献   

6.
周晨曦  梁循  齐金山 《自动化学报》2015,41(7):1253-1263
提出了一种基于约束动态更新的半监督层次聚类算法. 与现存的半监督层次聚类算法类似, 该算法也使用了必连和不连约束. 但不同的是, 该算法并不是在对满足必连约束的数据样本点进行预先划分的基础上依据不连约束进行聚合操作, 而是首先将约束扩展为一个闭包, 然后在这此基础上直接依据不连约束进行聚合操作, 并在聚合的过程中依据聚类结果动态地更新必连和不连约束, 以保证最终的聚类结果同时满足必连和不连约束. 该算法的优势在于省略了对必连约束的数据样本点进行预先划分的步骤, 这一改进能够保证数据样本点获得更为合理的聚合顺序, 从而得到更为准确的聚类结果. 本文具体给出了该算法基于Ward 层次聚类算法的实现, 提出了C-Ward算法.实验表明, 与其他同类算法相比, 无论是在人工模拟数据集还是在现实数据集上, 本文提出的算法都表现出了更高的准确性和更强的稳定性.  相似文献   

7.
传统的基于免疫的入侵检测系统需要足够的标记数据才能够生成具有良好泛化性能的抗体,而网络环境中获得充足的标记数据是困难的。为克服这一难题,对无监督聚类技术及免疫方法进行深入研究,并将二者结合起来,提出一种半监督的免疫入侵检测算法SCIID(Semi-supervised cluster based Immune Intrusion Detection)。在抗体产生阶段通过对自我样本进行聚类,大大缩短了阴性选择的时间;在入侵检测阶段采用聚类技术可快速获取未标记数据的类别,进而指导后续的学习过程,达到提高检测率的目的。仿真结果表明,该算法在仅有少量标记数据的情况下,可以获得大部分未标记数据的类别,而且能发现新的攻击类型,同等训练样例数目条件下检测率高于单纯基于免疫的方法。  相似文献   

8.
基于因子图模型的动态图半监督聚类算法   总被引:1,自引:1,他引:0  
针对动态图的聚类主要存在着两点不足:首先, 现有的经典聚类算法大多从静态图分析的角度出发, 无法对真实网络图持续演化的特性进行有效建模, 亟待对动态图的聚类算法展开研究, 通过对不同时刻图快照的聚类结构进行分析进而掌握图的动态演化情况.其次, 真实网络中可以预先获取图中部分节点的聚类标签, 如何将这些先验信息融入到动态图的聚类结构划分中, 从而向图中的未标记节点分配聚类标签也是本文需要解决的问题.为此, 本文提出进化因子图模型(Evolution factor graph model, EFGM)用于解决动态图节点的半监督聚类问题, 所提EFGM不仅可以捕获动态图的节点属性和边邻接属性, 还可以捕获节点的时间快照信息.本文对真实数据集进行实验验证, 实验结果表明EFGM算法将动态图与先验信息融合到一个统一的进化因子图框架中, 既使得聚类结果满足先验知识, 又契合动态图的整体演化规律, 有效验证了本文方法的有效性.  相似文献   

9.
针对非负矩阵分解(NMF)半监督社区发现方法随机选择先验约束,导致提升相同性能需要更多约束信息的问题,提出一种基于迭代框架的主动链接选择半监督社区发现算法——ALS_GNMF。在迭代框架下,首先,主动选择不确定性高且对社区划分指导性强的链接对作为先验信息;其次,为主动选择的链接对增加must-link约束,增强社区间连接,生成先验矩阵;同时,增加cannot-link约束,减弱社区间连接,修改邻接矩阵;最后,将先验矩阵作为正则项,加入基于NMF的最优化目标函数,并融合网络拓扑结构信息,以期用较少的先验信息,达到较高的社区发现准确性和鲁棒性。实验结果表明,ALS_GNMF算法在真实网络及人工网络上,相同的先验比例下,性能比未采用迭代框架和主动策略的NMF半监督社区发现方法有更大的提升,且在结构不清晰的网络中表现稳定。  相似文献   

10.
针对网络行为数据中带标签数据收集困难及网络行为数据的异构性,提出了一种基于异构距离和样本密度的半监督模糊聚类算法,并将该算法应用到网络入侵检测中。该方法依据网络行为数据样本的异构性计算样本与类之间的异构距离及各个类的样本密度,利用异构距离和类内样本密度计算样本与类之间的模糊隶属度,用所得隶属度对无标签样本进行加标签处理,并得到相应的分类器。在KDD CUP99数据集上进行仿真实验,结果表明该方法是可行的、高效的。  相似文献   

11.
现实世界中社交网络中的节点和边随时间动态增加或消失,导致网络中的社区结构也随之发生变化,因此,文中提出基于密度聚类的增量动态社区发现算法.首先,基于改进后的DBSCAN生成初始时刻社区.然后,提出边变化率指标,并结合余弦相似度指标确定相邻时刻邻居发生变化的节点及其邻居节点的社区归属调整.在进行社区归属度计算时,不仅考虑节点直接邻居的影响,还考虑间接邻居的影响.最后,通过迭代更新模块度增益进行社区合并,以减少噪声社区的干扰.在人工数据集和真实数据集上的实验表明,文中算法可以有效应对网络结构突变和增量计算累积误差带来的影响,具有较低的时间复杂度.  相似文献   

12.
一种基于增量式谱聚类的动态社区自适应发现算法   总被引:6,自引:0,他引:6  
蒋盛益  杨博泓  王连喜 《自动化学报》2015,41(12):2017-2025
针对当前复杂网络动态社区发现的热点问题, 提出一种面向静态网络社区发现的链接相关线性谱聚类算法, 并在此基础上提出一种基于增量式谱聚类的动态社区自适应发现算法. 动态社区发现算法引入归一化图形拉普拉斯矩阵呈现复杂网络节点之间的关 系,采用拉普拉斯本征映射将节点投影到k维欧式空间.为解决离群节点影响谱聚类的效果和启发式确定复杂网络社区数量的问题, 利用提出的链接相关线性谱聚类算法发现初始时间片的社区结构, 使发现社区的过程能够以较低的时间开销自适应地挖掘复杂网络社区结构. 此后, 对于后续相邻的时间片, 提出的增量式谱聚类算法以前一时间片聚类获得的社区特征为基础, 通过调整链接相关线性谱聚类算法实现对后一时间片的增量聚类, 以达到自适应地发现复杂网络动态社区的目的. 在多个数据集的实验表明, 提出的链接相关线性谱聚类算法能够有效地检测出复杂网络中的社区结构以及基于 增量式谱聚类的动态社区自适应发现算法能够有效地挖掘网络中动态社区的演化过程.  相似文献   

13.
传统的聚类算法是一种无监督的学习过程,聚类的精度受到相似性度量方式以及数据集中孤立点的影响,并且算法也没有很好的利用先验知识,无法体现用户的需求。因此提出了基于共享最近邻的孤立点检测及半监督聚类算法。该算法采用共享最近邻为相似度,根据数据点的最近邻居数目来判断是否为孤立点,并在删除孤立点的数据集上进行半监督聚类。在半监督聚类过程中加入了经过扩展的先验知识,同时根据图形分割原理对数据集进行聚类。文中使用真实的数据集进行仿真,其仿真结果表明,本文所提出的算法能有效的检测出孤立点,并具有很好的聚类效果。  相似文献   

14.
基于近邻传播算法的半监督聚类   总被引:29,自引:2,他引:29  
肖宇  于剑 《软件学报》2008,19(11):2803-2813
提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.  相似文献   

15.
客户分类作为客户关系管理(CRM)的重要管理方法,是企业进行市场营销的重要依据.通过对客户进行分类,有利于对客户价值进行准确评估,方便进行精准营销.本文通过对RFM模型数据集本身潜藏的先验结构化信息进行研究,标记出两组客户数据作为先验类别标记,进而得到两个初始聚类中心.基于传统K-means算法使用自适应方法确定K值和初始聚类中心.引入Must-link和Cannot-link两种约束将类别标记转换为成对约束信息,基于HMRF-KMeans成对约束,引入约束惩罚项和约束奖励项,实现对聚类引导和聚类结果的调整.使用改进的半监督聚类算法(RFM-SS-means)对标准数据集进行了测试,同时使用Food mart数据集对比了RFM-SS-means算法与传统K-means算法、two-steps算法的聚类效果.由实验结果可知,RFM-SS-means的CH系数最大,无需事先确定K值和初始聚类中心,聚类效果良好.  相似文献   

16.
17.
针对seeded-K-means和constrained-K-means算法要求标签数据类别完备的限制,本文提出了基于不完备标签数据的半监督K-means聚类算法,重点讨论了未标签类别初始聚类中心的选取问题.首先给出了未标签类别聚类中心最优候选集的定义,然后提出了一种新的朱标签类别初始聚类中心选取方法,即采用K-mea...  相似文献   

18.
高维数据的聚类特性通常难以直接观测.将其构建为复杂网络,节点间的拓扑结构可以反映样本之间的关系.对网络中的节点进行社区发现,可实现对数据更直观的聚类.提出一种基于网络社区发现的低随机性标签传播聚类算法.首先,用半径和最近邻方法将数据集构建为稀疏的全连通网络.之后,根据节点相似度进行节点标签预处理,使得相似的节点具有相同的标签.用节点的影响力值改进标签传播过程,降低标签选择的随机性.最后,基于内聚度进行社区的优化合并,提高社区的质量.在真实数据集和人工数据集上的实验结果表明,该算法对各种类型的数据都具有较好的适应性.  相似文献   

19.
基于Tri-Training和数据剪辑的半监督聚类算法   总被引:2,自引:1,他引:2  
邓超  郭茂祖 《软件学报》2008,19(3):663-673
提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能.  相似文献   

20.
社区识别技术是公共安全领域潜在危害行为预警预测和已发生危害行为追踪溯源的基础,针对传统社区识别算法将社区视作单一集合而无法描述社区主次成员的问题,提出一种基于动态距离的模糊社区识别算法。该算法将传统的单一社区结构划分为核心区域和边际区域,以边际区域来描述社区的模糊区间。该算法首先将网络设想为动态演变模型,网络中的任意节点均会与其他节点产生互动,互动将改变各节点间距离,距离也反过来影响互动。在阈值的界定下,受到多个社区吸引的节点被划分到边际区域,最终距离分布趋于稳定,各个社区结构得以显现。通过对比实验验证了CDFDD算法在社区识别上的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号