首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 750 毫秒
1.
针对半监督聚类算法性能受到成对约束数量多寡的限制问题,现有的研究大都依赖于原始成对约束的数量。因此,首先提出了基于灰关联分析的成对约束初始化算法(initialization algorithm of pair constraints based on grey relational analysis,PCIG)。该算法通过均衡接近度计算数据对象间的相似度,并根据相似度的取值来确定可信区间,然后借鉴网络结构初始化方法来扩充数据对象间的成对关系。最后,将其应用于标签传播聚类算法。通过在五个基准数据集上进行实验,基于改进成对约束扩充的标签传播聚类算法与其他方法相比NMI值和ARI值有所提升。实验结果证明了改进成对约束扩充可以有效改善标签传播算法的聚类效果。  相似文献   

2.
在社会网络中,标签聚类研究可以解决标签冗余和语义模糊等问题。为了提高聚类有效性,提出综合标签共现信息确定标签特征向量,通过特征向量的提取计算相似度,将传统聚类算法中用几何距离计算对象与中心对象的距离改为用皮尔森相关系数计算,提出结合K-means聚类算法对标签进行聚类的标签共现聚类算法,并分析了算法的复杂度。最后对不同聚类算法进行了相关对比实验,实验结果表明该聚类算法效果要好于其他的聚类算法,从而验证了该聚类算法的有效性和可行性。  相似文献   

3.
为将长运动中所包含的不同运动自动分割出来,提出一种基于谱聚类的长运动数据分割算法.首先将运动捕获数据分解成长度相等的运动数据片段,并基于主成分分析来计算这些小片段之间的相似度,得到运动数据相似度矩阵;然后用谱聚类算法将相似度矩阵转换为相应的拉普拉斯矩阵,计算其前若干个特征向量,并采用K均值算法获得聚类结果;由于上述相似度矩阵直接实施谱聚类算法所得到的类别标签序列包含大量噪声,采用统计滤波算法对分类结果进行了处理,获得最终的分割点.在14个运动数据上进行自动分割测试,验证了文中算法的有效性.  相似文献   

4.
在分析传统聚类算法的基础上,提出一种针对混合属性数据的聚类算法.该算法利用格论中简单元组及超级元组将对象属性转化为格模型建立,以对象间格覆盖数来衡量类间相似度,根据高覆盖数高相似度的原则选择聚类中心进行聚类.在公共数据集上的实验结果表明,该算法在不增加空间复杂度的基础上,有效地提高了混合属性数据聚类的质量.  相似文献   

5.
孙琛琛  申德荣  寇月  聂铁铮  于戈 《软件学报》2016,27(9):2303-2319
实体识别是数据质量的一个重要方面,对于大数据处理不可或缺.已有的实体识别研究工作聚焦于数据对象相似度算法、分块技术和监督的实体识别技术,而非监督的实体识别中匹配决定的问题很少被涉及.提出一种面向实体识别的聚类算法来弥补这个缺失.利用数据对象及其相似度构建带权重的数据对象相似图.聚类过程中,利用相似图上重启式随机游走来动态地计算类簇与结点的相似度.聚类的基本逻辑是,类簇迭代地吸收离它最近的结点.提出数据对象排序方法来优化聚类的顺序,提高聚类精确性;提出了优化的随机游走平稳概率分布计算方法,降低聚类算法开销.通过在真实数据集和生成数据集上的对比实验,验证了该算法的有效性.  相似文献   

6.
郏宣耀 《计算机应用》2005,25(Z1):176-177
针对高维数据相似度难定义的问题,提出了一种基于相似性二次度量的高维聚类算法.该算法首先由属性分布相似度和空间距离计算数据对象间实距离矩阵,得到各对象的最近邻表,根据该表内元素的交叉情况计算出数据间的相似性矩阵,最后根据该相似矩阵进行数据聚类.实验结果显示该算法能够获得优秀的聚类结果.  相似文献   

7.
一种最小生成树聚类算法   总被引:2,自引:0,他引:2  
现有的聚类算法都不能在输入较少参数的情况下得到任意形状任意密度的类.提出一种最小生成树的聚类算法,该算法不但能解决上述问题,还能处理高维数据,发现异常点,且具有扩展性.针对该算法提出一个目标函数,该函数根据对象的类属情况和相似度统计信息来判别聚类效果的质量.最后,通过实验验证了该算法的聚类质量很好,目标函数具有良好的收敛性.  相似文献   

8.
目前适用于犹豫模糊数据对象集的聚类算法研究仍然非常有限,现有的犹豫模糊数据对象集层次聚类算法受异常点影响较大且容易聚成链状.针对上述问题,本文首先提出了一种可扩展的犹豫模糊集的加权相似度计算方法,该方法不仅可以利用不同的函数计算相似度,而且可以根据实际问题构造最优的相似度函数.基于该加权相似度计算方法,结合经典的谱聚类算法提出了犹豫模糊数据对象集的谱聚类算法(SCHF).针对目前国内外还没有可用于犹豫模糊数据对象集聚类的标准数据集的现实情况,本文提出了一种确定性数据的犹豫模糊方法并在仿真实验中应用.仿真实验不仅验证了SCHF算法的有效性,而且表明SCHF算法比两种已知算法有更好的聚类效果.  相似文献   

9.
为了能够对群体用户中不确定性和模糊性的行为精确的定量分析和定性相似度的计算,设计了一个基于云模型理论的定性相似度算法来给群体用户构建画像模型.首先,采用识别客户价值最广泛的RFM (Recency,Frequency,Monetary)模型来细分用户.其次,通过云模型变换算法将用户的行为转换为用户的云模型标签,该云模型标签就是对用户行为的一次定量表示,然后通过云模型聚类算法来划分出不同的客户类型,作为客户画像的模型,利用该模型指导商业营销活动.  相似文献   

10.
在对网页相似度分析的基础上,提出网页多词元快速聚类算法,这种算法针对中文,采用词元相似度聚类方法,利用一元组相似度判断对网页进行快速初步聚类,然后在此结果中利用二元组相似度判断进行精确聚类,兼顾了聚类精度和速度的要求。  相似文献   

11.
基于音乐语义标签的音乐相似计算研究是音乐信息检索领域的另一个新的热点。该文提出一种基于标签挖掘的歌曲分类方法,以Last.fm音乐网站上的用户标签为特征进行歌曲相似性研究。文中将文本聚类中常用的潜在语义分析(LSA)方法和改进的K-means聚类方法相结合,应用于音乐语义标签的自动抽取;从音乐网站last.fm上抽取了6大类600首歌曲的8000多个用户标签作为音乐语义特征,并利用LSA进行歌曲向量的降维,形成了一个表示歌曲间相似关系的600×150维向量矩阵。最后利用K均值,根据音乐歌曲间的相似度进行歌曲分类,完成歌曲相似性比较。实验结果同没有LSA降维前及已有的HCC结果比较表明,使用文中提出的基于音乐标签的模型对歌曲进行分类,能得到较好的分类效果。  相似文献   

12.
为了改进当前社会化标注系统在标签浏览和检索方面的弱点,提出一种基于加权网络分割的社会性标签聚类算法。算法基于标签节点的核心度和相似性对标签共现网络进行分割,并在聚类后自动生成该类的特征标签来代表该类簇。实验测试表明算法具有较好的聚类效果。  相似文献   

13.
王洁  于颜硕  周宽久  侯刚 《计算机科学》2014,41(12):197-201
Web标签有助于用户根据自己特定的兴趣完成信息资源的分类、组织和检索。然而,正是由于协同标记系统特有的公开性、自由化的特点,采用其对信息资源进行描述、组织、分类和检索,存在着信息描述不精确、标签组织混乱和标签语意模糊等问题。在此背景下提出了3种基于特征向量表示法(FVR)的Web标签SOINN聚类算法:基于资源的特征向量表示法、基于其他共现标签的特征向量表示法和基于全集共现标签的特征向量表示法。同时应用MapReduce框架将SOINN算法进行并行化。实验表明,当类中心数量超过2000时,3种分布式聚类FVR算法的召回率和准确度优于原始算法,可获得很好的加速比。从而证明此分布式聚类算法具有很好的可扩展性,可以用于更为海量的Web日志聚类分析系统。  相似文献   

14.
基于景点标签的协同过滤推荐   总被引:1,自引:0,他引:1  
针对基于用户社会关系的协同过滤推荐算法有时无法给出目标用户对目标物品的评分的情况,以及基于物品的协同过滤推荐算法中存在的用户对不同类型物品的评分可能不具有可比性的问题,提出了两个基于物品标签的协同过滤推荐算法。这两个算法在计算物品相似度时引入了物品的类型标签信息。在景点评分数据上的实验结果表明:相比基于用户社会关系的协同过滤推荐算法,基于用户社会关系和物品标签的协同过滤推荐算法的准确率和覆盖率提升最高达10%和4%;相比基于物品的协同过滤推荐算法,基于物品和物品标签的协同过滤推荐算法的准确率提升达15%。这说明景点类型标签信息的引入能使得景点的相似度计算更准确。  相似文献   

15.
现有的Folksonomy标签推荐系统中,标签模糊会导致系统推荐不准确,并且影响用户建模的准确性,而标签冗余妨碍了对系统的评估。利用K-Means聚类结果抽取模糊和冗余标签时,聚类效果较差导致抽取不准确。提出使用核K-Means聚类处理标签模糊和冗余,通过非线性映射能够较好地分辨、提取并放大样本中有用的特征,提高抽取模糊标签和冗余标签的准确度。实验结果表明:核K-Means聚类对标签和资源的聚类效果更好,抽取的模糊标签和冗余标签也更准确。  相似文献   

16.
蔡彪  李蕊岑  吴媛媛 《计算机应用》2021,41(9):2569-2577
链路预测的主要任务是设计一个能够更加准确地描述给定网络机制的预测算法,从而得到更准确的预测结果。在分析现有研究成果基础上发现,网络的相似性特征对采用的链路预测方法有较大的影响:在节点间标签相似性较低的网络中,提高标签的相似性可以提高预测的准确性;而在节点间标签相似性较高的网络中,则应更加关注结构信息对于链路预测的贡献来提高预测的准确性。随后,通过对标签进行加权处理,提出带权值的标签相似性算法,在低相似性网络中能够提高链路预测的准确性。同时,在较高相似性网络中,将网络的结构信息引入到节点的相似性计算中,并通过偏好链接机制来提升链路预测的准确性。在四个真实网络上的实验结果表明,所提算法相对于标签系统间的余弦相似性(CSTS)算法、偏好链接(PA)等算法取得了最高的准确率。根据网络相似性特征,采用所提出的对应算法进行链路预测能够得到更准确的预测结果。  相似文献   

17.
尚敬文  王朝坤  辛欣  应翔 《软件学报》2017,28(3):648-662
社区结构是复杂网络的一个重要特征,社区发现对研究网络结构有重要的应用价值.k-均值等经典聚类算法是解决社区发现问题的一类基本方法.然而,在处理网络的高维矩阵时,使用这些经典聚类方法得到的社区往往不够准确.提出一种基于深度稀疏自动编码器的社区发现算法CoDDA,尝试提高使用这些经典方法处理高维邻接矩阵进行社区发现的准确性.首先,提出基于跳数的处理方法,对稀疏的邻接矩阵进行优化处理.得到的相似度矩阵不仅能反映网络拓扑结构中相连节点间的相似关系,同时能反映不相连节点间的相似关系.接着,基于无监督深度学习方法,构建深度稀疏自动编码器,对相似度矩阵进行特征提取,得到低维的特征矩阵.与邻接矩阵相比,特征矩阵对网络拓扑结构有更强的特征表达能力.最后,使用k-均值算法对低维特征矩阵聚类得到社区结构.实验结果显示,与6种典型的社区发现算法相比,CoDDA算法能够发现更准确的社区结构.同时,参数实验结果显示,CoDDA算法发现的社区结构比直接使用高维邻接矩阵的基本k-均值算法发现的社区结构更为准确.  相似文献   

18.
李全 《计算机工程》2012,38(3):280-283
为解决无线射频识别系统中的标签碰撞问题,提出一种基于改进后退策略的按位二进制防碰撞算法。该算法利用标签ID的唯一性,使阅读器只需通过标签ID的部分比特位就能准确地识别某个标签。仿真结果表明,改进的搜索算法能减少阅读器与标签之间的识别通信量及阅读器的搜索次数,提高标签的识别速度。  相似文献   

19.
针对在线用户评论中产品特征的提取和聚类问题进行了研究,提出一种改进的SimRank算法,将情感词-特征对放入二分网中,在二分网中使用改进后的SimRank算法计算特征词之间的相似度;再通过谱聚类算法对特征相似度进行聚类,提取网络产品的特征集合。以某电脑评论为例,从中提取情感词-特征对进行研究,实验结果显示,改进后的算法准确率更高。改进后的特征相似度检测方法可以作为检测特征相似度的有效方法。实验采用在线产品的评论语料,实验结果表明使用改进后的SinRank相似度对特征词进行聚类提取出特征更加准确。  相似文献   

20.
针对目前一些已有标签防碰撞算法大多应用于标签固定场景,而在标签移动场景下表现不佳的问题,提出了一种标签移动场景下(tag moving scene,TMS)的防碰撞算法。该算法首先对移入标签和驻留标签进行区分,然后对标签数量进行预估,最后基于标签预估值采用一种混合识别策略对标签进行识别。仿真实验结果显示,相较于其他算法,TMS算法在标签移动场景下可以有效降低标签识别时间,对RFID标签防碰撞算法的研究具有一定意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号