首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 343 毫秒
1.
夏春梦  倪志伟  倪丽萍  张霖 《计算机科学》2017,44(10):187-192, 215
针对近邻传播聚类算法在构造相似度矩阵时因对多重尺度和任意形状数据敏感而聚类效果不理想的缺陷,提出一种基于密度调整和流形距离的近邻传播算法。该算法将“领域密度”和“流形理论”的思想引入近邻传播算法,利用基于密度调整和流形的距离更好地刻画了样本空间的真实分布状况,解决了相似度矩阵不能充分表示数据之间内在关系的问题,在一定程度上提高了近邻传播聚类算法的聚类效果。通过在人工数据集和标准数据集上进行实验对比,验证了算法的有效性和优越性。  相似文献   

2.
为了更好地解决密度不均衡问题与刻画高维数据相似性度量问题,提出一种基于共享[k]-近邻与共享逆近邻的密度峰聚类算法。该算法计算两个点的共享[k]-近邻数与共享逆近邻数,并结合欧氏距离来确定这两个点之间的共享相似度;将样本点与其逆近邻点的共享相似度之和定义为该点的共享密度,再通过共享密度选取聚类中心。通过实验证明,该算法在人工数据集和真实数据集上的聚类结果较其他密度聚类算法更加准确,并且能更好地处理密度不均衡问题,同时也提高了高维数据的聚类精度。  相似文献   

3.
针对因使用基于距离的相似性度量,传统聚类内部指标随着数据维数的增加而性能下降的问题,提出了一种基于共享近邻相似度的聚类内部指标.首先,利用共享近邻相似度和k最近邻(kNN)方法,估计数据点的密度,构建融合密度的共享近邻相似度图.然后,根据融合密度的共享近邻相似度图,利用最大流算法,计算出类内相似度和类间分离度,并结合两者计算出聚类内部指标.通过对人工数据集和真实数据集的测试表明,与9个基于距离的传统聚类内部指标相比,该指标能更准确评估数据集的最佳划分和预测数据集的最佳类数.因此,该指标处理复杂类结构和高维数据的能力优于所对比的其他聚类内部指标.  相似文献   

4.
以密度敏感距离作为相似性测度,结合近邻传播聚类算法和谱聚类算法,提出了一种密度敏感的层次化聚类算法。算法以密度敏感距离为相似度,多次应用近邻传播算法在数据集中选取一些“可能的类代表点”;用谱聚类算法将“可能的类代表点”再聚类得到“最终的类代表点”;每个数据点根据其类代表点的类标签信息找到自己的类标签。实验结果表明,该算法在处理时间、内存占用率和聚类错误率上都优于传统的近邻传播算法和谱聚类算法。  相似文献   

5.
距离的度量方法是影响K近邻分类算法的最重要因素,普通的欧式距离度量方法只对数值敏感无法反映数据内部的关联,对此在K近邻文本分类中引入一种大边界最近邻(LMNN)距离度量学习算法,并针对此算法会加剧数据密度分布不均的情况,提出一种改进的基于样本密度的大边界最近邻文本分类算法(DLMNNC)。该算法首先利用LMNN完成对样本集的训练得到映射矩阵L对原数据空间进行重构,然后为了解决LMNN算法可能会加剧样本分布不均匀的问题定义一个密度函数D,最后用密度函数结合K近邻决策条件,实现文本分类。实验证明DLMNNC在很大程度上提高了文本分类精度。  相似文献   

6.
对密度分布不均匀的数据采用近邻传播的谱聚类,存在误将不同类的样本传入同一高相似度的子集中的情况,因而得不到真实的相似度矩阵和准确的聚类结果.针对这一问题,提出一种基于局部密度估计和近邻关系传播的谱聚类(LDENP-SC)算法.该算法首先对样本进行密度估计并升维,然后对新数据采用传播算法更新相似度矩阵并谱聚类.在计算密度时提出一种简易的局部密度计算方法,该方法既能反应样本的密度又能减少运算时间;在更新相似度矩阵时基于传播算法提出一种更新子集间样本相似性的方法,使更新后样本的相似度更接近实际.实验结果表明,LDENP-SC算法能够得出取得理想的相似度矩阵和准确的聚类结果,具有较好的泛化能力,且对一定范围内的参数σ表现出鲁棒性.  相似文献   

7.
基于模糊连接度的近邻传播聚类图像分割方法   总被引:1,自引:0,他引:1  
杜艳新  葛洪伟  肖志勇 《计算机应用》2014,34(11):3309-3313
针对现有近邻传播聚类图像分割方法分割精度低的问题,提出一种基于模糊连接度的邻近传播聚类(FCAP)图像分割算法。针对传统模糊连接度算法不能得出任意点对间模糊连接度的不足,结合最大生成树提出了全模糊连接度算法。FCAP算法先使用Normalized Cut超像素技术进行超像素分割,这些超像素可以看作数据点以及它们之间的模糊连接度;然后使用所提出的全模糊连接度算法计算超像素间的模糊连接度,根据模糊连接度和空间信息计算超像素的相似度;最后使用近邻传播(AP)聚类算法完成分割。实验结果表明,FCAP算法明显优于超像素处理后直接使用AP聚类算法进行分割的方法,并且优于无监督图像分割方法。  相似文献   

8.
协同过滤是个性化推荐系统中的常用技术, 数据稀疏性是影响协同过滤算法预测精度的主要因素。SlopeOne算法利用线性回归模型解决数据稀疏性问题。基于用户相似度的k近邻方法可以优化参与预测的用户评分数据的质量。在SlopeOne算法的基础上, 提出了一种动态k近邻和SlopeOne相结合的算法。首先根据用户之间相似度的具体情况动态地为每个用户选择不同数目的近邻用户, 然后利用近邻用户的评分数据生成项目之间的平均偏差, 最后利用线性回归模型进行预测。在MovieLens数据集上的实验结果表明, 改进算法在预测精度上比原SlopeOne算法有所提高, 能适应数据稀疏度更低的推荐系统, 并且与其他协同过滤算法相比, 推荐精度也具有明显优势。  相似文献   

9.
针对近邻传播(Affinity Propagation,AP)聚类算法存在运算复杂度高且未考虑数据点密度对聚类效果的影响的问题,提出一种改进的近邻传播聚类算法并应用于图像分割。首先,在度量数据点之间的相似性时,考虑到密度差异对数据点成为类代表点可能性的影响,利用密度聚类的思想设置偏向参数,同时引入数据点的空间邻近位置信息,充分利用图像信息,提高相似度矩阵构造的合理性,增强聚类的内聚性,并提高分割精度;其次,为降低计算相似度矩阵的复杂度,减小计算机内存开销,引入Nystr?m逼近策略求解相似度矩阵,提升了算法的效率。实验表明,改进后的算法与传统的近邻传播聚类算法相比获得了更好的图像分割效果。  相似文献   

10.
在近邻算法中,近邻样本和目标样本之间的绝对距离和相似性为目标样本类别的判断提供重要的决策依据,K值的大小也会直接决定了近邻算法的预测效果。然而,SNN算法在预测过程中,使用固定的经验K值来预测不同局部密度的目标样本,具有一定的片面性。因此,为实现SNN算法中K值的合理调节,提高算法的预测准确度和稳定性,提出一种基于局部密度和相似度的自适应SNN算法(AK-SNN)。算法的性能在UCI数据集上进行验证,结果显示该算法取得优于KNN和SNN的预测效果和鲁棒性。  相似文献   

11.
在许多模式识别任务中,研究者常常使用有标记样本的信息,而忽略无标记样本信息,但在现实生活中有标记样本的获得可能需要花费大量的人力、物力、财力,而无标记数据的获得却相对容易得多。如何利用无标记的数据来增强分类器的性能成为近年来模式识别中的研究热点。在以往的半监督增强学习中,主要是根据无标记样本和有标记样本的相似度来利用无标记样本的,相似度主要使用欧氏距离来度量,而欧氏距离只反映样本间的空间位置关系,没有反映样本间的流形信息。因此,提出了基于测地距离的半监督增强学习算法,从而可以反映样本空间的流形信息。多个数据库上的实验结果表明提出算法的有效性。  相似文献   

12.
This paper reports an experimental result obtained by additionally using unlabeled data together with labeled ones to improve the classification accuracy of dissimilarity-based methods, namely, dissimilarity-based classifications (DBC) [25]. In DBC, classifiers among classes are not based on the feature measurements of individual objects, but on a suitable dissimilarity measure among the objects instead. In order to measure the dissimilarity distance between pairwise objects, an approach using the one-shot similarity (OSS) [30] measuring technique instead of the Euclidean distance is investigated in this paper. In DBC using OSS, the unlabeled set can be used to extend the set of prototypes as well as to compute the OSS distance. The experimental results, obtained with artificial and real-life benchmark datasets, demonstrate that designing the classifiers in the OSS dissimilarity matrices instead of expanding the set of prototypes can further improve the classification accuracy in comparison with the traditional Euclidean approach. Moreover, the results demonstrate that the proposed setting does not work with non-Euclidean data.  相似文献   

13.
古凌岚  彭利民 《计算机科学》2016,43(12):213-217
针对传统的基于欧氏距离的相似性度量不能完全反映复杂结构的数据分布特性的问题,提出了一种基于相对密度和流形上k近邻的聚类算法。基于能描述全局一致性信息的流形距离,及可体现局部相似性和紧密度的k近邻概念,通过流形上k近邻相似度度量数据对象间的相似性,采用k近邻的相对紧密度发现不同密度下的类簇,设计近邻点对约束规则搜寻k近邻点对构成的近邻链,归类数据对象及识别离群点。与标准k-means算法、流形距离改进的k-means算法进行了性能比较,在人工数据集和UCI数据集上的仿真实验结果均表明,该算法能有效地处理复杂结构的数据聚类问题,且聚类效果更好。  相似文献   

14.
In this paper, we consider some cosine similarity measures and distance measures between q-rung orthopair fuzzy sets (q-ROFSs). First, we define a cosine similarity measure and a Euclidean distance measure of q-ROFSs, their properties are also studied. Considering that the cosine measure does not satisfy the axiom of similarity measure, then we propose a method to construct other similarity measures between q-ROFSs based on the proposed cosine similarity and Euclidean distance measures, and it satisfies with the axiom of the similarity measure. Furthermore, we obtain a cosine distance measure between q-ROFSs by using the relationship between the similarity and distance measures, then we extend technique for order of preference by similarity to the ideal solution method to the proposed cosine distance measure, which can deal with the related decision-making problems not only from the point of view of geometry but also from the point of view of algebra. Finally, we give a practical example to illustrate the reasonableness and effectiveness of the proposed method, which is also compared with other existing methods.  相似文献   

15.
软件缺陷预测是软件工程中的一个研究热点问题,通常软件缺陷预测的研究工作主要关注于软件模块是否存在缺陷和软件模块存在缺陷的数量。目前软件缺陷数量研究主要集中在基于缺陷数的软件模块排序。为提高软件模块排序的准确度,提出一种回环软件缺陷数量预测模型。此模型主要包括回环特征选择和缺陷预测两部分。在回环特征选择部分,将改进的密度峰值聚类算法和包裹式特征选择方法相结合,以回环的方式动态的选出最优特征,并训练学习器;陷预测部分采用反距离加权集成的方式得到预测结果。实验结果表明,此模型相比于LRCR、GRCR、LR、MLP、GP、NBR、ZIP分别提升了10.36%、28.74%、13.51%、36.61%、25.30%、60.14%、54.72%,有助于提高软件缺陷预测准确性。  相似文献   

16.
朱朝阳  陈相舟  闫龙  张信明 《计算机科学》2017,44(Z6):483-485, 518
针对软件系统日益复杂以及软件缺陷难以预测的问题,提出了一种使用人工免疫识别系统的软件缺陷预测模型。模型的构建首先通过主成分分析法对软件缺陷预测数据集进行特征的识别和提取,进一步提高学习算法的性能;针对计算亲和度时欧氏距离不能满足非线性应用需求的情况,为了提高算法对非线性应用的适用性,使用基于高斯径向基核函数的亲和度计算来计算抗体和抗原之间的亲和度阈值。再基于亲和度计算,进行抗体训练、资源竞争以及记忆细胞的选择。最后,利用记忆细胞集进行分类。模拟实验表明,针对实验中的数据集,所提模型的预测准确度达到84%~90%,精准度达到85%~91%。  相似文献   

17.
何力  曲仕茹 《控制与决策》2014,29(3):396-402

提出一种相似矩阵迭代修正并聚类算法, 分为偏振定理的谱分离数据和球极平面逆投影的几何分离数据两步. 首先将数据谱分解, 得到低维距离矩阵; 然后投影到双随机矩阵, 隐式进行一次球极平面逆投影, 几何对称分离数据; 最后解算投影后坐标, 得到新相似矩阵. 实验在人工合成数据和自然数据上进行, 结果表明所提出算法修正了数据的相似度, 并获得了正确的聚类个数, 对尺度参数变化有较强的鲁棒性, 聚类性能比修正前有较大提升.

  相似文献   

18.
提出一种基于图的半指导学习算法用于网页分类.采用k近邻算法构建一个带权图,图中节点为已标志或未标志的网页,连接边的权重表示类的传播概率,将网页分类问题形式化为图中类的概率传播.为有效利用图中未标志节点辅助分类,结合网页的内容信息和链接信息计算网页间的链接权重,通过已标志节点,类别信息以一定概率从已标志节点推向未标志节点.实验表明,本文提出的算法能有效改进网页分类结果.  相似文献   

19.
层次聚类是一种重要的数据分析技术。传统的层次聚类方法大都采用欧式距离度量类之间相似度,不能有效处理类之间重合和类密度变化大的情况。文中提出一种基于贝叶斯和谐度的层次聚类方法,采用和谐度增幅代替传统层次聚类方法采用的欧式距离。贝叶斯和谐度取自于贝叶斯阴阳和谐学习理论,能衡量整个数据的分布情况和指导选择合适的类别数。文中方法根据和谐度的变化来度量类之间的相似度,能克服传统层次聚类的缺点;同时更易选择阈值终止层次聚类的合并,从而产生合适的类别数。最后通过两个实验验证文中方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号