首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 512 毫秒
1.
网格密度峰值聚类在兼顾密度峰值聚类算法可识别任意形状类簇的基础上,通过数据集的网格化简化整体计算量,成为当前备受关注的聚类方法.针对大规模数据,如何进一步区分稠密与稀疏网格,减少网格密度峰值聚类中参与计算的非空网格代表点的数量是解决“网格灾难”的关键.结合以网格密度为变量的概率密度分布呈现出类Zipf分布的特点,提出一种基于Zipf分布的网格密度峰值聚类算法.首先计算所有非空网格的密度并映射为Zipf分布,根据对应的Zipf分布筛选出稠密中心网格和稀疏边缘网格;然后仅对稠密中心网格进行密度峰值聚类,在自适应确定潜在聚类中心的同时减少欧氏距离的计算量,降低算法复杂度;最后通过对稀疏边缘网格的处理,进一步优化类簇边界并提高聚类精度.人工数据集和UCI数据集下的实验结果表明,所提出算法对大规模、类簇交叉数据的聚类具有明显优势,能够在保证聚类精度的同时降低时间复杂度.  相似文献   

2.
基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.再根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行bagging集成分类.实验表明,文中方法在大多数数据集上性能表现较优.  相似文献   

3.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

4.
该文提出基于高斯加权距离以及聚类重构机制的K-NN文本聚类算法。文章提出K-NN近邻域的概念,通过高斯加权的近邻域算法实施K-NN聚类。利用高斯函数根据样本与聚类中心的距离为样本赋权,计算聚类距离。基于近邻域权重和聚类密度对形成的聚类实施重构,实现聚类数目的自适应调整。使用拆分算子拆分稀疏聚类并调整异常样本;使用合并算子合并相似聚类。实验显示聚类重构机制能够有效地提高聚类的准确率及召回率,增加聚类密度,使得形成的聚类结果更加合理。
  相似文献   

5.
基于近邻距离的大规模样本集去噪与减样   总被引:1,自引:0,他引:1       下载免费PDF全文
在分析传统样本缩减方法局限性的基础上,提出一种距离模型及样本的类内距离和类间距离的度量方法。给出利用该距离模型进行噪声识别和样本重要性评价方法及训练样本的缩减算法。该算法剔除噪声样本,根据样本相似性、类间距离和周围被剔除样本的数目,直接从原始样本空间剔除次要样本。仿真结果表明,该距离模型偶然性小,抗噪能力强,缩减效果优于传统的样本缩减方法。  相似文献   

6.
当前基于多模型的图像集分类方法通过对每个图像集进行单次聚类来提取局部模型,与其他图像集进行匹配时使用固定的聚类。然而,如果环境条件不佳,则可能导致两个最近邻聚类表示同一对象的不同特征。针对这一问题,首先,根据重建误差,在Grassmann流形上定义两个子空间间的Frobenius范数距离。然后,通过稀疏表示从画廊图像集中提取局部线性子空间。对每个局部线性子空间,通过联合稀疏表示,利用探测图像集的样本来自适应构建相应的最近邻子空间。基于Honda、ETH-80和Cambridge-Gesture数据集的实验结果表明,与基于仿射包的图像集距离(AHISD)、稀疏近似最近邻点(SANP)和流形判别分析(MDA)等其他算法相比,算法的性能更优。  相似文献   

7.
该文提出面向文本距离并独立于聚类过程的聚类重构策略。提出邻近域的概念并阐述了邻近域规则,设计了高斯加权邻近域算法。利用高斯函数根据样本与聚簇中心的距离为样本赋权,计算聚簇间距。基于邻近域权重对文本聚类的结果实施重构。使用拆分算子拆分稀疏聚簇并调整异常样本;使用合并算子合并相似聚簇。实验显示聚簇重构机制能够有效地提高聚类的准确率及召回率,增加聚簇密度,使得形成的聚类结果更加合理。  相似文献   

8.
周立军  刘凯  吕海燕 《计算机应用》2018,38(7):1872-1876
针对受限玻尔兹曼机(RBM)无监督训练存在特征同质化问题以及现有稀疏受限玻尔兹曼机(SRBM)难以自适应稀疏的缺陷,提出了一种基于竞争学习的RBM稀疏机制方法。首先设计基于神经元权值向量与输入向量间夹角余弦值的距离度量,评估两者相似度;然后在训练过程中对不同样本选择出基于距离度量的最优匹配隐单元;其次根据最优匹配隐单元激活状态计算对其他隐单元的稀疏惩罚度;最后执行参数更新并依据深度模型训练过程,将竞争稀疏应用于深度玻尔兹曼机(DBM)的构建中。通过手写数字识别实验证明,与误差平方和正则化因子相比,基于该稀疏机制的DBM分类准确率提高了0.74%,平均稀疏度提高了5.6%,且无需设置稀疏参数,因此,该稀疏机制可提高RBM等无监督训练模型的训练效率,并应用于深度模型的构建中。  相似文献   

9.
针对现有行为特征提取方法识别率低的问题,提出了一种融合稠密光流轨迹和稀疏编码框架的无监督行为特征提取方法(DOF-SC)。首先,在稠密光流(DOF)轨迹提取的基础上,对以轨迹为中心的原始图像块进行采样作为轨迹的原始特征;其次,对轨迹原始特征基于稀疏编码框架训练稀疏字典,得到轨迹的稀疏特征表示,利用词袋(BF)模型对稀疏特征聚类得到轨迹的码书,再根据码书对每个动作中出现的所有轨迹所属的码书类别进行投票,统计该动作中每个码书出现的次数,得到行为特征;最后,对行为特征利用基于直方图交叉核函数的支持向量机(SVM)进行训练得到行为识别模型,再利用该模型对行为进行分类预测,得到最终行为识别的结果。在对轨迹采样10%的情况下,DOF-SC算法得到的行为识别准确率在KTH数据库上高出采用运动边界直方图(MBH)作为特征的行为识别准确率的0.9%,在YouTube数据库上高出MBH作为特征的行为识别准确率的1.2%。实验数据表明了所提方法对行为识别的有效性。  相似文献   

10.
快速稀疏分解在雷达目标识别中的应用   总被引:1,自引:1,他引:0  
高分辨距离像目标识别算法很多,但利用高分辨距离像(HRRP)稀疏特点进行识别的方法却不多。为此,提出一种基于结构划分过完备字典完成雷达一维距离像稀疏分解,进而实现目标识别的算法。该算法首先依据字典原子的结构特点对其进行划分,简化字典表述的同时减少了原子数据存储量;随后,采用遗传匹配追踪算法(GAMP)对一维距离像训练样本进行稀疏分解以获得类别字典;最后,根据类别字典分析测试样本的重构误差实现目标识别。仿真实验证明,文中算法简洁、识别率高,即便受到噪声干扰依然能稳健地识别目标。  相似文献   

11.
针对不平衡数据集分类效果不理想的问题,提出了一种新的基于混合采样的不平衡数据集算法(BSI)。通过引进“变异系数”找出样本的稀疏域和密集域,针对稀疏域中的少数类样本,提出了一种改进SMOTE算法的过采样方法(BSMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS)。通过在六种不平衡数据集上的实验表明,该算法与传统算法相比,取得了更高的G-mean值、F-value值、AUC值,有效改善了不平衡数据集的综合分类性能。  相似文献   

12.
欠采样是当前解决类不平衡问题的主流方法之一。现有研究表明,高效地处理类别重叠能够有效提升过采样方法的性能。然而,目前对欠采样的研究大多认为由于样本选择策略不当而导致的关键样本丢失是影响欠采样方法性能的主要原因,为此,研究者从不同的角度提出了一系列针对性的方法,但鲜有对欠采样中类别重叠的研究。提出一种融合贝叶斯后验概率和分布密度的欠采样方法(BPDDUS)实现重叠区域样本的检测和清洗,并通过样本的分布信息对清洗后的样本进行欠采样。具体来说,该方法通过贝叶斯后验概率对多数类样本中潜在的噪声和重叠样本进行清洗以增强分类决策边界的清晰度。对清洗后的多数类样本,引入全局分布密度和信息熵来度量样本对不平衡数据分类学习的重要程度并对其分配相应的采样权重。按样本权重欠采样并构建集成分类系统,以提升模型的泛化能力。在43个KEEL数据库数据集上进行的数值实验验证了所提的BPDDUS方法的有效性。  相似文献   

13.
刘胜男  宁纪锋 《计算机应用》2016,36(8):2296-2300
点互信息(PMI)边界检测算法能准确检测图像中的边界,但算法效率受制于采样点的提取。针对采样过程中存在随机性和信息冗余的问题,提出一种利用超像素分割提供的中层结构信息来指导点对选取的方法。首先使用超像素算法对图像进行初始分割,将图像划分成大小形状近似的像素块;然后选取落在相邻超像素中的像素点对,从而使样本点的选取更有目的性,在采样点数目较少时,保证样本点仍能有效完整地获取图像信息。实验通过与原始的PMI边界检测算法在伯克利分割数据库(BSDS)上进行比对验证得出,基于超像素的PMI边界检测算法在采样点对为3500时,平均精准度(AP)达到0.7917,而原始算法则需要6000个同样环境下的采样点对。基于超像素的PMI边界检测算法在保证了检测精度的同时减少了所需的采样点数目,从而能有效提高算法的实时性。  相似文献   

14.
针对风机数据集的不平衡问题,提出了一种BSMOTE-Sequence采样算法,在合成新样本时综合考虑空间和时间特征,并对新样本进行清洗,从而有效减少噪声点的生成。首先,根据每个少数类样本的近邻样本的类别比例,将少数类样本划分为安全类样本、边界类样本和噪声类样本。然后,对每个边界类样本都遴选出空间距离、时间跨度最接近的少数类样本集,利用线性插值法合成新样本,并过滤掉噪声类样本以及类间重叠样本。最后,以支持向量机(SVM)、卷积神经网络(CNN)、长短期记忆(LSTM)人工神经网络作为风机齿轮箱故障检测模型,F1-Score、曲线下面积(AUC)和G-mean作为模型性能评价指标,在真实风机数据集上把所提算法与常用的多种采样算法进行对比,实验结果表明:相比已有算法,BSMOTE-Sequence算法所生成样本的分类效果更好,使得检测模型的F1-Score、AUC和G-mean平均提高了3%,该算法能有效地适用于数据具有时序规律且不平衡的风机故障检测领域。  相似文献   

15.
针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和SMOTE结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确定决策边界无价值的实例和噪音实例,采用SMOTE对筛选后数据集进行过抽样.基于安全样本筛选的欠抽样既避免原始数据中有价值信息的丢失,又丢弃大类中的噪音实例,缓减过抽样数据集类重叠的问题.实验表明在处理不平衡数据集,特别是维数较高的不平衡数据集时Screening_SMOTE的有效性.  相似文献   

16.
针对原始点云模型中存在大量冗余数据问题,提出一种基于快速点特征直方图(FPFH)特征提取的点云精简算法,有效兼顾了特征信息保留和整体完整性。算法首先查找并保留原始模型的边缘点;然后计算非边缘点的 FPFH 值,由此得到点云的特征值,并进行排序且划分出特征区域和非特征区域,保留特征区域内的点;最后将非特征区域划分为 k 个子区间,对每个子区间用改进的最远点采样算法进行采样。将该算法与最远点采样算法、非均匀网格法、k-means 算法和自适应曲率熵算法进行对比实验,并用标准化信息熵评价方法对精简后的点云进行评价,实验表明其优于其他精简算法。此外,可视化结果也表明,该算法能够在保证精简模型完整性的同时,较好地保留住点云大部分特征信息。  相似文献   

17.
不平衡数据常出现在各应用领域中,传统分类器往往关注于多数类样本而导致样本分类效果不理想。针对此问题,提出一种基于聚类欠采样的集成分类算法(ClusterUndersampling-AdaCost, CU-AdaCost)。该算法通过计算样本间维度加权后的欧氏距离得出各簇的样本中心位置,根据簇心邻域范围选择出信息特征较强的多数类样本,形成新的训练集;并将训练集放在引入代价敏感调整函数的集成算法中,使得模型更加关注于少数类别。通过对6组UCI数据集进行对比实验,结果表明,该算法在欠采样过程中抽取的样本具有较强的代表性,能够有效提高模型对少数类别的分类性能。  相似文献   

18.
为解决核磁共振图像重构中由于欠采样导致的重构图像质量较低的问题,提出了一种基于凸-非凸稀疏正则和即插即用近似点梯度下降的核磁共振图像重构算法。首先给出了凸-非凸稀疏正则的近似点算子。然后基于该近似点算子提出近似点梯度下降算法。最后将上述算法中的近似点算子用某种合适的去噪器(如神经网络去噪器)替换,得到即插即用近似点梯度下降算法,并将其应用到核磁共振图像重构上。数值实验中,分别用不同的待重构图像、采样模板和去噪器进行对比实验,实验结果表明,所提算法在使用神经网络去噪器时,峰值信噪比较已有算法提升了6.26?dB。同时视觉效果也得到了显著的提升,在处理边缘和纹路方面效果都更加明显,从而验证了算法的有效性。  相似文献   

19.
首先从信号与信息处理的角度阐述了波束形成所要解决的技术问题和波束形成的理论优势和方法局限,并对传统的基于空域波形采样的波束形成技术进行了再思考。其次,分析了稀疏阵列的布阵特点对波束形成技术的挑战,给出了空域、时域、频域分布式相参信号处理等关键技术及其理论性能的分析与比较结果,并利用实例分析了空、时、频协同采样克服低维欠采样模糊的可行性。最后分析了在实际应用中遇到的一些非理想因素对稀疏阵列波束形成与控制的影响及其解决方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号