首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
针对无监督属性选择算法使用单一方法,未考虑数据间内在相关性和噪声等问题,提出一种基于属性自表达的低秩无监督属性选择算法。算法首先将稀疏正则化([l2,1-]范数)引入属性自表达损失函数中实现无监督稀疏学习,其次在系数矩阵中加入低秩约束以降低噪声和离群点的影响,然后利用低秩结构和图拉普拉斯正则化使子空间学习兼顾数据的全局和局部结构,最后通过属性自表达实现无监督学习。经数据集上多次迭代验证,该算法能够快速收敛并达到全局最优,与SOGFS、PCA、LPP、RSR等四种算法相比分类准确率平均提高了16.11%、14.03%、9.92%和4.2%,并且在各数据集上互信息平均值也是最高的,说明该算法有效、高效。  相似文献   

2.
特征选择是去除不相关和冗余特征,找到具有良好泛化能力的原始特征的紧凑表示,同时,数据中含有的噪声和离群点会使学习获得的系数矩阵的秩变大,使得算法无法捕捉到高维数据中真实的低秩结构。因此,利用Schatten-p范数逼近秩最小化问题和特征自表示重构无监督特征选择问题中的系数矩阵,建立一个基于Schatten-p范数和特征自表示的无监督特征选择(SPSR)算法,并使用增广拉格朗日乘子法和交替方向法乘子法框架进行求解。最后在6个公开数据集上与经典无监督特征选择算法进行实验比较,SPSR算法的聚类精度更高,可以有效地识别代表性特征子集。  相似文献   

3.
李延超  肖甫  陈志  李博 《软件学报》2020,31(12):3808-3822
主动学习从大量无标记样本中挑选样本交给专家标记.现有的批抽样主动学习算法主要受3个限制:(1)一些主动学习方法基于单选择准则或对数据、模型设定假设,这类方法很难找到既有不确定性又有代表性的未标记样本;(2)现有批抽样主动学习方法的性能很大程度上依赖于样本之间相似性度量的准确性,例如预定义函数或差异性衡量;(3)噪声标签问题一直影响批抽样主动学习算法的性能.提出一种基于深度学习批抽样的主动学习方法.通过深度神经网络生成标记和未标记样本的学习表示和采用标签循环模式,使得标记样本与未标记样本建立联系,再回到相同标签的标记样本.这样同时考虑了样本的不确定性和代表性,并且算法对噪声标签具有鲁棒性.在提出的批抽样主动学习方法中,算法使用的子模块函数确保选择的样本集合具有多样性.此外,自适应参数的优化,使得主动学习算法可以自动平衡样本的不确定性和代表性.将提出的主动学习方法应用到半监督分类和半监督聚类中,实验结果表明,所提出的主动学习方法的性能优于现有的一些先进的方法.  相似文献   

4.
目的 卷积神经网络(convolutional neural network,CNN)在遥感场景图像分类中广泛应用,但缺乏训练数据依然是不容忽视的问题。小样本遥感场景分类是指模型只需利用少量样本训练即可完成遥感场景图像分类任务。虽然现有基于元学习的小样本遥感场景图像分类方法可以摆脱大数据训练的依赖,但模型的泛化能力依然较弱。为了解决这一问题,本文提出一种基于自监督学习的小样本遥感场景图像分类方法来增加模型的泛化能力。方法 本文方法分为两个阶段。首先,使用元学习训练老师网络直到收敛;然后,双学生网络和老师网络对同一个输入进行预测。老师网络的预测结果会通过蒸馏损失指导双学生网络的训练。另外,在图像特征进入分类器之前,自监督对比学习通过度量同类样本的类中心距离,使模型学习到更明确的类间边界。两种自监督机制能够使模型学习到更丰富的类间关系,从而提高模型的泛化能力。结果 本文在NWPU-RESISC45(North Western Polytechnical University-remote sensing image scene classification)、AID (aerial image dataset)和UCMerced LandUse (UC merced land use dataset)3个数据集上进行实验。在5-way 1-shot条件下,本文方法的精度在3个数据集上分别达到了72.72%±0.15%、68.62%±0.76%和68.21%±0.65%,比Relation Net*模型分别提高了4.43%、1.93%和0.68%。随着可用标签的增加,本文方法的提升作用依然能够保持,在5-way 5-shot条件下,本文方法的精度比Relation Net*分别提高3.89%、2.99%和1.25%。结论 本文方法可以使模型学习到更丰富的类内类间关系,有效提升小样本遥感场景图像分类模型的泛化能力。  相似文献   

5.
为抑制噪声数据对分类结果的影响,将噪声处理算法与高斯随机域算法相结合,提出一种带噪声系数的高斯随机域学习算法;针对样本集不平衡性数据分类问题,考虑主动学习在样本不平衡问题中的应用,将主动学习与图半监督算法相结合,提出一种鲁棒性强的主动学习图半监督分类算法。利用基于样本划分的主动学习方法,对正类的近邻样本集中样本与特定类样本形成的新样本集做总体散度排序,筛选出能使新样本集中总体散度最小的样本,代替正类的近邻样本集中所有样本,形成平衡类。在UCI标准数据集上的实验结果表明,与标准的图半监督算法相比,该算法的分类精度更高、泛化能力更强。  相似文献   

6.
代雨柔  杨庆  张凤荔  周帆 《计算机应用》2021,41(9):2545-2551
针对当前用户轨迹数据建模中存在的签到点稀疏性、长时间依赖性和移动模式复杂等问题,提出基于自监督学习的社交网络用户轨迹预测模型SeNext,对用户轨迹进行建模和训练来预测用户的下一个兴趣点(POI)。首先,使用数据增强的方式来丰富训练数据样本,以解决数据不足及个别用户足迹太少导致的模型泛化能力不足的问题;其次,将循环神经网络(RNN)、卷积神经网络(CNN)和注意力机制分别用于当前轨迹和历史轨迹的建模中,以此从高维稀疏的数据中提取有用的表示,用来匹配用户过去最相似的移动方式。最后,通过结合自监督学习并引入对比损失优化噪声对比估计(InfoNCE),SeNext在潜在空间学习隐含表示来预测用户的下一个POI。实验结果表明,在纽约数据集上,SeNext比最新的VANext(Variational Attention based Next)模型的预测准确度在Top@1上提高了11.10%左右。  相似文献   

7.
极限学习机(ELM)作为一种无监督分类方法,具有学习速度快、泛化性能高、逼近能力好的优点。随着无监督学习的发展,将ELM与自动编码器集成已成为无标签数据集提取特征的新视角,如极限学习机自动编码器(ELM-AE)是一种无监督的神经网络,无需迭代即可找到代表原始样本和其学习过程的主要成分。其重建输入信号获取原始样本的主要特征,且考虑了原始数据的全局信息以避免信息的丢失,然而这类方法未考虑数据的固有流形结构即样本间的近邻结构关系。借鉴极限学习机自动编码器的思想,提出了一种基于流形的极限学习机自动编码器算法(M-ELM)。该算法是一种非线性无监督特征提取方法,结合流形学习保持数据的局部信息,且在特征提取过程中同时对相似度矩阵进行学习。通过在IRIS数据集、脑电数据集和基因表达数据集上进行实验,将该算法与其他无监督学习方法PCA、LPP、NPE、LE和ELM-AE算法经过[k]-means聚类后的准确率进行了比较,以表明该算法的有效性。  相似文献   

8.
现有的多视图聚类方法大多直接在原始数据样本上构建各视图的相似图,而原始数据中的冗余特征和噪声会导致聚类精度下降。针对该问题,基于特征选择和鲁棒图学习提出多视图聚类算法FRMC。在自适应选择不同视图特征时降低数据维度,减少冗余特征,同时利用自表示学习获取数据的表示系数,滤除噪声影响并得到数据样本的全局结构,从而去除样本中的噪声和离群点。在此基础上,通过自适应近邻学习构造样本鲁棒图,利用鲁棒图矩阵的加权和构建最终的亲和图矩阵,提出一种基于增广拉格朗日乘子的交替迭代算法对目标函数进行优化。在6个不同类型的标准数据集上进行实验,与SC、RGC、AWP等算法的对比结果表明,FRMC算法能够有效提升聚类精度且具有较好的收敛性与鲁棒性。  相似文献   

9.
来杰  王晓丹  李睿  赵振冲 《计算机应用》2019,39(6):1619-1625
针对极限学习机算法(ELM)参数随机赋值降低算法鲁棒性及性能受噪声影响显著的问题,将去噪自编码器(DAE)与ELM算法相结合,提出了基于去噪自编码器的极限学习机算法(DAE-ELM)。首先,通过去噪自编码器产生ELM的输入数据、输入权值与隐含层参数;然后,以ELM求得隐含层输出权值,完成对分类器的训练。该算法一方面继承了DAE的优点,自动提取的特征更具代表性与鲁棒性,对于噪声有较强的抑制作用;另一方面克服了ELM参数赋值的随机性,增强了算法鲁棒性。实验结果表明,在不含噪声影响下DAE-ELM相较于ELM、PCA-ELM、SAA-2算法,其分类错误率在MNIST数据集中至少下降了5.6%,在Fashion MNIST数据集中至少下降了3.0%,在Rectangles数据集中至少下降了2.0%,在Convex数据集中至少下降了12.7%。  相似文献   

10.
罗萍  丁玲  杨雪  向阳 《计算机应用》2022,42(10):2990-2995
当前的事件检测模型严重依赖于人工标注的数据,在标注数据规模有限的情况下,事件检测任务中基于完全监督方法的深度学习模型经常会出现过拟合的问题,而基于弱监督学习的使用自动标注数据代替耗时的人工标注数据的方法又常常依赖于复杂的预定义规则。为了解决上述问题,就中文事件检测任务提出了一种基于BERT的混合文本对抗训练(BMAD)方法。所提方法基于数据增强和对抗学习设定了弱监督学习场景,并采用跨度抽取模型来完成事件检测任务。首先,为改善数据不足的问题,采用回译、Mix-Text等数据增强方法来增强数据并为事件检测任务创建弱监督学习场景;然后,使用一种对抗训练机制进行噪声学习,力求最大限度地生成近似真实样本的生成样本,并最终提高整个模型的鲁棒性。在广泛使用的真实数据集自动文档抽取(ACE)2005上进行实验,结果表明相较于NPN、TLNN、HCBNN等算法,所提方法在F1分数上获取了至少0.84个百分点的提升。  相似文献   

11.
基于扩张矩阵的渐进式特征子集选择算法   总被引:2,自引:0,他引:2  
特征子集选择问题一直是人工智能领域研究的重要内容,特别是近几年来,特征子集选择的算法研究已经成为机器学习和数据挖掘等领域的一个研究热点。该文在扩张矩阵的基础上提出了类扩张矩阵的概念,并将加权的期望信息和不一致错误率函数应用于特征子集的选择,实现了具有噪音处理功能的渐进式特征子集选择算法———IFSS_EM,实际领域的实验结果表明:IFSS_EM算法具有运行效率高、选择特征较具有代表性的优点,从而使其能够较好地应用于实际领域。  相似文献   

12.
针对高维数据含有的冗余特征影响机器学习训练效率和泛化能力的问题,为提升模式识别准确率、降低计算复杂度,提出了一种基于正则互表示(RMR)性质的无监督特征选择方法。首先,利用特征之间的相关性,建立由Frobenius范数约束的无监督特征选择数学模型;然后,设计分治-岭回归优化算法对模型进行快速优化;最后,根据模型最优解综合评估每个特征的重要性,选出原始数据中具有代表性的特征子集。在聚类准确率指标上,RMR方法与Laplacian方法相比提升了7个百分点,与非负判别特征选择(NDFS)方法相比提升了7个百分点,与正则自表示(RSR)方法相比提升了6个百分点,与自表示特征选择(SR_FS)方法相比提升了3个百分点;在数据冗余率指标上,RMR方法与Laplacian方法相比降低了10个百分点,与NDFS方法相比降低了7个百分点,与RSR方法相比降低了3个百分点,与SR_FS方法相比降低了2个百分点。实验结果表明,RMR方法能够有效地选出重要特征,降低数据冗余率,提升样本聚类准确率。  相似文献   

13.
特征选择是从原始数据集中去除无关的特征并选择良好的特征子集,可以避免维数灾难和提高学习算法的性能。为解决已选特征和类别动态变化(DCSF)算法在特征选择过程中只考虑已选特征和类别之间动态变化的信息量,而忽略候选特征和已选特征的交互相关性的问题,提出了一种基于动态相关性的特征选择(DRFS)算法。该算法采用条件互信息度量已选特征和类别的条件相关性,并采用交互信息度量候选特征和已选特征发挥的协同作用,从而选择相关特征并且去除冗余特征以获得优良特征子集。仿真实验表明,与现有算法相比,所提算法能有效地提升特征选择的分类准确率。  相似文献   

14.
目的 传统的多示例学习跟踪在跟踪过程中使用了自学习过程,当目标跟踪失败时分类器很容易退化。针对这个问题,提出一种基于在线特征选取的多示例学习跟踪方法(MILOFS)。方法 首先,该文使用稀疏随机矩阵来简化视频跟踪中图像特征的构建,使用随机矩阵投影来自高维度的图像信息。然后,利用Fisher线性判别模型构建包模型的损失函数,依照示例响应值直接在示例水平构建分类器的判别模型。最后,从梯度下降角度看待在线增强模型,使用梯度增强法来构建分类器的选取模型。结果 对不同场景的图像序列进行对比实验,实验结果中在线自适应增强(OAB)、在线多实例学习跟踪(MILTrack)、加权多实例学习跟踪(WMIL)、在线特征选取多实例学习跟踪(MILOFS)的平均跟踪误差分别为36像素、23像素、24像素、13像素,本文算法在光照变化、发生遮挡,以及形变的情况下都能准确跟踪目标,且具有很高的实时性。结论 基于在线特征选取的多示例学习跟踪,跟踪过程使用梯度增强法并直接在示例水平构建包模型的判别模型,可以有效克服传统多示例学习中的分类器退化问题。  相似文献   

15.
对于现有的多源自适应学习方案无法有效区分多个源域中的有用信息并迁移至目标域的问题,提出一种具有特征选择的多源自适应分类框架(MACFFS),并将特征选择和共享特征子空间学习整合到统一框架中进行联合特征学习。具体来说,MACFFS将来自多个源域的特征数据投影至不同的潜在空间中来学习得到多个源域分类模型,实现目标域的分类。然后,将得到的多个分类结果进行整合用于目标域分类模型的学习。此外,框架还利用L2,1范数稀疏回归代替传统的基于L2范数的最小二乘回归来提高鲁棒性。最后,把多种现有方法在两项任务中与MACFFS进行实验比较分析。实验结果表明,与现有方法中表现最好的DSM相比,MACFFS节省了接近1/4的计算时间,并且提升了大约2%的识别率。总的来说,MACFFS结合了机器学习、统计学习等相关知识,为多源自适应方法提供了一个新的思路,且该方法在现实场景下的识别应用中比现有方法具有更好的性能。  相似文献   

16.
对于现有的多源自适应学习方案无法有效区分多个源域中的有用信息并迁移至目标域的问题,提出一种具有特征选择的多源自适应分类框架(MACFFS),并将特征选择和共享特征子空间学习整合到统一框架中进行联合特征学习。具体来说,MACFFS将来自多个源域的特征数据投影至不同的潜在空间中来学习得到多个源域分类模型,实现目标域的分类。然后,将得到的多个分类结果进行整合用于目标域分类模型的学习。此外,框架还利用L2,1范数稀疏回归代替传统的基于L2范数的最小二乘回归来提高鲁棒性。最后,把多种现有方法在两项任务中与MACFFS进行实验比较分析。实验结果表明,与现有方法中表现最好的DSM相比,MACFFS节省了接近1/4的计算时间,并且提升了大约2%的识别率。总的来说,MACFFS结合了机器学习、统计学习等相关知识,为多源自适应方法提供了一个新的思路,且该方法在现实场景下的识别应用中比现有方法具有更好的性能。  相似文献   

17.
针对现有的特征选择方法对衡量不同类别数据重叠/分离能力的不足,提出了一种用于评价特征的二类区分能力的干扰熵方法(IET-CD)。对于包含两个类别(正类和负类)样本的特征,首先,计算正类数据范围内的负类样本的混合条件概率,以及负类样本归属于正类的概率;然后,由混合条件概率和归属概率计算混淆概率,再利用混淆概率计算正类干扰熵,同理,计算负类干扰熵;最后,将正、负类干扰熵之和作为该特征的二类干扰熵。干扰熵用于评价特征对二类样本的区分能力,该特征的干扰熵值小,表明该特征的二类区分能力强,反之则弱。在3个UCI数据集和1个模拟基因表达数据集上,每个方法挑选出5个最优特征,并对比了这些特征的二类区分能力,由此比较这些方法的性能。实验结果表明:所提方法与NEFS方法相比,二类区分能力相当或更好;与单索引近邻熵特征选择(SNEFS)方法、相关性最大冗余性最小特征选择(MRMR)算法、联合互信息(JMI)方法、Relief方法相比,绝大多数情况都是所提方法获胜。IET-CD方法能有效地选择二类区分能力更好的特征。  相似文献   

18.
张志浩  林耀进  卢舜  郭晨  王晨曦 《计算机应用》2021,41(10):2849-2857
多标记特征选择已在图像分类、疾病诊断等领域得到广泛应用;然而,现实中数据的标记空间往往存在部分标记缺失的问题,这破坏了标记间的结构性和关联性,使得学习算法难以准确地选择重要特征。针对此问题,提出一种缺失标记下基于类属属性的多标记特征选择(MFSLML)算法。首先,通过利用稀疏学习方法获取每个类标记的类属属性;同时基于线性回归模型构建类属属性与标记的映射关系,以用于恢复缺失标记;最后,选取7组数据集以及4个评价指标进行实验。实验结果表明:相比基于最大依赖度和最小冗余度的多标记特征选择算法(MDMR)和基于特征交互的多标记特征选择算法(MFML)等一些先进的多标记特征选择算法,MFSLML在平均查准率指标上能够提升4.61~5.5个百分点,由此可见MFSLML具有更优的分类性能。  相似文献   

19.
Feature selection plays an important role in pattern recognition and machine learning. Feature selection based on information theory intends to preserve the feature relevancy between features and class labels while eliminating irrelevant and redundant features. Previous feature selection methods have offered various explanations for feature relevancy, but they ignored the relationships between candidate feature relevancy and selected feature relevancy. To fill this gap, we propose a feature selection method named Feature Selection based on Weighted Relevancy (WRFS). In WRFS, we introduce two weight coefficients that use mutual information and joint mutual information to balance the importance between the two kinds of feature relevancy terms. To evaluate the classification performance of our method, WRFS is compared to three competing feature selection methods and three state-of-the-art methods by two different classifiers on 18 benchmark data sets. The experimental results indicate that WRFS outperforms the other baselines in terms of the classification accuracy, AUC and F1 score.  相似文献   

20.
唐小川  邱曦伟  罗亮 《计算机应用》2018,38(7):1857-1861
针对文本分类中的特征选择问题,提出了一种考虑特征之间交互作用的文本分类特征选择算法——Max-Interaction。首先,通过联合互信息(JMI),建立基于信息论的文本分类特征选择模型;其次,放松现有特征选择算法的假设条件,将特征选择问题转化为交互作用优化问题;再次,通过最大最小法避免过高估计高阶交互作用;最后,提出一个基于前向搜索和高阶交互作用的文本分类特征选择算法。实验结果表明,Max-Interaction比交互作用权重特征选择(IWFS)的平均分类精度提升了5.5%,Max-Interaction比卡方统计法(Chi-square)的平均分类精度提升了6%,Max-Interaction在93%的实验中分类精度高于对比方法,因此,Max-Interaction能有效利用交互作用提升文本分类特征选择的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号