首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
小样本学习是面向小样本数据的机器学习,旨在利用较少的有监督样本数据去构建能够解决实际问题的机器学习模型。小样本学习能够解决传统机器学习方法在样本数据不充分时性能严重下降的问题,可以为新型小样本任务实现低成本和快速的模型部署,缩小人类智能与人工智能之间的距离,对推动发展通用型人工智能具有重要意义。从小样本学习的概念、基础模型和实际应用入手,系统梳理当前小样本学习的相关工作,将小样本学习方法分类为基于模型微调、基于数据增强、基于度量学习和基于元学习,并具体阐述这4大类方法的核心思想、基本模型、细分领域和最新研究进展,以及每一类方法在科学研究或实际应用中存在的问题,总结目前小样本学习研究的常用数据集和评价指标,整理基于部分典型小样本学习方法在Omniglot和Mini-ImageNet数据集上的实验结果。最后对各种小样本学习方法及其优缺点进行总结,分别从数据层面、理论研究和应用研究3个方面对小样本学习的未来研究方向进行展望。  相似文献   

2.
随机森林已经被证明是一种高效的分类与特征选择方法。尽管参数的设置对结果影响较小,但合适的参数可以使分类器得到理想的效果。主要针对癌症研究中小样本不均衡数据的分类和特征选择问题,研究了随机森林中类权重的设置。为了比较在不同的类权重下特征选择的效果,同时使用支持向量机(Support Vector Machine,SVM)方法。最终结果显示最优的类权重是不确定的。最后总结出几条规律指导研究者选择合适的权重使分类和特征选择效果得到改善。  相似文献   

3.
受多源小样本数据属性复杂性的影响,对其进行集成处理时,过拟合和欠拟合情况较为明显。为此,文章提出基于随机森林的多源小样本数据快速集成方法。考虑多源小样本数据自身的属性特征,在构建随机森林模型阶段,充分利用粒向量与多源小样本数据特征的贴合性,将其作为随机森林的基础结构,利用粒化层归一化多源小样本数据,并将输出的粒化结果作为决策层的节点。在集成阶段,根据多源小样本数据与决策层节点之间的距离,集成数据。在测试结果中,数据集成的过拟合情况占比仅为0.29%,欠拟合情况占比也仅为0.27%,具有良好的集成效果。  相似文献   

4.
黄经纬 《自动化应用》2021,(10):15-17,22
针对肿瘤基因数据的样本小、维度高特点,为解决小样本对分类准确率的影响,提出对样本进行扩充的方法;结合特征获取的方式不同,将主成分分析(PCA)、核主成分分析(KPCA)和非负矩阵(NMF)特征进行组合,再通过鲁棒性更强的堆栈自动编码器(SDAE)和Softmax进行分类.实验表明,经过合理的样本特征组合及小样本扩充能够...  相似文献   

5.
由于深度学习模型对海量标注数据的依赖性较高,导致目前许多前沿性目标检测理论难以适用于工业检测领域。为此,提出一种基于NVAE图像生成和OB-Mix数据增强的小样本数据扩充方法。具体方法是通过NVAE构建检测目标的数据分布模型,再通过采样潜变量的方式生成与真实目标图像属于同一分布的全新目标图像。在得到生成目标图像后,提出了OB-Mix数据增强策略,将生成目标图像与背景图像进行随机位置融合以构建出新的图像数据,从而提高网络的定位能力及泛化能力。方法在仅使用474张标注图像以及400张无检测目标的背景图像情况下,使YOLOv5的检测精确率达到95.86%,相比于不使用该方法的结果提高了17.60个百分点。  相似文献   

6.
小样本数据存在信息不充足、不完备等问题,缺乏对总体的代表性,导致数据驱动的相关算法精度下降.本文针对小样本问题,提出基于元学习的生成式对抗网络算法进行小样本数据的数据生成.该算法目标是在各种数据生成任务上训练,确定模型最优初始化参数,从而仅使用较少的训练样本解决新的数据生成任务.本文利用水冷磁悬浮机组数据进行数据生成,...  相似文献   

7.
基于DNA微阵列基因表达数据的分类方法研究   总被引:1,自引:1,他引:0  
介绍了目前几种基于DNA微阵列基因表达数据的分类方法。分别阐述了递归分割法、构建森林法以及信息融合方法的算法思想,对每种方法进行了深入描述,并对它们进行了分析和比较。最后对基于基因表达微阵列数据的分类技术进行了展望。  相似文献   

8.
9.
针对传统预测模型在样本不足的情形下,无法实现高精度月度供电量预测的问题,提出了一种基于改进的生成对抗网络数据增强方法,能够将大粒度的月度统计信息,同分布分解为按天统计的供电量信息,实现了数据增强与样本集的有效扩充.基于该样本集,运用深度残差网络构建用于月度供电量预测的深层模型.算例分析标明,所提出的方法能够在原有同类型...  相似文献   

10.
基因检测技术运用至今已积累大量来自不同平台的数据,针对传统数据分类模式难以在不同平台间进行有效迁移的问题,提出一种基于层级规则树的基因表达数据分类算法k-HRT。设计数据转换与规则预筛选策略,实现算法的快速挖掘,以解决由跨平台特性所带来的大规模数据问题。在真实基因表达数据集上的实验结果表明,相对k-TSP算法、SVM-RFE算法,k-HRT算法能够有效提高分类精度。  相似文献   

11.
卢喜东  段哲民  钱叶魁  周巍 《软件学报》2020,31(5):1454-1464
针对当前恶意代码静态分析方法精度不足的问题,将恶意代码映射为无压缩的灰度图像,然后根据图像变换方法将图像变换为恒定大小的图像,使用方向梯度直方图提取图像的特征,最后提出一种基于深度森林的恶意代码分类方法.实验中选择不同家族的多个恶意代码样本进行分类,验证了该方法的有效性,并且实验结果优于近期提出的SPAM-GIST方法.  相似文献   

12.
提出基于P-tree的多决策树分类基因表达数据方法PTMDT(P-tree multi-decision tree).  相似文献   

13.
戴宏  郝轩廷 《计算机学报》2022,45(5):935-950
近年来,人工智能的相关应用被越来越细化到不同的应用场景,而对不同的应用场景都进行相应的数据收集,模型训练,模型调优等步骤需要消耗大量的时间精力会严重影响人工智能技术应用的效率.因此如何基于现有的成熟的训练过的模型迁移到其他应用场景是当前应用人工智能技术的关键问题.域适应算法主要研究将源域模型有效地迁移到目标域,这为上述问题提供了一个重要的解决思路.本文提出小样本对抗判别域适应算法,相对于无监督域适应算法能够在更严格的约束下-仅需要少量的目标域样本,在标准数据集上取得了优于对抗判别域适应算法(Adversarial Discriminative Domain Adaptation,ADDA)算法的表现,在单任务中最高提升幅度达16.9%.本文中,首先,提出了两种新的数据增强方法,以构建符合双域联合分布的图像以丰富样本多样性并填充特征空间,解决小样本约束下模型易过拟合到少量目标域样本的问题.接着,结合双域样本配对机制和ADDA算法,将以大量目标域样本为条件的无监督域适应算法改进为面向小样本约束的有监督域适应算法.在域适应过程中,引入类标签平滑损失来抑制过拟合现象,并结合度量学习中的最大平均...  相似文献   

14.
小样本文本分类任务同时面临两个主要问题:①样本量少,易过拟合;②在元学习框架的任务形式下,监督信息被进一步稀疏化.近期工作中,利用图神经网络建模样本的全局信息表示(full context embedding)成为小样本学习领域中一种行之有效的方法,但将其迁移至小样本文本分类任务,由于文本多噪声,且特征易混淆,图神经网...  相似文献   

15.
为了解决使用图片级特征直接度量两张图片距离时会出现具有不同语义信息区域之间相互比较的问题,文章提出了基于局部特征位置编码的小样本分类网络。网络首先通过空间注意力模块加强具有判别性的区域特征,之后通过位置编码模块完成位置映射,使得具有相同语义信息的区域处于同一位置。实验结果表明,将局部特征进行位置编码之后再进行分类,能够有效地提升小样本分类的准确度。  相似文献   

16.
文本分类任务通常依赖足量的标注数据,针对低资源场景下的分类模型在小样本上的过拟合问题,提出一种基于提示学习的小样本文本分类方法 BERT-P-Tuning。首先,利用预训练模型BERT(Bidirectional Encoder Representations from Transformers)在标注样本上学习到最优的提示模板;然后,在每条样本中补充提示模板和空缺,将文本分类任务转化为完形填空任务;最后,通过预测空缺位置概率最高的词并结合它与标签之间的映射关系得到最终的标签。在公开数据集FewCLUE上的短文本分类任务上进行实验,实验结果表明,所提方法相较于基于BERT微调的方法在评价指标上有显著提高。所提方法在二分类任务上的准确率与F1值分别提升了25.2和26.7个百分点,在多分类任务上的准确率与F1值分别提升了6.6和8.0个百分点。相较于手动构建模板的PET(Pattern Exploiting Training)方法,所提方法在两个任务上的准确率分别提升了2.9和2.8个百分点,F1值分别提升了4.4和4.2个百分点,验证了预训练模型应用在小样本任务的有效性。  相似文献   

17.
孙丽君  苗夺谦 《计算机工程》2007,33(16):183-185
从微阵列得到的基因表达数据可以用于癌症的分类。该文介绍了基于粗糙集的基因表达数据分类方法,并在急性白血病的数据集上验证了该方法的有效性。实验表明,该方法能取得较高的预测准确率,可以成为生物信息学研究领域的有力工具。  相似文献   

18.
小样本学习旨在让机器像人类一样通过对少量样本的学习达到对事物认知和概括的能力.基于度量的小样本学习方法希望学习一个低维嵌入空间,直接对比查询集合和支持类之间的相似性,分类测试样本.文中针对基于度量的小样本学习方法,尝试从这类方法需要解决的关键问题、类表示学习和相似性度量入手,梳理相关文献.与已有相关综述不同,文中只针对基于度量的小样本学习方法进行更详尽全面的分类,而且从关键问题角度进行分类.最后总结目前代表性工作在常用的图像分类任务数据集上的实验结果,分析现有方法存在的问题,并展望未来工作.  相似文献   

19.
小样本学习的目的是使用极少的样本训练模型,并在有限的数据集上构建一种有效的模型,以实现对新样本的准确预测。关于小样本图像分类的研究大多只从空域的角度去提取图像的特征进行学习,且在计算相似性分数时采用单一的度量模式,极大地降低了图像分类的准确性。为此,提出了一种基于空频域特征提取的小样本图像分类算法网络(FENet),从空域和频域角度出发,提取图像特征,并结合图像到图像的度量与图像到类的度量方式,引入干扰因子,提高模型的鲁棒性和泛化性。在CUB-200-2011、Stanford-Cars、Stanford-Dogs 3个数据集上进行了大量的实验,结果表明,FENet在一定程度上能提升小样本图像分类的准确性。  相似文献   

20.
针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证了文本主旨与原始文本的一致性,同时也大大降低了文本噪声对分类的影响;并且针对随机森林中决策树特征的随机选择方法,提出在决策树生成过程中,利用对称不确定计算各个特征之间的相关性,从而可以降低不同决策树之间的关联度。最终在主题空间上利用改进的随机森林算法对文本进行分类。经过实验证明,该算法在文本分类上具有良好的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号