共查询到20条相似文献,搜索用时 15 毫秒
1.
小样本学习是面向小样本数据的机器学习,旨在利用较少的有监督样本数据去构建能够解决实际问题的机器学习模型。小样本学习能够解决传统机器学习方法在样本数据不充分时性能严重下降的问题,可以为新型小样本任务实现低成本和快速的模型部署,缩小人类智能与人工智能之间的距离,对推动发展通用型人工智能具有重要意义。从小样本学习的概念、基础模型和实际应用入手,系统梳理当前小样本学习的相关工作,将小样本学习方法分类为基于模型微调、基于数据增强、基于度量学习和基于元学习,并具体阐述这4大类方法的核心思想、基本模型、细分领域和最新研究进展,以及每一类方法在科学研究或实际应用中存在的问题,总结目前小样本学习研究的常用数据集和评价指标,整理基于部分典型小样本学习方法在Omniglot和Mini-ImageNet数据集上的实验结果。最后对各种小样本学习方法及其优缺点进行总结,分别从数据层面、理论研究和应用研究3个方面对小样本学习的未来研究方向进行展望。 相似文献
2.
随机森林已经被证明是一种高效的分类与特征选择方法。尽管参数的设置对结果影响较小,但合适的参数可以使分类器得到理想的效果。主要针对癌症研究中小样本不均衡数据的分类和特征选择问题,研究了随机森林中类权重的设置。为了比较在不同的类权重下特征选择的效果,同时使用支持向量机(Support Vector Machine,SVM)方法。最终结果显示最优的类权重是不确定的。最后总结出几条规律指导研究者选择合适的权重使分类和特征选择效果得到改善。 相似文献
3.
受多源小样本数据属性复杂性的影响,对其进行集成处理时,过拟合和欠拟合情况较为明显。为此,文章提出基于随机森林的多源小样本数据快速集成方法。考虑多源小样本数据自身的属性特征,在构建随机森林模型阶段,充分利用粒向量与多源小样本数据特征的贴合性,将其作为随机森林的基础结构,利用粒化层归一化多源小样本数据,并将输出的粒化结果作为决策层的节点。在集成阶段,根据多源小样本数据与决策层节点之间的距离,集成数据。在测试结果中,数据集成的过拟合情况占比仅为0.29%,欠拟合情况占比也仅为0.27%,具有良好的集成效果。 相似文献
4.
针对肿瘤基因数据的样本小、维度高特点,为解决小样本对分类准确率的影响,提出对样本进行扩充的方法;结合特征获取的方式不同,将主成分分析(PCA)、核主成分分析(KPCA)和非负矩阵(NMF)特征进行组合,再通过鲁棒性更强的堆栈自动编码器(SDAE)和Softmax进行分类.实验表明,经过合理的样本特征组合及小样本扩充能够... 相似文献
5.
由于深度学习模型对海量标注数据的依赖性较高,导致目前许多前沿性目标检测理论难以适用于工业检测领域。为此,提出一种基于NVAE图像生成和OB-Mix数据增强的小样本数据扩充方法。具体方法是通过NVAE构建检测目标的数据分布模型,再通过采样潜变量的方式生成与真实目标图像属于同一分布的全新目标图像。在得到生成目标图像后,提出了OB-Mix数据增强策略,将生成目标图像与背景图像进行随机位置融合以构建出新的图像数据,从而提高网络的定位能力及泛化能力。方法在仅使用474张标注图像以及400张无检测目标的背景图像情况下,使YOLOv5的检测精确率达到95.86%,相比于不使用该方法的结果提高了17.60个百分点。 相似文献
6.
7.
基于DNA微阵列基因表达数据的分类方法研究 总被引:1,自引:1,他引:0
介绍了目前几种基于DNA微阵列基因表达数据的分类方法。分别阐述了递归分割法、构建森林法以及信息融合方法的算法思想,对每种方法进行了深入描述,并对它们进行了分析和比较。最后对基于基因表达微阵列数据的分类技术进行了展望。 相似文献
8.
9.
针对传统预测模型在样本不足的情形下,无法实现高精度月度供电量预测的问题,提出了一种基于改进的生成对抗网络数据增强方法,能够将大粒度的月度统计信息,同分布分解为按天统计的供电量信息,实现了数据增强与样本集的有效扩充.基于该样本集,运用深度残差网络构建用于月度供电量预测的深层模型.算例分析标明,所提出的方法能够在原有同类型... 相似文献
10.
11.
12.
提出基于P-tree的多决策树分类基因表达数据方法PTMDT(P-tree multi-decision tree). 相似文献
13.
近年来,人工智能的相关应用被越来越细化到不同的应用场景,而对不同的应用场景都进行相应的数据收集,模型训练,模型调优等步骤需要消耗大量的时间精力会严重影响人工智能技术应用的效率.因此如何基于现有的成熟的训练过的模型迁移到其他应用场景是当前应用人工智能技术的关键问题.域适应算法主要研究将源域模型有效地迁移到目标域,这为上述问题提供了一个重要的解决思路.本文提出小样本对抗判别域适应算法,相对于无监督域适应算法能够在更严格的约束下-仅需要少量的目标域样本,在标准数据集上取得了优于对抗判别域适应算法(Adversarial Discriminative Domain Adaptation,ADDA)算法的表现,在单任务中最高提升幅度达16.9%.本文中,首先,提出了两种新的数据增强方法,以构建符合双域联合分布的图像以丰富样本多样性并填充特征空间,解决小样本约束下模型易过拟合到少量目标域样本的问题.接着,结合双域样本配对机制和ADDA算法,将以大量目标域样本为条件的无监督域适应算法改进为面向小样本约束的有监督域适应算法.在域适应过程中,引入类标签平滑损失来抑制过拟合现象,并结合度量学习中的最大平均... 相似文献
14.
15.
16.
文本分类任务通常依赖足量的标注数据,针对低资源场景下的分类模型在小样本上的过拟合问题,提出一种基于提示学习的小样本文本分类方法 BERT-P-Tuning。首先,利用预训练模型BERT(Bidirectional Encoder Representations from Transformers)在标注样本上学习到最优的提示模板;然后,在每条样本中补充提示模板和空缺,将文本分类任务转化为完形填空任务;最后,通过预测空缺位置概率最高的词并结合它与标签之间的映射关系得到最终的标签。在公开数据集FewCLUE上的短文本分类任务上进行实验,实验结果表明,所提方法相较于基于BERT微调的方法在评价指标上有显著提高。所提方法在二分类任务上的准确率与F1值分别提升了25.2和26.7个百分点,在多分类任务上的准确率与F1值分别提升了6.6和8.0个百分点。相较于手动构建模板的PET(Pattern Exploiting Training)方法,所提方法在两个任务上的准确率分别提升了2.9和2.8个百分点,F1值分别提升了4.4和4.2个百分点,验证了预训练模型应用在小样本任务的有效性。 相似文献
17.
18.
小样本学习旨在让机器像人类一样通过对少量样本的学习达到对事物认知和概括的能力.基于度量的小样本学习方法希望学习一个低维嵌入空间,直接对比查询集合和支持类之间的相似性,分类测试样本.文中针对基于度量的小样本学习方法,尝试从这类方法需要解决的关键问题、类表示学习和相似性度量入手,梳理相关文献.与已有相关综述不同,文中只针对基于度量的小样本学习方法进行更详尽全面的分类,而且从关键问题角度进行分类.最后总结目前代表性工作在常用的图像分类任务数据集上的实验结果,分析现有方法存在的问题,并展望未来工作. 相似文献
19.
小样本学习的目的是使用极少的样本训练模型,并在有限的数据集上构建一种有效的模型,以实现对新样本的准确预测。关于小样本图像分类的研究大多只从空域的角度去提取图像的特征进行学习,且在计算相似性分数时采用单一的度量模式,极大地降低了图像分类的准确性。为此,提出了一种基于空频域特征提取的小样本图像分类算法网络(FENet),从空域和频域角度出发,提取图像特征,并结合图像到图像的度量与图像到类的度量方式,引入干扰因子,提高模型的鲁棒性和泛化性。在CUB-200-2011、Stanford-Cars、Stanford-Dogs 3个数据集上进行了大量的实验,结果表明,FENet在一定程度上能提升小样本图像分类的准确性。 相似文献
20.
《计算机应用与软件》2017,(8)
针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证了文本主旨与原始文本的一致性,同时也大大降低了文本噪声对分类的影响;并且针对随机森林中决策树特征的随机选择方法,提出在决策树生成过程中,利用对称不确定计算各个特征之间的相关性,从而可以降低不同决策树之间的关联度。最终在主题空间上利用改进的随机森林算法对文本进行分类。经过实验证明,该算法在文本分类上具有良好的优越性。 相似文献