首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
不平衡数据问题对传统的近邻分类器带来了很大的挑战,它的准则函数往往会使测试样本类别偏向于多数类,且参数对数据集有很强的依赖性。基于万有引力的固定半径近邻分类器(GFRNN)算法通过引入万有引力定律的思想,实现了一个针对不平衡数据的无参、高效的分类器,但GFRNN算法仅采用欧氏距离方法来计算半径和候选集。因此,基于GFRNN算法,在算法构造层面上提出了一种多视角学习框架MGFRNN。考虑到距离计算的多样性及所对应候选集的不确定性,在距离的计算中,采用欧式距离、一范数距离和切比雪夫距离三种度量方法,根据三种距离度量方法分别计算候选集半径,并计算候选集中各类样本对测试样本的万有引力大小,从而进行分类。实验结果证明,所提MGFRNN算法在比较算法中具有最高的分类精确度。  相似文献   

2.
针对支持向量机分类方法在处理不平衡样本数据时出现的问题,通过对类间样本距离、类内样本分布及该类所占区域3个方面的改进,提出了一种处理不平衡样本数据的计算方法。将该方法与偏二叉树支持向量机结合,提出了一种改进球结构偏二叉树支持向量机多分类方法。选取UCI数据库中的数据,将该方法与球结构偏二叉树支持向量机、欧氏距离偏二叉树支持向量机、加权欧氏距离偏二叉树支持向量机方法进行比较,实例验证了该方法的有效性。  相似文献   

3.
训练样本选择是支持向量机的一个重要研究课题。但是,目前大部分样本选择方法的一个共同的不足就是,其训练样本的候选集是整个样本空间,因此可能会选择一些对分类效果影响不大的内部样本,或者选择一些可能会降低分类效果的“过边界”样本。提出了两种基于“有效”候选集的样本选择方法。该方法首先通过“挖心”和剔除“过边界”样本来确定训练样本的“有效”候选集,然后在此“有效”候选集上进行训练样本的选择。实验结果表明,该方法在保留“有效”候选样本的同时,也提高了支持向量机分类器的正确识别率。  相似文献   

4.
核子类凸包样本选择方法及其SVM应用   总被引:1,自引:1,他引:0       下载免费PDF全文
提出一种基于核函数方法的类内训练样本选择方法——核子类凸包样本选择法,并将其用于支持向量机。该样本选择方法通过迭代方法,逐一选择了那些经映射后“距离已选样本”,并将其映射、生成“凸包最远的样本”。实验结果表明,该方法选择的少量样本使支持向量机获得了较高的识别比率,减少了存储需求,提高了分类速度。  相似文献   

5.
针对支持向量机增量算法中边界样本的提取机制效率不高的问题,提出基于云模型的增量SVM入侵检测方法。该算法利用云模型稳定性和不确定性的特点,将异类样本间的特征距离映射成隶属度函数,对初始集中边界向量进行提取。分析新增样本对支持向量集的影响,淘汰无用样本。理论分析和仿真实验表明,该算法在保证分类精度的同时有效地提高了检测速度。  相似文献   

6.
基于主动学习的加权支持向量机的分类   总被引:1,自引:1,他引:0  
用支持向量机SVM进行分类时,针对在某些机器学习中,存在训练样本获取代价过大,且训练样本中类的数量不对称的问题,提出了基于主动学习策略的加权支持向量机.其在机器学习的进程中,每次从候选样本集中,主动选择最有利于改善分类器性能的n个新样本添加到训练样本中进行学习,引入类权重因子和样本权重因子,将惩罚参数与类权重因子和样本权重因子联系.实验结果表明,该方法能够有效减少训练样本数量,解决类的数量不对称的样本产生的最优分界面偏移的问题,使分类器获得较好的分类性能.  相似文献   

7.
针对海冰遥感图像分类问题中标签样本获取困难、标注成本较高导致海冰分类精度难以提高的问题,提出了一种主动学习与半监督学习相结合的方式用于海冰分类。首先,利用基于不确定性准则和多样性准则进行主动学习方法,选择一批最具信息量的标签样本建立标签样本集;其次,充分利用大量的未标签样本信息,并融合主动学习采样的思想选出部分具有代表性且分布在支持向量周边的半标签样本,建立半监督分类模型;最后,将主动学习方法和直推式支持向量机相结合构建分类模型实现海冰图像分类。实验结果表明,相对于其他方法,该方法在只有少量标签样本的情况下,可以获得更高的分类精度,该方式可有效解决遥感海冰分类问题。  相似文献   

8.
自适应确定摘要长度   总被引:4,自引:0,他引:4  
随着信息技术的发展和信息量的大量增多,提出了很多自动摘要的算法,在这些众多的算法中,都有一个共同的现象——摘要的长度均需事先给定。然而,实际的情况是,随着信息样本的不同,该信息样本所包含的信息量也是不同的,为了能够全面地反映信息样本的主题思想,又不产生信息冗余,就要求根据具体信息样本,动态地确定与该样本信息量相适应的结果摘要长度,据此,提出了一种自适应于不同样本的、动态确定摘要长度的算法,从具体样本中循序渐进地抽取出其所包含的所有子主题,这些子主题的集合构成了该信息样本的主题思想,然后,再根据子主题的数量确定摘要的长度,既全面地反映了信息样本的内容,又不会产生信息冗余,另外,还提出了新的互依赖模型,使用该模型可以使切词的结果较为准确,并可有效地降维,从而大幅度减少摘要长度确定算法中的计算量。  相似文献   

9.
针对支持向量数据描述(SVDD)训练大规模样本时计算复杂度太大的问题,利用支持向量的稀疏特性,提出了一种基于核密度估计(KDE)的实时SVDD算法;该算法首先通过KDE方法从原始样本集中选择εk比例的稀疏样本用于SVDD训练;然后用训练得到的支持向量对特征空间中的样本中心进行估计;最后计算原始样本集中所有样本到中心的距离,并对所有距离按降序排列,通过提取εd比例距中心较大的样本作为训练样本集对SVDD进行训练,最终实现了训练样本规模约简;仿真结果表明:算法在保证训练精度的前提下训练复杂度削减为经典算法的1/10以内,满足了SVDD故障检测的实时性要求。  相似文献   

10.
为了克服支持向量机(SVM)中单核函数的局限性,经常使用混合核函数做预测,但混合核函数中各函数权重难以确定。为解决该问题,提出了一种基于特征距离的权重求解方法。该方法首先利用支持向量机的几何意义,根据同类样本特征距离最小化和异类样本特征距离最大化原理,分析得出优化函数,然后对优化函数求解得出权重系数。实验结果表明,与传统的交叉验证法和PSO算法相比,该方法在保证预测精度的情况下,将计算时间减少了70%左右。  相似文献   

11.
基于最近邻规则的神经网络训练样本选择方法   总被引:5,自引:0,他引:5  
郝红卫  蒋蓉蓉 《自动化学报》2007,33(12):1247-1251
训练集中通常含有大量相似的样本, 会增加网络的训练时间并影响学习效果. 针对这一问题, 本文将最近邻法 (Nearest neighbor, NN) 简单快捷和神经网络高精度的特点相结合, 提出了一种基于最近邻规则的神经网络训练样本选择方法. 该方法考虑到训练样本对于神经网络性能的重要影响, 利用改进的最近邻规则选择最具有代表性的样本作为 神经网络的训练集. 实验结果表明, 所提出的方法能够有效去除训练集中的冗余信息, 以少量的样本获得更高的识别率, 减少网络的训练时间, 增强网络的泛化能力.  相似文献   

12.
基于互信息的无监督特征选择   总被引:5,自引:0,他引:5  
在数据分析中,特征选择可以用来降低特征的冗余,提高分析结果的可理解性和发现高维数据中隐藏的结构.提出了一种基于互信息的无监督的特征选择方法(UFS-MI),在UFS-MI中,使用了一种综合考虑了相关度和冗余度的特征选择标准UmRMR(无监督最小冗余最大相关)来评价特征的重要性.相关度和冗余度分别使用互信息来度量特征与潜在类别变量之间的依赖和特征与特征之间的依赖.UFS-MI同时适用于数值型和非数值型特征.在理论上证明了UFS-MI的有效性,实验结果也表明UFS-MI可以达到与传统的特征选择方法相当甚至更好的性能.  相似文献   

13.
基于仿射传播聚类的大规模选址布局问题求解*   总被引:4,自引:0,他引:4  
选址布局问题是一个广泛研究的运筹学问题。通过将选址布局问题看做聚类问题,结合仿射传播聚类算法并且将候选地址的信息映射为特征向量,提出了两种求解选址布局问题的方法:基于块划分的选址布局方法和基于道路网络的选址布局方法。使用模拟数据集和真实数据集来评估两种方法,实验结果表明两种方法都能够求解设施资源受限和不受限情况下的选址布局问题,而且可以很好地解决大规模的选址布局问题。  相似文献   

14.
自动问答系统可以帮助人们快速从海量文本中提取出有效信息,而答案选取作为其中的关键一步,在很大程度上影响着自动问答系统的性能.针对现有答案选择模型中答案关键信息捕获不准确的问题,本文提出了一种融合语义信息与问题关键信息的多阶段注意力答案选取模型.该方法首先利用双向LSTM模型分别对问题和候选答案进行语义表示;然后采用问题的关键信息,包括问题类型和问题中心词,利用注意力机制对候选答案集合进行信息增强,筛选Top K个候选答案;然后采用问题的语义信息,再次利用注意力机制对Top K个候选答案集合进行信息增强,筛选出最佳答案.通过分阶段地将问题的关键信息和语义信息与候选答案的语义表示相结合,有效提高了对候选答案关键信息的捕获能力,从而提升了答案选取系统的性能.在三个数据集上对本文所提出的模型进行验证,相较已知同类最好模型,最高性能提升达1.95%.  相似文献   

15.
遥感图像数据量大、波段数目多、信息冗余多等特点给图像的进一步解译带来了困难.为了解决这个问题,在使用相邻波段间的互信息量与全部波段间的相关系数矩阵相结合的方法对波段进行分组的基础上,运用波段指数和光谱角制图算法,提出了针对某个感兴趣目标的波段选择方法.首先对校正后的全部有效波段进行分组(划分子空间),然后提取出各个子空间中指数最大的波段,最后依据地物光谱可分性选取最佳的波段组合.通过试验及与常见的波段选择方法进行比较的结果显示,所提方法目标提取效果明显.  相似文献   

16.
We present a novel interactive learning‐based method for curating datasets using user‐defined criteria for training and refining Generative Adversarial Networks. We employ a novel batch‐mode active learning strategy to progressively select small batches of candidate exemplars for which the user is asked to indicate whether they match the, possibly subjective, selection criteria. After each batch, a classifier that models the user's intent is refined and subsequently used to select the next batch of candidates. After the selection process ends, the final classifier, trained with limited but adaptively selected training data, is used to sift through the large collection of input exemplars to extract a sufficiently large subset for training or refining the generative model that matches the user's selection criteria. A key distinguishing feature of our system is that we do not assume that the user can always make a firm binary decision (i.e., “meets” or “does not meet” the selection criteria) for each candidate exemplar, and we allow the user to label an exemplar as “undecided”. We rely on a non‐binary query‐by‐committee strategy to distinguish between the user's uncertainty and the trained classifier's uncertainty, and develop a novel disagreement distance metric to encourage a diverse candidate set. In addition, a number of optimization strategies are employed to achieve an interactive experience. We demonstrate our interactive curation system on several applications related to training or refining generative models: training a Generative Adversarial Network that meets a user‐defined criteria, adjusting the output distribution of an existing generative model, and removing unwanted samples from a generative model.  相似文献   

17.
针对传统基于主动学习的支持向量机(support vector machine,SVM)方法中所采用的欧式距离不能有效衡量高维样本之间的相关程度,导致学习器泛化能力下降的问题,提出了一种基于向量余弦的支持向量机主动学习(SVM active learning based on vector cosine)策略,称为COS_SVMactive方法。该方法通过在主动学习过程中引入向量余弦来度量训练集中样本信息的冗余度,以挑选那些含有重要分类信息的最有价值样本交给专家进行人工标注,并在迭代的样本标注过程中对训练集的平衡度进行逐步调整,使学习器获得更好的泛化性能。实验结果表明,与传统基于随机采样的SVM主动学习方法(SVM active learning based on ran-dom sampling,RS_SVMactive)和基于距离的SVM主动学习方法(SVM active learning based on distance, DIS_SVMactive)相比,COS_SVMactive方法不仅可以提高分类精度,而且能够减少专家标记代价。  相似文献   

18.
在基于内容的图像检索中,支持向量机(SVM)能够很好地解决小样本问题,而主动学习算法则可以根据学习进程主动选择最佳的样本进行学习,大幅度缩短训练时间,提高分类算法效率。为使图像检索更加快速、高效,提出一种新的基于SVM和主动学习的图像检索方法。该方法根据SVM构造分类器,通过“V”型删除法快速缩减样本集,同时通过最优选择法从缩减样本集中选取最优的样本作为训练样本,最终构造出不仅信息度大而且冗余度低的最优训练样本集,从而训练出更好的SVM分类器,得到更高的检索效率。实验结果表明,与传统的SVM主动学习的图像检索方法相比,该方法能够较大幅度提高检索性能。  相似文献   

19.
针对传统样例选择方法压缩大数据集时,存在计算复杂度较高、时间消耗较大的问题,文中提出基于非平稳割点的样例选择方法。依据在区间端点得到凸函数的极值这一基本性质,通过标记非平衡割点度量一个样例为端点的程度,然后选取端点程度较高的样例,从而避免样例之间距离的计算。该方法旨在不影响分类精度的前提下,达到压缩数据集、提高计算效率的目的。实验表明,文中方法对于类别不平衡度较高的数据集压缩效果明显,同时表现出较强的抗噪性。  相似文献   

20.
针对传统的拉普拉斯评分特征选择算法只适应单标记学习,无法直接应用于多标记学习的问题,提出一种应用于多标记任务的拉普拉斯评分特征选择算法。首先,考虑样本在整体标记空间中共同关联和共同不关联的相关性,重新构建样本相似度矩阵;然后,将特征之间的相关性及冗余性判定引入拉普拉斯评分算法中,采用前向贪心搜索策略依次评价候选特征与已选特征的联合作用能力,用于评价特征的重要性;最后,在5个不同评价指标和6个多标记数据集上实验。实验结果表明:相比基于最大依赖的多标记维数约简方法(MDDM)、基于贝叶斯分类器的多标记特征选择算法(MLNB)及基于多元互信息的多标记分类特征选择算法(PMU),所提算法不仅分类性能最优,且存在显著性优异达65%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号