首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
正则化路径上三步式SVM贝叶斯组合   总被引:1,自引:0,他引:1  
模型组合旨在整合并利用假设空间中多个模型提高学习系统的稳定性和泛化性.针对支持向量机(support vector machine,SVM)模型组合多采用基于样本采样方法构造候选模型集的现状,研究基于正则化路径的SVM模型组合.首先证明SVM模型组合Lh-风险一致性,给出SVM模型组合基于样本的合理性解释.然后提出正则化路径上的三步式SVM贝叶斯组合方法.利用SVM正则化路径分段线性性质构建初始模型集,并应用平均广义近似交叉验证(generalized approximate cross-validation,GACV)模型集修剪策略获得候选模型集.测试或预测阶段,应用最小近邻法确定输入敏感的最终组合模型集,并实现贝叶斯组合预测.与基于样本采样方法不同,三步式SVM贝叶斯组合方法基于正则化路径在整个样本集上构造模型集,训练过程易于实现,计算效率较高.模型集修剪策略可减小模型集规模,提高计算效率和预测性能.实验结果验证了正则化路径上三步式SVM模型组合的有效性.  相似文献   

2.
传统预测基因表达的线性模型无法解决基因表达谱数据高维度、少样本和非线性的现实问题。对此提出一种基于直连输入输出深度神经网络(DCIO-DNN)和迁移学习的基因表达回归预测模型(DCIO-DNN_GM)。提出一种可以建模landmark和target基因的线性和非线性映射关系的新型网络结构;引入迁移学习策略和正则化技术在小数据集上训练了模型。实验结果表明,该模型各项指标都更高。  相似文献   

3.
在大数据时代,数据的样本数量、特征维度和类别数量都在急剧增加,且样本类别间通常存在着层次结构.如何对层次结构数据进行特征选择具有重要意义.近年来,已有相关特征选择算法提出,然而现有算法未充分利用类别的层次结构信息,且忽略了不同类节点具有共有与固有属性的特点.据此,提出了基于标签关联性的分层分类共有与固有特征选择算法.该算法利用递归正则化对层次结构的每个内部节点选择对应的固有特征,并充分利用层次结构分析标签关联性,进而利用正则化惩罚项学习各子树的共有特征.该模型不仅能够处理树结构层次化数据,也能直接处理更为复杂常见的有向无环图结构的层次化数据.在6个树结构数据集和4个有向无环图结构数据集上的实验结果,验证了该算法的有效性.  相似文献   

4.
多模态数据融合方法通过学习多个数据集间的关联信息和互补信息,提高了数据分类或预测的性能。但现有的数据融合方法大都基于单独数据集自身的特征模式进行学习,不同异构数据之间的结构信息往往被忽略。因此,文中提出了一种基于超图正则化的多模态信息融合算法(sHMF),通过超图和流行正则项的方法结合表示模态内样本间的高阶关系和模态间的关系,即得到同构和异构的高阶网络。其中,采用超图稀疏表达学习超图,减少冗余边。为了验证所提算法的性能,在模拟数据和影响遗传学真实数据下进行实验,结果表明,sHMF算法在模拟数据和真实数据上均优于多任务学习、多邻域分类等流行算法对精神分裂症的分类精度。同时,sHMF在真实数据上得出的实验结果进一步揭示了一些与精神分裂症显著相关的生物标记物以及风险基因、甲基化因子和异常脑区之间潜在的联系。  相似文献   

5.
在小样本文本分类领域中,查询集和支持集的特征提取是影响分类结果的关键之一,但以往的研究大多忽略了两者之间存在匹配信息且在各自的信息提取中忽略了特征间的重要性程度不同,因此提出了一种新的小样本分类模型.模型结合GRU的全局信息提取能力和注意力机制的局部细节学习能力对文本特征进行建模,同时采用双向注意力机制来获取支持样本与查询样本间的交互信息,并创新性的提出“类生成器”用以区分同类样本间的不同重要性同时生成更具判别性的类别表示.此外,为了获得更为清晰的分类界限,还设计了一个原型感知的正则化项来优化原型学习.模型在2个小样本分类数据集上进行了实验,均取得了比目前最优基线模型更好的分类效果.  相似文献   

6.
龚永红  郑威  吴林  谭马龙  余浩 《计算机应用》2018,38(10):2856-2861
针对现有属性选择算法平等地对待每个样本而忽略样本之间的差异性,从而使学习模型无法避免噪声样本影响问题,提出一种融合自步学习理论的无监督属性选择(UFS-SPL)算法。首先自动选取一个重要的样本子集训练得到属性选择的鲁棒性初始模型,然后逐步自动引入次要样本提升模型的泛化能力,最终获得一个能避免噪声干扰而同时具有鲁棒性和泛化性的属性选择模型。在真实数据集上与凸半监督多标签属性选择(CSFS)、正则化自表达(RSR)和无监督属性选择的耦合字典学习方法(CDLFS)相比,UFS-SPL的聚类准确率、互信息和纯度平均提升12.06%、10.54%和10.5%。实验结果表明,UFS-SPL能够有效降低数据集中无关信息的影响。  相似文献   

7.
模糊最小二乘孪生支持向量机模型融合了模糊函数和最小二乘孪生支持向量机算法特性,以解决训练数据集存在孤立点噪声和运算效率低下问题。针对回归过程基于统计学习结构风险最小化原则,对该模型进行L_2范数正则化改进。考虑到大规模数据集的训练效率问题,对原始模型进行了L_1范数正则化改进。基于增量学习特性,对数据集训练过程进行增量选择迭加以加快训练速度。在UCI数据集上验证了相关改进算法的优越性。  相似文献   

8.
许航  张师超  吴兆江  李佳烨 《软件学报》2021,32(11):3440-3451
正则化属性选择算法减小噪音数据影响的效果不佳,而且样本空间的局部结构几乎没有被考虑,在将样本映射到属性子空间后,样本之间的联系与原空间不一致,导致数据挖掘算法的效果不能令人满意.提出一个抗噪音属性选择方法,可以有效地解决传统算法的这两个缺陷.该方法首先采用自步学习的训练方式,这不仅能大幅度降低离群点进入训练的可能性,而且有利于模型的快速收敛;然后,采用加入l2,1正则项的回归学习器进行嵌入式属性选择,兼顾“求得稀疏解”和“解决过拟合”,使模型更稳健;最后,融合局部保留投影的技术,将其投影矩阵转换成模型的回归参数矩阵,在属性选择的同时保持样本之间的原有局部结构.采用一系列基准数据集合测试该算法,在aCC和aRMSE上的实验结果,表明了该属性选择方法的有效性.  相似文献   

9.
对于静态基因表达数据来说,推断基因调控网络仍是系统生物学中的一个挑战——存在大量识别难度高的直接或间接调控关系,而传统方法的准确性和可靠性还有待进一步提高。为此,该文提出一种基于 Boosting 集成模型的方法(XGBoost),应用随机化和正则化来解决模型过拟合问题,同时针对建模所得权重不一致的问题,对初始权重增加归一化和统计学方法处理。最终,采用 DREAM5挑战的基准数据集对所提出方法进行性能验证。实验结果表明,XGBoost 比现有其他方法获得更好的性能:在 in-silico 生成的模拟数据集中,接受者操作特征曲线面积(AUPR)和正确率-召回率曲线面积(AUROC)两个评估指标均显著优于现有方法;在 E.coli 和 S.cerevisiae 两种生物的真实实验数据中,AUROC 指标均高于现有最优方法。  相似文献   

10.
近年来,基于基因表达谱的肿瘤分类问题引起了广泛关注,为癌症的精确诊断及分型提供了极大的便利.然而,由于基因表达谱数据存在样本数量小、维数高、噪声大及冗余度高等特点,给深入准确地挖掘基因表达谱中所蕴含的生物医学知识和肿瘤信息基因选择带来了极大困难.文中提出一种基于迭代Lasso的信息基因选择方法,以获得基因数量少且分类能力较强的信息基因子集.该方法分为两层:第一层采用信噪比指标衡量基因的重要性,以过滤无关基因;第二层采用改进的Lasso方法进行冗余基因的剔除.实验采用5个公开的肿瘤基因表达谱数据集验证了本文方法的可行性和有效性,与已有的信息基因选择方法相比具有更好的分类性能.  相似文献   

11.
Traditional learning algorithms use only labeled data for training. However, labeled examples are often difficult or time consuming to obtain since they require substantial human labeling efforts. On the other hand, unlabeled data are often relatively easy to collect. Semisupervised learning addresses this problem by using large quantities of unlabeled data with labeled data to build better learning algorithms. In this paper, we use the manifold regularization approach to formulate the semisupervised learning problem where a regularization framework which balances a tradeoff between loss and penalty is established. We investigate different implementations of the loss function and identify the methods which have the least computational expense. The regularization hyperparameter, which determines the balance between loss and penalty, is crucial to model selection. Accordingly, we derive an algorithm that can fit the entire path of solutions for every value of the hyperparameter. Its computational complexity after preprocessing is quadratic only in the number of labeled examples rather than the total number of labeled and unlabeled examples.  相似文献   

12.
将迁移学习和数据分组处理算法集成起来,提出了一种基于数据分组处理算法的迁移特征选择(GM-DH-TFS)模型。在UCI的四个数据集上,将GMDH-TFS模型与以全部特征作分类(FULL)的结果以及常用的特征选择模型(前向监督特征选择模型(SFFS)、前向半监督特征选择模型(FW-SemiFS)和迁移特征选择模型(TFS))作比较实验,结果表明,GMDH-TFS在特征选择方面比其他四种方法有更好的效果,在小样本情况下也得到了同样的结果。GMDH-TFS模型可以在数据分布不一致的情况下进行特征选择,同时面对数据匮乏也能取得理想的效果。  相似文献   

13.
目的 大数据环境下的多视角聚类是一个非常有价值且极具挑战性的问题。现有的适合大规模多视角数据聚类的方法虽然在一定程度上能够克服由于目标函数非凸性导致的局部最小值,但是缺乏对异常点鲁棒性的考虑,且在样本选择过程中忽略了视角多样性。针对以上问题,提出一种基于自步学习的鲁棒多样性多视角聚类模型(RD-MSPL)。方法 1)通过在目标函数中引入结构稀疏范数L2,1来建模异常点;2)通过在自步正则项中对样本权值矩阵施加反结构稀疏约束来增加在多个视角下所选择样本的多样性。结果 在Extended Yale B、Notting-Hill、COIL-20和Scene15公开数据集上的实验结果表明:1)在4个数据集上,所提出的RD-MSPL均优于现有的2个最相关多视角聚类方法。与鲁棒多视角聚类方法(RMKMC)相比,聚类准确率分别提升4.9%,4.8%,3.3%和1.3%;与MSPL相比,准确率分别提升7.9%,4.2%,7.1%和6.5%。2)通过自对比实验,证实了所提模型考虑鲁棒性和样本多样性的有效性;3)与单视角以及多个视角简单拼接的实验对比表明,RD-MSPL能够更有效地探索视角之间关联关系。结论 本文提出一种基于自步学习的鲁棒多样性多视角聚类模型,并针对该模型设计了一种高效求解算法。所提方法能够有效克服异常点对聚类性能的影响,在聚类过程中逐步加入不同视角下的多样性样本,在避免局部最小值的同时,能更好地获取不同视角的互补信息。实验结果表明,本文方法优于现有的相关方法。  相似文献   

14.
针对处理高维度属性的大数据的属性约减方法进行了研究。发现属性选择和子空间学习是属性约简的两种常见方法,其中属性选择具有很好的解释性,子空间学习的分类效果优于属性选择。而往往这两种方法是各自独立进行应用。为此,提出了综合这两种属性约简方法,设计出新的属性选择方法。即利用子空间学习的两种技术(即线性判别分析(LDA)和局部保持投影(LPP)),考虑数据的全局特性和局部特性,同时设置稀疏正则化因子实现属性选择。基于分类准确率、方差和变异系数等评价指标的实验结果比较,表明该算法相比其它对比算法,能更有效的选取判别属性,并能取得很好的分类效果。  相似文献   

15.
In recent years, several methods have been proposed to combine multiple kernels using a weighted linear sum of kernels. These different kernels may be using information coming from multiple sources or may correspond to using different notions of similarity on the same source. We note that such methods, in addition to the usual ones of the canonical support vector machine formulation, introduce new regularization parameters that affect the solution quality and, in this work, we propose to optimize them using response surface methodology on cross-validation data. On several bioinformatics and digit recognition benchmark data sets, we compare multiple kernel learning and our proposed regularized variant in terms of accuracy, support vector count, and the number of kernels selected. We see that our proposed variant achieves statistically similar or higher accuracy results by using fewer kernel functions and/or support vectors through suitable regularization; it also allows better knowledge extraction because unnecessary kernels are pruned and the favored kernels reflect the properties of the problem at hand.  相似文献   

16.

In order to curb the model expansion of the kernel learning methods and adapt the nonlinear dynamics in the process of the nonstationary time series online prediction, a new online sequential learning algorithm with sparse update and adaptive regularization scheme is proposed based on kernel-based incremental extreme learning machine (KB-IELM). For online sparsification, a new method is presented to select sparse dictionary based on the instantaneous information measure. This method utilizes a pruning strategy, which can prune the least “significant” centers, and preserves the important ones by online minimizing the redundancy of dictionary. For adaptive regularization scheme, a new objective function is constructed based on basic ELM model. New model has different structural risks in different nonlinear regions. At each training step, new added sample could be assigned optimal regularization factor by optimization procedure. Performance comparisons of the proposed method with other existing online sequential learning methods are presented using artificial and real-word nonstationary time series data. The results indicate that the proposed method can achieve higher prediction accuracy, better generalization performance and stability.

  相似文献   

17.
基于深度学习的跨模态哈希方法都使用小批量训练方式来训练模型,然而小批量方式在每次更新参数时获取样本数量有限,不能得到很好的梯度,影响最终训练的模型检索性能。针对此问题,提出了一个新的跨模态哈希方法。该方法使用大批量方式进行训练,并引入正交正则化来增加大批量训练的稳定性;同时考虑了哈希码的离散性,将哈希码与特征之间的距离加入到目标函数中,使得哈希码能够更加真实地表示数据。在两个广泛使用的跨模态检索数据集上的实验表明,该方法比现有的几种哈希方法具有更好的性能。  相似文献   

18.
针对湿式球磨机多工况运行过程中标签样本难以获取和工况改变导致的原测量模型失准问题,本文引入域适应随机权神经网络(Domain adaptive random weight neural network,DARWNN),实现待测工况中少量标签样本与原工况样本共同进行迁移学习.DARWNN网络解决了不同工况间难以共同进行机器学习的问题,但其只考虑经验风险,而未考虑结构风险,从而泛化性能较差,预测精度较低.在此基础上,本文引入流形正则化,并构建基于流形正则化的域适应随机权神经网络(Domain adaptive manifold regularization random weight neural network,DAMRRWNN),以保持数据几何结构,提高相应模型性能.实验结果表明,所提方法可以有效提高DARWNN的学习精度,解决多工况情况下湿式球磨机负荷参数软测量问题.  相似文献   

19.
Along with the increase of data and information, incremental learning ability turns out to be more and more important for machine learning approaches. The online algorithms try not to remember irrelevant information instead of synthesizing all available information (as opposed to classic batch learning algorithms). In this study, we attempted to increase the prediction accuracy of an incremental version of Naive Bayes model by integrating instance based learning. We performed a large-scale comparison of the proposed method with other state-of-the-art algorithms on several datasets and the proposed method produce better accuracy in most cases.  相似文献   

20.
In this paper, we consider the multi-task metric learning problem, i.e., the problem of learning multiple metrics from several correlated tasks simultaneously. Despite the importance, there are only a limited number of approaches in this field. While the existing methods often straightforwardly extend existing vector-based methods, we propose to couple multiple related metric learning tasks with the von Neumann divergence. On one hand, the novel regularized approach extends previous methods from the vector regularization to a general matrix regularization framework; on the other hand and more importantly, by exploiting von Neumann divergence as the regularization, the new multi-task metric learning method has the capability to well preserve the data geometry. This leads to more appropriate propagation of side-information among tasks and provides potential for further improving the performance. We propose the concept of geometry preserving probability and show that our framework encourages a higher geometry preserving probability in theory. In addition, our formulation proves to be jointly convex and the global optimal solution can be guaranteed. We have conducted extensive experiments on six data sets (across very different disciplines), and the results verify that our proposed approach can consistently outperform almost all the current methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号