首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对高维数据的特点并基于线性回归模型,利用变量选择降维技术,提出了一种新的、有效的变量选择(或称特征提取)的正则化估计方法.新的正则化估计方法主要考虑了数据的噪声(方差)对正则化估计的影响,在寻找估计的正则化路径时能对方差进行有效估计,且基于凸优化问题的KKT条件和坐标算法思想给出了正则化估计算法的实施细节.实验结果表明,该方法能够提高高维数据集进行估计和变量选择的准确性,是高维数据挖掘中新的、有效的特征提取方法.  相似文献   

2.
基于Relief的组合式特征选择   总被引:15,自引:0,他引:15  
ReliefF是公认的效果较好的filter式特征评估方法,但该方法一大缺点是不能辨别冗余特征.提出两种基于Relief的组合式特征选择算法:ReCorre和ReSBSW,这两种算法均首先利用ReliefF算法过滤掉无关特征,然后分别采用相关分析(Correlation)以及顺序后向搜索(SBS)的Wrapper算法去除冗余特征.在实际数据集以及人造数据集上进行了实验,分析比较了Relief,ReCorre以及ReSBSW算法的性能.实验结果得出如下结论:ReliefF方法对无关特征较多的数据集能够很好的降维,但对于实际数据中特征间关系较复杂的情况,只能去掉很少的无关特征,并会去除一部分相关特征,ReliefF不能处理冗余特征,ReCorre可以在ReliefF基础上去除大部分冗余特征.ReSBSW算法可得到较好的泛化性能,但算法计算量很高,不适合大规模数据集.  相似文献   

3.
对于高维分位数回归模型提出了一种两步变量选择方法,这里协变量的维数pn远远大于样本量n.在第一步中,使用e1惩罚,并且证明第一步由LASSO惩罚所得到的惩罚估计量能够把模型从超高维降到同真实模型同阶的维数,并且所选模型能够覆盖真实模型.第二步对第一步所得模型使用自适应的LASSO惩罚来剔除冗余变量.在一些正则性条件下,证明了此方法具有变量选择的相合性.还进行了数值模拟和实际数据分析,用来表明此方法在有限样本下的表现.  相似文献   

4.
对于高维分位数回归模型提出了一种两步变量选择方法,这里协变量的维数p_n远远大于样本量n.在第一步中,使用l_1惩罚,并且证明第一步由LASSO惩罚所得到的惩罚估计量能够把模型从超高维降到同真实模型同阶的维数,并且所选模型能够覆盖真实模型.第二步对第一步所得模型使用自适应的LASSO惩罚来剔除冗余变量.在一些正则性条件下,证明了此方法具有变量选择的相合性.还进行了数值模拟和实际数据分析,用来表明此方法在有限样本下的表现.  相似文献   

5.
以全国31个主要城市的空气污染数据作为研究对象,通过B-样条逼近离散数据,拟合日变动曲线作为函数型数据,采用基于Group LASSO的函数型变量选择方法对空气污染因素和气象因素进行变量选择,选取影响空气质量的主要因素,并建立函数型回归模型,同时与函数型主成分回归方法进行比较,发现Group LASSO函数型变量选择方法不仅对群组变量进行选择,而且对选择出的群组内变量还能做进一步的选择,可以获得较为稳健的估计结果和较好的选择效果。  相似文献   

6.
目的解决soft阈值算法收敛速度过慢,得到的解不够稀疏等问题。方法根据soft阈值算法以及L_1正则化理论进行研究。结果改进并提出了加速soft阈值算法(即FSTA),同时将这种算法用于求解指数追踪问题。结论实验数据表明,这种算法在数值求解指数追踪问题时比经典LASSO算法更高效。  相似文献   

7.
借鉴基于正则回归的无监督并行正交基聚类特征选择法和最大互信息系数,提出正交基低冗余无监督特征选择法.该方法在正交基下选择具有判别能力的特征,可用最大互信息系数矩阵选择低冗余性的特征子集. 4个图像数据集上的实验结果表明:该方法选择的特征子集可以提高聚类准确率.  相似文献   

8.
文章基于高斯回归模型,利用坐标算法并结合KKT条件对已存在的正则估计方法进行了改进,提出了一种对高维数据更加有效的变量选择(或称特征提取)的正则化估计方法.该方法考虑了实际数据中存在的噪声对正则化估计的影响,并能对噪声进行有效估计,文中给出了改进算法的实施细节,并通过实验结果验证了该方法在一定数据范围内具有估计的有效性和提高变量选择(特征提取)的准确性.  相似文献   

9.
Vine copula模型在描述高维数据间的非线性、非高斯特性相依关系问题上提供了一种新的思路,在化工过程建模领域受到越来越多关注。笔者将LASSO(least absolute shrinkage and selection operator)回归引入R-vine copula(LASSO-R-vine copula, LRVC),根据变量间联系的强弱程度确定变量在R-vine矩阵中的位置,利用回归分析正则化路径选择R-vine copula矩阵结构,遵循R-vine矩阵构建规则和回归过程确定R-vine结构矩阵模型,以获得一个与变量独立性有关的稀疏矩阵模型。该方法构建的矩阵结构独立于copula函数类型和参数,在处理高维度复杂工业过程数据时,利用稀疏模型和惩罚力度简化copula函数类型选择过程,缩短了建模时间,使统计建模具有更强的灵活性。该方法在TE(Tennessee Eastman)和醋酸脱水过程故障监测中表现出较好的预测效果,证明了提出的方法在非线性、非高斯过程的有效性。  相似文献   

10.
黏液菌(Physarum polycephalum)由于其展现出的迷宫寻径、路径寻优甚至构建与人工设计媲美的复杂交通网络等特殊能力而备受关注。该文正是受启发于黏液菌构建复杂鲁棒网络的行为,提出了一种仿生特征选择算法Slime-FS。Slime-FS将特征选择转化成一类最优特征子图求解问题,同时模仿黏液菌觅食机制,结合粗糙集理论构建了一种策略来指导最优特征子图的搜索。算法被应用于文本情感识别问题中,在某慕课平台评论文本数据集上进行了测试,结果显示Slime-FS能有效地选择鉴别特征,去除冗余和无关特征,其表现要远远优于基准算法(不带选特征选择的SVC),也要优于若干结合了元启发搜索策略的混合算法(Sklearn-genetic、EWGA、MSPSO和ACO)。  相似文献   

11.
基于1988—2019年安徽省财政收入及相关经济指标数据,运用岭回归和LASSO回归方法,探究安徽省财政收入的影响因素.考虑到较多的自变量会造成严重的多重共线性,首先应用岭回归及LASSO回归模型降低变量间共线性的影响,然后再进行变量选择,最后对两模型进行比较分析.结果显示:相较于岭回归模型,LASSO回归模型更优.第...  相似文献   

12.
针对生存分析中建立生存模型时,如何处理生存数据中特有的数据类型——删失数据,降低高维协变量的维数,更好地识别出真正具有预测性的因子,建立准确的生存模型的问题,提出用STUTE’s加权最小二乘法和删失限制以及LASSO正则化相结合的方法来对AFT模型进行估计。首先,提出STUTE’s加权最小二乘法和删失限制相结合的方法对生存数据中的删失数据进行处理;其次,提出了LASSO的一个新的实现算法进行模型的变量选择,降低模型中协变量的维数,精简模型;最后,通过仿真分析得到提出的新估计方法较已有的LASSO旧算法以及其他的变量选择方法,VSURF算法更能找出"真"因子,建立准确的生存模型。  相似文献   

13.
针对风电机组齿轮箱油温趋势预测中存在的信号非线性、多变量相关、各相关变量之间存在数据冗余等问题,同时为了克服人工神经网络离线训练的不足,该文提出了一种基于主成分分析(principal component analysis,PCA)和动态神经网络的齿轮箱油温趋势预测模型,并结合统计过程控制(statistical process control,SPC)实现该模型在线学习能力。确定影响油温变化的相关变量集,利用PCA消除相关变量间的数据冗余,采用有外部输入的非线性自回归动态神经网络(nonlinear autoregressive with external input,NARX)对油温和相关变量集进行建模,采用考虑残差分布规律的SPC方法控制模型在线学习行为。实际应用结果表明:该方法具有较高的稳定性和准确度,能够有效实现油温趋势预测。  相似文献   

14.
提出了一种基于改进平方根法的增量式正则极速学习机(ISR-RELM),该方法在求解正则极速学习机(RELM)输出权值时有效减少了隐层神经元递增过程中的计算量。9个基准回归数据集预测表明,ISR-RELM不仅预测精度高,而且所用的训练时间比文献中的3种方法(ISR-RELM,LD-RELM和CF-RELM)都少。因此ISR-RELM是解决数据回归问题的一种新颖且高效的方法。  相似文献   

15.
针对混合效应模型,在已有的双Lasso正则化分位回归(DLQR)的基础上,结合MCP惩罚,提出了双MCP正则化分位回归(DMQR).通过对惩罚方法的改进,使得模型的拟合效果大大提高.在求解参数时使用交替迭代算法使得每次只用求解单个MCP惩罚的分位回归,并结合针对非凸惩罚的迭代坐标下降法(QICD)使得计算的速度大大提高.在稀疏模型的模拟研究中发现,无论在何种误差条件下,DMQR都能很好的排除冗余变量,效果相对于DLQR有了较大的提升.且在模型的稀疏程度不同时,都能得到很好的模拟结果.  相似文献   

16.
高光谱图像解混方法中基于稀疏性的混合像元分解方法成为近来研究的热点,其中稀疏正则化高光谱混合像元分解方法(SUnSAL)得到了较好的解混效果。尽管如此,但正则化解的稀疏性和稳健性并不好。基于正则子比正则子更易于求解,同时比正则子具有更好的稀疏性和稳健性,本文引入用正则子来代替正则子。同时,采用了一种简单有效的稀疏正则化的求解方法,将正则化非凸优化问题转化为一系列迭代重复加权正则化问题,并利用变量分裂和增广拉格朗日算法(ADMM)对加权正则化问题进行求解。实验数据表明,此方法不但实现简单,而且可以获得更好的混合像元分解精度。  相似文献   

17.
【目的】蛋白质自由能不仅能准确地反应蛋白质的交互,而且对药物设计有巨大帮助。因此,选择建立精确的蛋白质自由能回归模型是非常有必要的。【方法】收集135对蛋白质复合物并计算600个特征,通过最小冗余最大相关(mRMR)选择与蛋白质自由能显著相关的特征并去除冗余特征,从而得到最小冗余最大相关的特征集,用筛选后的特征建立6种回归模型,并对选择后的特征进行移除对比分析特征的重要性;最后通过10折交叉验证对比得到最佳模型,预测蛋白质自由能。【结果】相对于其它方法,本研究所建立的模型在预测135对蛋白质复合物的性能,相对于其它方法有着较高的相关系数和较低平均绝对误差。【结论】本实验所用方法比其他方法选出的模型有更好的预测精度。  相似文献   

18.
超图正则化非负矩阵分解(HNMF)是一类常用的数据降维方法。然而,使用预先构造超图的方法不能较好地反映出样本点间的多元关系。为解决此问题,设计了一类自适应超图的构造方法,结合非负矩阵分解,建立了自适应超图正则化低秩矩阵分解(LMFAHR)模型。利用乘性更新的方法求解该模型,并证明了该模型的目标函数在迭代过程中单调不增。数值实验表明:LMFAHR算法与经典的低秩矩阵分解算法相比,在COIL20数据集上评估指标ACC和NMI分别有0.66%~1.48%,0.19%~1.43%的提升,在Yale数据集上评估指标ACC和NMI分别有0.01%~4.29%,0.3%~8.44%的提升。  相似文献   

19.
针对模式识别系统中有效特征的选择问题,采用支持向量机作为分类器,提出了基于均匀设计的特征选择方法.根据均匀设计表的结构及采用的数据集进行训练、测试,最后检验所选的特征子集.实验结果表明,该方法能够有效地去除数据集的冗余特征,取得比使用特征全集更好的分类性能.  相似文献   

20.
在大数据时代,正则化(惩罚)回归模型成为高维数据分析的一种有效分析工具.文中从统计模型理论和优化算法两个角度对正则化回归模型进行简要的概述,主要介绍线性回归模型、广义线性模型和分位数回归模型三种经典且重要的回归模型以及相应的正则项.对于线性回归模型,介绍最小二乘回归和l_1-正则最小二乘回归问题的优化算法;对广义线性模型和分位数回归模型,介绍逻辑回归模型和求解l_1-正则逻辑回归问题的优化算法,并展示分位数回归模型和求解相应的正则化分位数回归模型的优化算法.最后,对正则化回归模型未来的研究方向进行展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号