首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
针对高维稀疏线性回归问题,相关变量的数量远远少于不相关变量.相关变量的变量选择问题对于传统的频率论正则化方法是一大挑战.现有的贝叶斯惩罚置信区域法通过将模型拟合与变量选择分离,在联合后验置信区域内搜索最稀疏解,从而得到稀疏模型解.且该方法在高维变量选择效果上优于常用的变量选择方法.在此基础上,针对高维稀疏模型,将原方法中依赖的共轭正态先验替换成针对"稀疏信号勘测问题"提出的Horseshoe+先验,利用Horseshoe+先验对小系数"重"压缩与大系数几乎零压缩的理论特性,实现对稀疏回归系数的稳健估计.通过数据仿真模拟不同稀疏程度下的高维稀疏线性回归,并将基于Horseshoe+先验的惩罚置信区域法分别与基于正态先验以及Laplace先验的该方法进行比较,结果表明基于Horseshoe+先验的惩罚置信区域法在高维稀疏线性回归问题具有更好的变量选择效果与预测效果.  相似文献   

2.
在许多机器学习问题中,往往需要研究高维数据中各个特征之间的统计相关性.稀疏高斯图模型作为解决这一问题的有效方法之一,广泛应用于数据挖掘、生物信息、金融分析等应用问题中.由于模型参数量是数据维度的平方量级,基于高维数据的稀疏高斯图模型的参数估计一直是统计机器学习研究中的挑战性问题之一.提出了一种新颖的基于坐标下降优化的稀疏高斯图模型并行估计算法,其核心思想是根据高斯图模型结构估计等价于每个变量的稀疏近邻选择这一基本结论,采用坐标下降来求解每个近邻选择子问题.通过将样本矩阵进行分布式存储,在MPI(Message-Passing Interface)框架下实现了这些子问题的并行求解.实验结果表明,该算法具有良好的并行运算性能,在保证结构估计精度的同时,能够大幅度提升运算速度.  相似文献   

3.
Vine copula模型在描述高维数据间的非线性、非高斯特性相依关系问题上提供了一种新的思路,在化工过程建模领域受到越来越多关注。笔者将LASSO(least absolute shrinkage and selection operator)回归引入R-vine copula(LASSO-R-vine copula, LRVC),根据变量间联系的强弱程度确定变量在R-vine矩阵中的位置,利用回归分析正则化路径选择R-vine copula矩阵结构,遵循R-vine矩阵构建规则和回归过程确定R-vine结构矩阵模型,以获得一个与变量独立性有关的稀疏矩阵模型。该方法构建的矩阵结构独立于copula函数类型和参数,在处理高维度复杂工业过程数据时,利用稀疏模型和惩罚力度简化copula函数类型选择过程,缩短了建模时间,使统计建模具有更强的灵活性。该方法在TE(Tennessee Eastman)和醋酸脱水过程故障监测中表现出较好的预测效果,证明了提出的方法在非线性、非高斯过程的有效性。  相似文献   

4.
线性模型作为一种经典的回归模型,具有简洁的表达形式和较强的可解释性。然而,传统的线性模型是基于样本独立假设的,并不能有效地处理网络数据问题。为了有效地表达网络数据之间的关联信息,本文利用网络结构图,构建了包含样本邻近信息的回归模型。进一步,为了合理估计回归模型参数,并提高处理强相关变量数据的能力,本文提出了一种能够有效处理网络数据的Elastic Net回归模型。具体地,该模型由平方损失和Elastic Net正则项组成,其中平方损失项既包含数据的属性变量信息,又包含响应变量的网络结构信息,能够更好地提高模型学习的准确性;Elastic Net正则项不仅可以保证模型的稳定性和稀疏性,而且具有变量分组效应,能够将强相关性变量组全部剔除或保留。最后采用坐标下降和交替迭代算法对目标函数进行求解。在实验过程中,分别采用Scale-free网络、Hub网络以及Erd?s-Renyi网络进行了大量实验,实验结果显示模型的预测误差能够降低到0.006 6,0.010 3,0.009 7,表明了所提模型的有效性。真实数据集上的实验结果也表明Elastic Net模型具有更高的准确性,能够更加有效地适用...  相似文献   

5.
针对高维数据的特点并基于线性回归模型,利用变量选择降维技术,提出了一种新的、有效的变量选择(或称特征提取)的正则化估计方法.新的正则化估计方法主要考虑了数据的噪声(方差)对正则化估计的影响,在寻找估计的正则化路径时能对方差进行有效估计,且基于凸优化问题的KKT条件和坐标算法思想给出了正则化估计算法的实施细节.实验结果表明,该方法能够提高高维数据集进行估计和变量选择的准确性,是高维数据挖掘中新的、有效的特征提取方法.  相似文献   

6.
利用惩罚拟似然方法,讨论高维广义线性模型的拟似然自适应Lasso估计。该方法能同时进行变量选择和参数估计。在适当的条件下,证明了所得估计的相合性和Oracle性质,并利用数据模拟和实例分析说明了所提方法的优良性质。  相似文献   

7.
唐中君  吴凡  倪浪 《科技促进发展》2020,16(10):1221-1229
电影首映日票房预测对该日排片、后续放映日票房及总票房有显著影响。在构建考虑竞争的电影首映日票房预测变量集的基础上,建立首映日票房集成预测模型。首先使用多元线性回归(multiple linear regression, MLR)、支持向量回归(support vector regression, SVR)、套索回归(Least absolute shrinkage and selection operator, Lasso)和极端梯度提升(Extreme Gradient Boosting, XGBoost)等算法建立基学习器,随后使用XGBoost算法作为原学习器构建堆栈集成预测模型,最后利用收集到的数据进行对比实验。实验证明,加入竞争变量的电影首映日票房预测变量集适用于首映日票房预测;相比单一模型,提出的集成预测模型的准确性、泛化性能和稳定性均有提升,相比较传统预测方法对首映日票房预测更准确。提出的集成预测模型有助于提升首映日票房排片的有效性。  相似文献   

8.
建立一种基于空间的逻辑回归模型用于分析和预测城市扩展,这种模型利用空间滤波对因子进行空间平滑得出"隐含变量",从而把原始变量变换为没有空间相关的新变量.利用该模型对新堡市的土地利用变化进行了分析和预测.实验结果表明,新方法比普通逻辑回归模型的预测精度有较大提高,曲线下面积从0.74提高到0.84.  相似文献   

9.
大数据背景下,基于罚函数的正则化方法是高维数据变量选择的重要方法.Lasso估计是常用的变量选择方法,而Lasso正则化参数的取值直接影响选择模型的性能,是正则化方法成败的关键.针对Lasso估计,提出一种新的L曲线(LC)准则选择正则化参数.数值模拟和实际应用表明:相比CV,GCV,BIC等准则,LC准则能够以较高的...  相似文献   

10.
基于非负矩阵分解的协同过滤模型在高维稀疏数据的预测和填补上十分有效,该模型具有推荐个性化、有效利用其他相似用户回馈信息的优点,但也存在预测精度较低等不足。针对用户或项目在不同情景下的评分差异性,提出了一种改进的基于潜在因子多样性的非负矩阵分解的协同过滤模型。该模型充分考虑在不同情境下,用户和项目潜在特征矩阵的多样性,在模型的训练中,采用了单元素非负乘法更新规则和交替方向法,保证了目标矩阵的非负性,且提高了模型的收敛率。在真实的工业数据集上的实验结果表明,相比于经典的非负矩阵分解模型,该模型的预测精度有了明显提高。  相似文献   

11.
多重共线性是多元线性回归分析中的一个重要问题,消除共线性的危害一直是回归分析的一个重点.就此问题介绍了一种Lasso方法,并设计了一种选择最佳模型的方法.通过实例分析,将其与常用方法进行比较,从结果可看出,Lasso回归在处理多重共线性问题上较其他方法更加有效.  相似文献   

12.
非负矩阵分解方法(non-negative matrix factorization,NMF)广泛应用于图像聚类、计算机视觉、信息检索等领域。但是,现有的NMF方法还存在一些不足之处:①NMF方法直接在高维原始图像数据集上计算它的低维表示,而实际上原始图像数据集的有效信息常常隐藏在它的低秩结构中;②NMF方法还存在对噪声敏感以及鲁棒性差的缺点。为了提高NMF算法的鲁棒性和可解释性,提出一种稀疏图正则化的非负低秩矩阵分解算法(sparse graph regularized non-negative low-rank matrix factorization,SGNLMF)。通过低秩约束和图正则化,SGNLMF算法同时利用了数据的几何信息和有效低秩结构;此外,SGNLMF算法还对基矩阵加以稀疏约束,使得其鲁棒性和可解释性均有一定的提升。还提出了一种求解SGNLMF的迭代算法,并从理论上分析了该求解算法的收敛性。通过在ORL和YaleB数据库上的实验结果表明SGNLMF算法的有效性。  相似文献   

13.
为了解决工业数据的序列相关性以及数据的全局和局部结构在某些异常状态下的变化问题,通过"时滞偏移"方法将动态行为纳入多流形投影(multi-manifold projections,MMP)模型,提出一种动态多流形投影算法(dynamic multi-manifold projections,DMMP)在统计过程监测中的...  相似文献   

14.
封之聪  祝云  高枫 《科学技术与工程》2022,22(26):11394-11401
在火力发电过程中,蒸汽量的准确测量,对于汽轮机机组的经济稳定运行具有重要的意义。针对传统蒸汽量测量方法精度低的问题,提出了一种基于宽度学习系统(broad learning system, BLS)和Lasso (least absolute shrinkage and selection operator)回归模型的组合预测模型。首先利用One-class SVM (one-class support vector machines)算法对样本进行异常值检测,将检测得到的异常值剔除。然后,采用最大信息系数(maximal informationcoefficient, MIC)对特征变量和蒸汽量进行非线性关联性分析,确定宽度学习系统和Lasso回归模型的输入变量,通过训练得出各自的预测结果。最后,通过最优加权组合法确定两单一模型的权重系数,将它们所得的预测结果线性组合,得到最终的预测结果。实例表明,所建立的组合模型有效地缓解了单一模型在变化剧烈的峰值和谷值预测偏差大的问题,能够准确地预测蒸汽量。  相似文献   

15.
为充分利用表征过程运行工况的数据特征信息,提高化工过程的故障检测性能,提出一种基于动态结构保持主元分析(DSPPCA)的过程故障检测方法。首先对原始数据采用变量相关性分析建立自回归模型,构建包含动态特征的数据集,进一步综合考虑主元分析法(PCA)和局部线性嵌入(LLE)流形学习算法中数据点之间的近邻关系,融合得出新的目标函数,同时,运用局部线性回归的方法获得高维样本的嵌入映射,特征提取后在特征空间和残差空间分别构造监控统计量进行故障检测。Swiss-roll数据集的降维结果及TE过程的仿真研究结果表明,DSPPCA算法可以取得较好的特征提取效果,具有较高的故障检测性能。  相似文献   

16.
随着电力系统信息化的发展,电网数据具有数量大、类型多、维度高的特点。针对在数据检索时多维度查询效率不高,检索结果无法多维度整体匹配的问题,提出一种基于流形排序的电网截面数据检索方法;该方法将电网截面数据描述成多维向量空间中的对应点,创建加权图模型。通过考虑数据的整体近似流形结构来获得检索结果,使之与源查询之间具有较高的相关性;使用置信传播分配排序分数,提高了检索结果的准确性,有效避免相关性度量对高维数据查询处理的不足。  相似文献   

17.
The data-driven conditional multinomial logit choice model with customer features performs well in the assortment personalization problem when the low-rank structure of the parameter matrix is considered. However, despite recent theoretical and algorithmic advances, parameter estimation in the choice model still poses a challenging task, especially when there are more predictors than observations. For this reason, we suggest a penalized likelihood approach based on a feature matrix to recover the sparse structure from populations and products toward the assortment. Our proposed method considers simultaneously low-rank and sparsity structures, which can further reduce model complexity and improve its estimation and prediction accuracy. A new algorithm, sparse factorial gradient descent (SFGD), was proposed to estimate the parameter matrix, which has high interpretability and efficient computing performance. As a first-order method, the SFGD works well in high-dimensional scenarios because of the absence of the Hessian matrix. Simulation studies show that the SFGD algorithm outperforms state-of-the-art methods in terms of estimation, sparsity recovery, and average regret. We also demonstrate the effectiveness of our proposed method using advertising behavior data analysis.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号