首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 187 毫秒
1.
推断数据间存在的因果关系是很多科学领域中的一个基础问题。然而现在暂时还没有快速有效的方法对高维数据进行因果推断。为此,提出了一种基于互信息的适应于高维数据的因果推断算法,该算法采取将高维网络结构学习问题分解成每一个节点的因果网络结构学习问题的策略。在第一阶段,利用基于互信息的条件独立性测试算法寻找目标节点的父子节点;在第二阶段,利用一种混合的方向识别算法对目标节点与其父子节点之间的方向进行判别,所有节点迭代完后得到一个完整的因果网络。数据实验表明,该算法在高维数据的情况下要优于目前其他的算法。  相似文献   

2.
一对观测变量之间的因果关系的推断是科学中的基本问题,基于观测数据分析提出因果关系的方法对于产生假设和加速科学发现具有实用价值。利用传统的因果推断算法从高维数据中学习因果网络结构和提高学习准确率是目前研究的难点。在引入耦合相关系数(copula dependence coefficient,CDC)的基础上,提出了一种适用于高维数据的两步骤因果推断算法。首先该算法利用优于最大信息系数的CDC对变量间的关联度进行检测,寻找目标节点的父子节点集;然后使用非线性最小二乘独立回归算法,为图中的目标节点与其父子节点之间标注因果方向;最后迭代所有的节点完成完整的因果网络结构。实验结果表明,该算法提高了高维数据下因果网络结构学习的准确率。同时在大样本数据集中,该算法的时间复杂度优于传统算法,对异常值具有鲁棒性。  相似文献   

3.
蔡瑞初  白一鸣  乔杰  郝志峰 《计算机应用》2021,41(10):2793-2798
因果推断方法可以用于在观察数据上发现因果关系。在因果结构含混淆因子的数据上进行因果推断时,可能会受混淆因子的影响而得到错误的因果关系。针对上述问题,提出了一种基于混淆因子隐压缩表示(CHCR)模型的因果推断方法。首先,根据CHCR模型,构造含有对原因变量进行压缩表示的中间隐变量的备选模型;其次,利用贝叶斯信息准则(BIC)计算备选模型评分并选出得分最高的最佳模型;最后,根据最佳模型中的压缩情况判断变量间真正的因果关系。理论分析表明,所提出的方法能够识别经典的基于约束的方法所无法正确分辨的、带有混淆因子的因果结构,且在样本量较小等情况下,BIC评分也可以提高所提方法的表现。实验结果表明,在样本数变化时,所提出的方法在准确率指标上相较于极快因果推断算法(RFCI)等经典方法有显著提升,并适用于各种变量可能取值数不同的情况;在混合不同类型的因果结构时,该方法在准确率指标上高于最大最小爬山算法(MMHC)等经典方法;且该方法能够在Abalone数据集上得到正确的因果关系。  相似文献   

4.
赵玲  龚加兴  黄大荣  胡冲 《控制与决策》2021,36(9):2234-2240
因果网络定向问题实质是一个“多对多”因果关系发现过程,传统的V-结构定向方法只能确定一组马尔可夫等价类而非最终的因果关系.为解决该问题,从柯氏复杂度的因果推断原理视角出发,利用贝叶斯链式法则推导出局部网络因果定向规则,并在此基础上提出高维全局网络因果定向方法.同时,将前者运用于改进基于局部条件独立信息搜索学习马尔可夫毯典型算法,后者运用于改进基于约束的因果网络结构学习典型算法.实验结果表明,改进后算法在保证较高准确率的同时可有效提升执行效率.  相似文献   

5.
因果自回归流模型已经在非独立噪声等场景的因果方向推断问题上取得了一定的进展,但在多个结点的场景下仍存在全局结构搜索带来的准确度低和计算时间复杂度高的问题。面向非时序观察数据设计一种两阶段因果结构学习算法。在第一阶段,基于观测数据的条件独立性,对完全无向图通过条件独立性检验得到基本的因果骨架;在第二阶段,基于因果自回归流模型,通过标准化流的方法计算骨架中每条无向边在不同方向上的边缘似然概率,进而通过比较边缘似然概率进行因果方向推断。实验结果表明:该算法在多组不同参数生成的仿真因果结构数据集上均有较好的表现,与现有的主流因果结构学习算法相比,F1值平均提升15%~28%;在真实因果结构数据集实验中,该算法能够较为完整准确地学习到变量间的因果关系,与主流的因果结构学习算法相比,F1值平均提升28%~48%,具有更强的鲁棒性。  相似文献   

6.
现有级联非线性加性噪声模型可解决隐藏中间变量的因果方向推断问题,然而对于包含隐变量和级联传递因果关系的因果网络学习存在全局结构搜索、等价类无法识别等问题。设计一种面向非时序观测数据的两阶段因果结构学习算法,第一阶段根据观测数据变量间的条件独立性,构建基本的因果网络骨架,第二阶段基于级联非线性加性噪声模型,通过比较骨架中每个相邻因果对在不同因果方向假设下的边缘似然度进行因果方向推断。实验结果表明,该算法在虚拟因果结构数据集的不同隐变量数量、平均入度、结构维度、样本数量下均表现突出,且在真实因果结构数据集中的F1值相比主流因果结构学习算法平均提升了51%,具有更高的准确率和更强的鲁棒性。  相似文献   

7.
曹鹏  李博  栗伟  赵大哲 《计算机应用》2013,33(2):550-553
针对大规模数据的分类准确率低且效率下降的问题,提出一种结合X-means聚类的自适应随机子空间组合分类算法。首先使用X-means聚类方法,保持原有数据结构的同时,把复杂的数据空间自动分解为多个样本子空间进行分治学习;而自适应随机子空间组合分类器,提升了基分类器的差异性并自动确定基分类器数量,提升了组合分类器的鲁棒性及分类准确性。该算法在人工和UCI数据集上进行了测试,并与传统单分类和组合分类算法进行了比较。实验结果表明,对于大规模数据集,该方法具有更好的分类精度和健壮性,并提升了整体算法的效率。  相似文献   

8.
在高维小样本场景下,针对现有基于约束的因果结构学习方法存在因果结构学习效率低、马尔可夫等价类的问题,以非线性非高斯的高维小样本为研究对象,提出一种基于递归分解的因果结构学习算法CADR。在高维小样本的因果结构学习效率方面,结合递归分解的思想,将高维变量集递归分解为多个更小的子集,直到无法再分解或子集的大小达到阈值为止。在该过程中,变量集的减少缩减了条件独立性检验的条件候选集的搜索空间,从而提高学习效率。同时,为进一步识别马尔可夫等价类,根据非线性非高斯模型的因果方向的不可逆性,通过判断拟合噪声项与原因变量是否独立来识别马尔可夫等价类的因果方向。在仿真数据和真实因果结构数据上的实验结果表明,CADR不仅提高条件独立性检验的效率,而且能有效地区分马尔可夫等价类,学习到更精确的因果结构,其中,在真实因果结构实验中,与现有Xie_rec、PC_ANM和Notear_Sob方法相比,F1评分提高5%~12%。  相似文献   

9.
如何根据观察数据来推断因果网络结构是统计学和机器学习领域的重要问题。近年来学者们取得了许多研究成果,Li NGAM算法是其中一种经典的线性因果推断算法。但Li NGAM算法采用的剪枝策略时间复杂度较高,且在稀疏图上准确率低。为此,提出一种基于条件独立性测试的剪枝算法来解决这个问题。该算法首先将变量根据因果顺序重新排列,再按照该次序采用偏相关系数检验变量之间的条件独立性。大量的实验结果表明,基于条件独立性的剪枝算法在稀疏图上比Li NGAM的剪枝算法获得更高的准确率与执行效率。  相似文献   

10.
高维时序因果网络发现是社交媒体因果关系发现的重要问题。然而,现有的时序因果关系发现方法不能发现直接因果以致因果网络推断结果不准确。针对此问题提出了一种直接因果网络发现方法。该方法考虑了时序因果模型的因果延迟、滞后期数量和条件节点集等因素,更准确地发现直接因果关系;另外,采用结合置换检验的因果关系检验方法,解决传递熵阈值难以设定的问题。实验结果表明,该方法在因果网络推断中优于现有方法,有效提升时序上直接因果网络推断的准确率,适用于发现潜在社交媒体因果关系网络。  相似文献   

11.
裘国永  张娇 《计算机应用研究》2012,29(10):3685-3687
分析和研究了自适应降维算法在高维数据挖掘中的应用。针对已有数据挖掘算法因维灾难导致的在处理高维数据时准确率和聚类质量都较低的情况,将二分K-均值聚类和SVM决策树算法结合在一起,提出了一种适用于高维数据聚类的自适应方法 BKM-SVMDT。该算法能保证二分K-均值聚类是在低维数据空间中进行,其结果再反过来帮助SVM在高维空间中的执行,这样反复执行以取得较好的分类精度和效率。标准数据集的实验结果证明了该方法的有效性。  相似文献   

12.
针对密度峰值快速聚类(CFSFDP)算法对不同数据集聚类效果的差异,利用谱聚类对密度峰值快速聚类算法加以改进,提出了一种基于谱分析的密度峰值快速聚类算法CFSFDP-SA。首先,将高维非线性的数据集映射到低维子空间上实现降维处理,将聚类问题转化为图的最优划分问题以增强算法对数据全局结构的适应性;然后,利用CFSFDP算法对处理后的数据集进行聚类。结合这两种聚类算法各自的优势,能进一步提升聚类算法的性能。在5个人工合成数据集(2个线性数据集和3个非线性数据集)与4个UCI数据库中真实数据集上的聚类结果显示,相比CFSFDP算法,CFSFDP-SA算法的聚类精度有一定提升,在高维数据集的聚类精度上最多提高了14%,对原始数据集的适应性更强。  相似文献   

13.
因果发现是知识发现的一个新的研究方向,其目的是从观测数据中找出其隐含的因果关系。虽然应用前景十分美好,但结果评价困难等因素造成了其在应用方面研究的缺乏,并限制了它的进一步发展。文章对于一个人口统计方面的关系型数据集进行了因果发现,并对于结果进行了多方面的评估与分析。结果表明,因果发现不但切实可行,而且能在实际的知识发现应用中找出相对来说较高质量的知识。  相似文献   

14.
Retrieving the relevant information from the high-dimensional dataset enhances the classification accuracy of a predictive model. This research critique has devised an improved marine predator algorithm based on opposition learning for stable feature selection to overcome the problem of high-dimensionality. Marine predator algorithm is a population-based meta-heuristics optimization algorithm that works on the ‘survival-of-the-fittest’ theory. Classical marine predator algorithm explores the search space merely in one direction, affecting its converging capacity while being responsible for stagnation at local minima. The proposed opposition-based learning nuances enhance the exploration capacity of marine predator algorithm and productively converges the model to global optima. The proposed OBL-based marine predator algorithm selects stable, substantial elements from six different high-dimensional microarray datasets. The performance of the proposed method is investigated using five predominantly used classifiers. From the result, it is understood that the proposed approach outperforms other conventional feature selection techniques in terms of converging capability, classification accuracy, and stable feature selection.  相似文献   

15.
Features selection is the process of choosing the relevant subset of features from the high-dimensional dataset to enhance the performance of the classifier. Much research has been carried out in the present world for the process of feature selection. Algorithms such as Naïve Bayes (NB), decision tree, and genetic algorithm are applied to the high-dimensional dataset to select the relevant features and also to increase the computational speed. The proposed model presents a solution for selection of features using ensemble classifier algorithms. The proposed algorithm is the combination of minimum redundancy and maximum relevance (mRMR) and forest optimization algorithm (FOA). Ensemble-based algorithms such as support vector machine (SVM), K-nearest neighbor (KNN), and NB is further used to enhance the performance of the classifier algorithm. The mRMR-FOA is used to select the relevant features from the various datasets and 21% to 24% improvement is recorded in the feature selection. The ensemble classifier algorithms further improves the performance of the algorithm and provides accuracy of 96%.  相似文献   

16.
邱保志  唐雅敏 《计算机应用》2017,37(12):3482-3486
针对如何快速寻找密度骨架、提高高维数据聚类准确性的问题,提出一种快速识别高密度骨架的聚类(ECLUB)算法。首先,在定义了对象局部密度的基础上,根据互k近邻一致性及近邻点局部密度关系,快速识别出高密度骨架;然后,对未分配的低密度点依据邻近关系进行划分,得到最终聚类。人工合成数据集及真实数据集上的实验验证了所提算法的有效性,在Olivetti Face数据集上的聚类结果显示,ECLUB算法的调整兰德系数(ARI)和归一化互信息(NMI)分别为0.8779和0.9622。与经典的基于密度的聚类算法(DBSCAN)、密度中心聚类算法(CFDP)以及密度骨架聚类算法(CLUB)相比,所提ECLUB算法效率更高,且对于高维数据聚类准确率更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号