首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生成多个不同的PU训练集,并以其训练扩展后的POSC4.5算法,构造多棵决策树;在分类阶段,采用多数投票策略集成各决策树输出。在UCI数据集上的实验结果表明,该算法的分类性能优于偏置支持向量机算法、POS4.5算法和基于装袋技术的POSC4.5算法。  相似文献   

2.
不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间及概率分布函数的概念,提出了一种能处理连续属性的不确定数据PU学习的决策树算法DTU-PU(Decision Tree for Uncertain data with PU-learning)。在UCI数据集上的实验表明,DTU-PU具有较好的分类准确率和健壮性。  相似文献   

3.
为了克服偏标记学习中监督信息缺失的问题,根据偏标记样本的性质设计决策树生成过程中的样本分裂规则,改造决策树的建立算法.文中算法首先对样本进行bootstrap采样并建立多棵决策树,然后对各决策树结果进行投票得出最终预测结果.在人工数据集和真实数据集上的实验表明,文中算法具有较好的分类性能.  相似文献   

4.
uPOSC4.5:一种针对不确定数据的PU学习决策树算法   总被引:1,自引:0,他引:1  
目前绝大多数在PU学习场景下的学习算法都只能处理确定数据,然而在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域,数据的不确定性是普遍存在的.基于针对精确数据的PU学习算法POSC4. 5,提出了PU概率信息增益,并在此基础上提出了一种能在PU学习场景下学习不确定数据的决策树算法uPOSC4. 5(Uncertain POSC4. 5).在UCI数据集上的实验表明,uPOSC4. 5具有较好的分类准确率和健壮性,且其分类性能优于aUPNB.  相似文献   

5.
基于分类的链接预测方法中,由于链接未知节点对的大规模性与不确定性,选择可靠负例成为构造链接预测分类器的难点问题.为此,文中提出基于正例和无标识样本(PU)学习的链接预测方法.首先,提取节点对的拓扑信息以构造样本集.再利用社区结构确定候选负例的分布,基于分布进行多次欠采样,获得多个候选负例子集,集成多个负例集与正例集中构建的分类器选择可靠负例.最后基于正例与可靠负例构造链接预测分类器.在4个网络数据集上的实验表明文中方法预测结果较优.  相似文献   

6.
一种多变量决策树的构造与研究   总被引:3,自引:0,他引:3       下载免费PDF全文
单变量决策树算法造成树的规模庞大、规则复杂、不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法(RD)。在UCI上部分数据集的实验结果表明,提出的多变量决策树算法的分类效果与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。  相似文献   

7.
针对C4.5决策树算法在构造决策树时只考虑属性对类的影响,忽视了属性间相互影响的问题。提出一种改进的决策树算法DTEAT(Decision Tree with Elimination of Attribute Dependency),该算法通过计算属性间的信息增益率来量化属性间相互影响的程度(依赖度)。在构造决策树的过程中,计算待分裂属性与其他每个属性的依赖度,将其均值作为选择分裂属性时的主要度量标准之一,从而消除属性间的依赖。实验结果表明,改进后的算法在UCI的样本数据集上的分类准确率有了显著的提升,最高提升了7个百分点。  相似文献   

8.
针对增量数据集,结合粗糙集理论和多变量决策树的优点,给出了增量式的多变量决策树构造算法。该算法针对新增样本与已有规则集产生矛盾,即条件属性相匹配,而决策属性不匹配的情况,计算条件属性相对于决策属性的核,如果核不为空,则计算核相对于决策属性的相对泛化,根据不同的结果形成不同的子集,最终形成不同的决策树分支。该算法很好地避免了在处理增量数据集时,不断重构决策树。实例证明该算法的正确性,对处理小增量数据集具有良好的性能。  相似文献   

9.
针对增量数据集,结合粗糙集理论和多变量决策树的优点,给出了增量式的多变量决策树构造算法.该算法针对新增样本与已有规则集产生矛盾,即条件属性相匹配,而决策属性不匹配的情况,计算条件属性相对于决策属性的核,如果核不为空,则计算核相对于决策属性的相对泛化,根据不同的结果形成不同的子集,最终形成不同的决策树分支.该算法很好地避免了在处理增量数据集时,不断重构决策树.实例证明该算法的正确性,对处理小增量数据集具有良好的性能.  相似文献   

10.
PU文本分类(以正例和未标识实例集训练分类器的分类方法)关键在于从U(未标识实例)集中提取尽可能多的可靠反例,然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器,而已有的方法可靠反例的数量少或不可靠,同样构造的分类器也精度不高,基于SVM主动学习技术的PU文本分类算法提出一种利用SVM与改进的Rocchio分类器进行主动学习的PU文本分类方法,并通过spy技术来提高SVM分类器的准确度,解决某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题。实验表明,该方法比目前其它的主动学习方法及面向PU的文本分类方法具有更高的准确率和召回率。  相似文献   

11.
陈航  梁春泉  王紫  赵航 《计算机应用研究》2022,39(6):1694-1699+1748
针对现有正例未标注图学习方法仅提取节点表征信息、独立推断节点类别的问题,提出了一种基于协作推断分类算法,利用节点之间关联信息来帮助推断未标注节点的标签。首先,采用个性化网页排位算法计算每个节点与全体已知正例节点的关联度。其次,采用一个图神经网络学习节点表征信息,与正例关联度联合构造一个局部分类器,预测未标注节点标签;采用另一个图神经网络获取局部节点标签之间依赖关系,与正例关联度联合构造一个关系分类器,协作更新未标注节点标签。然后,借鉴马尔可夫图神经网络方法交替迭代地训练两者,形成多跳步节点标签之间的协作推断;并且,为有效利用正例与未标注节点训练分类器,提出了混合非负无偏风险评估函数。最后,选择两者中任意一个,预测未标注节点的类别。在真实数据集上的实验结果表明,无论是识别单类别正例还是识别多类别合成正例,所述算法均表现出比其他正例未标注学习方法更佳效果,且对正例先验概率误差表现出更好的鲁棒性。  相似文献   

12.
王艳  侯哲  黄滟鸿  史建琦  张格林 《软件学报》2022,33(7):2482-2498
如今,越来越多的社会决策借助机器学习模型给出,包括法律决策、财政决策等等.对于这些决策,算法的公平性是极为重要的.事实上,在这些环境中引入机器学习的目的之一,就是为了规避或减少人类在决策过程中存在的偏见.然而,数据集常常包含敏感特征,或可能存在历史性偏差,会使得机器学习算法产生带有偏见的模型.由于特征选择对基于树的模型具有重要性,它们容易受到敏感属性的影响.提出一种基于概率模型检查的方法,以形式化验证决策树和树集成模型的公平性.将公平性问题转换为概率验证问题,为算法模型构建PCSP#模型,并使用PAT模型检查工具求解,以不同定义的公平性度量衡量模型公平性.基于该方法开发了FairVerify工具,并在多个基于不同数据集和复合敏感属性的分类器上验证了不同的公平性度量,展现了较好的性能.与现有的基于分布的验证器相比,该方法具有更高的可扩展性和鲁棒性.  相似文献   

13.
师彦文  王宏杰 《计算机科学》2017,44(Z11):98-101
针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。  相似文献   

14.
郭冰楠  吴广潮 《计算机应用》2019,39(10):2888-2892
在网络贷款用户数据集中,贷款成功和贷款失败的用户数量存在着严重的不平衡,传统的机器学习算法在解决该类问题时注重整体分类正确率,导致贷款成功用户的预测精度较低。针对此问题,在代价敏感决策树敏感函数的计算中加入类分布,以减弱正负样本数量对误分类代价的影响,构建改进的代价敏感决策树;以该决策树作为基分类器并以分类准确度作为衡量标准选择表现较好的基分类器,将它们与最后阶段生成的分类器集成得到最终的分类器。实验结果表明,与已有的常用于解决此类问题的算法(如MetaCost算法、代价敏感决策树、AdaCost算法等)相比,改进的代价敏感决策树对网络贷款用户分类可以降低总体的误分类错误率,具有更强的泛化能力。  相似文献   

15.
针对目前主流恶意网页检测技术耗费资源多、检测周期长和分类效果低等问题,提出一种基于Stacking的恶意网页集成检测方法,将异质分类器集成的方法应用在恶意网页检测识别领域。通过对网页特征提取分析相关因素和分类集成学习来得到检测模型,其中初级分类器分别使用K近邻(KNN)算法、逻辑回归算法和决策树算法建立,而次级的元分类器由支持向量机(SVM)算法建立。与传统恶意网页检测手段相比,此方法在资源消耗少、速度快的情况下使识别准确率提高了0.7%,获得了98.12%的高准确率。实验结果表明,所提方法构造的检测模型可高效准确地对恶意网页进行识别。  相似文献   

16.
基于属性组合的集成学习算法   总被引:2,自引:0,他引:2  
针对样本由数字属性构成的分类问题,在AdaBoost算法流程基础上,改传统的基于单属性分类器构造方法为基于组合属性分类器构造方法,提出了一种基于样本属性线性组合的集成学习算法。对属性组合系数的构造,提出了一般性的构造思路,按照该思路,提出了几种具体的组合系数构造方法,并对构造方法的科学合理性进行了分析。利用UCI机器学习数据集中的数据对提出的方法进行了实验与分析,结果表明,基于属性组合的集成学习算法不仅有是有效的,而且比传统AdaBoost算法好  相似文献   

17.
王利民  姜汉民 《控制与决策》2019,34(6):1234-1240
经典K阶贝叶斯分类模型(KDB)进行属性排序时,仅考虑类变量与决策属性间的直接相关,而忽略以决策属性为条件二者之间的条件相关.针对以上问题,在KDB结构的基础上,以充分表达属性间的依赖信息为原则,强化属性间的依赖关系,提升决策属性对分类的决策表达,利用类变量与决策属性间的条件互信息优化属性次序,融合属性约简策略剔除冗余属性,降低模型结构复杂带来的过拟合风险,根据贪婪搜索策略选择最优属性并构建模型结构.在UCI机器学习数据库中数据集的实验结果表明,该模型相比于KDB而言,具有更好的分类精度和突出的鲁棒性.  相似文献   

18.
混合型学习模型HLM中的增量学习算法   总被引:4,自引:0,他引:4  
混合型学习模型HLM将概念获取算法HMCAP和神经网络算法FTART有机结合,能学习多概念和连续属性,其增量学习算法建立在二叉混合判定树结构和FTART网络的基础上,在给系统增加新的实例时,只需进行一遍增量学习调整原结构,不用重新生成判定树和神经网络,即可提高学习精度,速度快、效率高.本文主要介绍该模型中的增量学习算法.  相似文献   

19.
针对数据集中无关的、干扰的属性会降低决策树算法性能的问题,提出了一个新的决策树算法,此算法根据对测试属性进行约简选择,提出以测试属性和决策属性的相似性作为决策树的启发规则来构建决策树,同时使用了分类阈值设定方法简化决策树的生成过程.实验证明,该算法运行效率和预测精度都优于传统的ID3算法.  相似文献   

20.
针对数据集中无关的、干扰的属性会降低决策树算法性能的问题,提出了一个新的决策树算法,此算法根据对测试属性进行约简选择,提出以测试属性和决策属性的相似性作为决策树的启发规则来构建决策树,同时使用了分类阈值设定方法简化决策树的生成过程。实验证明,该算法运行效率和预测精度都优于传统的ID3算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号