首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 218 毫秒
1.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

2.
基于有监督的虚假评论检测方法受限于标注语料的规模,为了更好地利用未标注评论数据来提高分类器的正确率和泛化能力,本文提出一种基于半监督主动学习的虚假评论检测方法.首先,定义并提取评论内容特征以及评论者行为特征,结合这两类特征来对虚假评论进行检测.然后,采用基于熵的主动学习算法选择对学习最有帮助的评论样本,获得其类别标注,将其合并到基于Tri-training的半监督学习算法的训练集中,利用大量未标注评论数据进行学习,提升分类器性能.最后,在领域评论数据集上进行实验,结果表明,将半监督学习与主动学习相结合,能够更有效的利用未标注评论数据,从而有效地提高虚假评论检测的效果.  相似文献   

3.
协同过滤是目前最为成功的推荐技术之一,但它只利用了评分数据,忽视了大量可以利用的用户评论。针对该问题提出了一种基于概率图的深度神经网络推荐模型,即共享表示模型(Shared representation model,SRM),并在SRM的基础上提出一种基于多任务学习思想的改进模型,即隐因子共同学习模型(Joint learning model with latent factor,LF-JLM)。LF-JLM结合了基于矩阵分解的隐因子推荐算法和doc2vec语言模型,它在doc2vec和隐因子模型的映射层使用共享的用户、商品、评论文档的向量表示,因此能够学习到具有跨任务不变性的底层特征。在Amazon数据集上对提出的两种模型与作为基线的隐因子模型和HFT模型进行了对比实验,实验结果表明:LF-JLM能够有效地抽取出评论中隐含的语义信息;与隐因子模型和HFT模型相比,该算法评分预测的均方误差分别减小了7.85%和1.19%。  相似文献   

4.
针对现有的大多数数据流集成分类算法对分类器的评估时未考虑历史数据的重要性,同时忽略对无关属性和噪声属性干扰的处理等问题,提出一种基于深度属性加权的数据流自适应集成分类算法,旨在有效组合多个基于深度属性加权的朴素贝叶斯模型。通过在不同数据块中深入分析不同属性取值对类属性归属的贡献,并将学习到的局部属性权重作用于不同的属性取值,以降低噪声数据干扰。在评价基分类器时,权衡历史数据和当前最新数据的重要性;采用基于测试实例的分类器置信度和分类正确率权重的组合投票策略进行子分类器组合以提高整体分类性能。通过在多个基准数据集上与经典算法对比试验,本研究算法在分类正确率和概念漂移适应性上具有一定优势。  相似文献   

5.
随着社交媒体的不断发展,用户评价已成为网络决策的关键因素.为了准确分析社交媒体用户评价的情感倾向性,更好地推进舆情分析、推荐算法等工作,本文通过对Bi-LSTM模型和Bagging算法的改进,提出了一种新的情感分析模型—Bi-LSTMM-B模型.该模型的特点在于将深度学习模型可提取抽象特征的优势和集成学习多分类器共同决策的思想相结合.一方面在Bi-LSTM模型的基础上引入Maxout神经元,构建Bi-LSTMM模型,解决随机梯度下降算法中存在的梯度弥散问题,更好地优化训练过程.另一方面,模型基于Bagging算法训练多个情感分类器,根据分类器性能优劣利用袋外数据为每个分类器分配指定类别的权重,并提出相应的改进投票策略,增强了模型的泛化能力.实验结果表明:本文提出的Bi-LSTMM-B模型相比于传统的LSTM模型准确率提高12.08%,其中Maxout神经元的引入对情感分析准确率有8.28%的相对改善效果,改进后的投票策略对准确率有4.06%的相对改善效果,并在召回率和F值两项指标上均优于其他对比模型.由此证明,深度学习模型和集成学习思想相结合可提高情感分析的准确率,并具有一定的研究价值.  相似文献   

6.
基于选择性集成分类器的通用隐写分析   总被引:2,自引:0,他引:2  
面对高维度的特征集和大规模的样本集,隐写分析技术对分类器的要求越来越高.在集成分类器的基础上提出了一种面向通用隐写分析的选择性集成分类器.首先基于随机森林生成若干个基分类器,然后利用基于遗传算法的选择性集成算法剔除掉个别影响整体性能的基分类器,最后根据遗传优化得到的最优权值向量赋予剩余的基分类器不同权值以用来加权投票集成.实验表明,提出的选择性集成分类器测试性能优于现有分类器,特别在基分类器数量较大、特征维数较高时与现有集成分类器相比,有效降低了检测错误率.  相似文献   

7.
为了增强集成系统中各分类器之间的差异性,提出了一种使用旋转森林策略集成两种不同模型分类器的方法,即异构多分类器集成学习算法.首先采用旋转森林对原始样本集进行变换划分,获得新的样本集;然后通过特定比例选择分类精度高的支撑矢量机或分类速度较快的核匹配追踪作为基本的集成个体分类器,并对新样本集进行分类,获得其预测标记;最后结合两种模型下的预测标记.该算法通过结合两种不同分类器模型,实现了精度和速度互补,将二者混合集成后改善了集成系统泛化误差,相比单个模型集成提高了系统分类性能.对UCI数据集和遥感图像数据集的仿真实验结果表明,文中算法相比单一分类器集成缩短了运行时间,同时提高了系统的分类准确率.  相似文献   

8.
针对射线检测焊缝图像中缺陷识别正确率低的问题,提出一种选择性集成学习的焊接缺陷识别算法.算法中的个体学习器由稳定分类器和非稳定分类器组成,使用SVM-RFE算法移除集成学习器中的冗余个体学习器,保留子学习器预测输出加权作为集成学习器的输出,有效地增强了个体之间的差异性,进而提高了集成的泛化性能.结果表明:该算法充分利用更多的缺陷特征和样本数据集信息,继承了强集成学习的优点,有效地提高分类正确率.使用一对多的方法把二分类选择性集成学习器推广到多分类问题中,所提出的算法在训练精度为92.4%时;焊缝缺陷识别率提高到85.5%.  相似文献   

9.
基于云计算平台的代价敏感集成学习算法研究   总被引:1,自引:1,他引:0  
针对现实生活中大规模不平衡数据的分类问题,设计了一种基于云计算平台的代价敏感集成学习分类算法。Hadoop云计算平台对海量数据进行划分用于并行学习,同时结合代价敏感的思想对学习得到的基分类器进行加权集成,实现了云计算平台上的代价敏感集成学习分类模型。仿真实验表明该模型能够明显提高少数类的查全率,同时Hadoop的并行机制使得云平台坏境下的集成学习时间较集中式环境有大幅度的缩减,进一步提高了大规模不平衡数据分类问题的学习效率。  相似文献   

10.
在多标签新闻分类问题中,针对传统分类器链算法难以确定标签依赖顺序、集成模型运行效率低和无法应用复杂模型作为基分类器的问题,提出基于深度神经网络的双向分类器链算法. 该方法利用正向分类器链获取每个标签和前面所有标签的依赖关系,引入逆向分类器链,从正向链最后一个基分类器的输出开始反向学习每个标签和所有其他标签的相关性. 为了提取非线性标签相关性和提高预测性能,使用深度神经网络作为基分类器. 结合2条分类器链的均方误差,使用随机梯度下降算法对目标函数进行有效优化. 在多标签新闻分类数据集RCV1-v2上,将所提算法与当前主流的分类器链算法和其他多标签分类算法进行对比和分析. 实验结果表明,利用深度双向分类器链算法能够有效提升预测性能.  相似文献   

11.
为提高半监督分类的性能,提出一种安全的基于分歧的半监督分类算法Safe Co-SSC。通过有标记样本训练3个有监督分类器,利用无标记样本的信息增加分类器的差异性,采取3个分类器加权投票的策略实现对无标记样本的伪标记;对伪标记样本进行二次验证,选用能使分类器误差减小的新增标记样本扩充标记样本集。保证新样本的添加既减小了分类器的分类误差,又提高了分类器的分歧性。对UCI数据集进行分类实验的结果表明,该算法具有较高的分类率和样本标记率。    相似文献   

12.
根据元路径和可交换矩阵,结合节点一阶和二阶相似性得到最后的传播概率矩阵;利用降噪自动编码器对传播概率矩阵进行降维得到异构信息网络的节点表示;将异构信息网络的节点表示用梯度提升树(GBDT)分类,得到不同百分比训练集下的分类准确率,用聚类指标标准化互信息(NMI)评价聚类效果,用T-SNE展现可视化效果. 在数据集DBLP和AMiner上分别进行实验,相比DeepWalk、node2vec和metapath2vec方法,在应用任务节点分类上,所提出的基于传播概率矩阵的异构信息网络表示学习(HINtpm)的准确率与DeepWalk相比最高提升了24%,聚类指标NMI与DeepWalk相比最高提升了13%.  相似文献   

13.
无人值守变电站监控视频异常模式识别方法   总被引:2,自引:0,他引:2  
为提高变电站视频监控的智能化水平,提出了一种识别无人值守变电站环境监控视频中异常模式的方法.对变电站环境监控中的运动目标进行分类(涉及到人、动物、普通火焰(红黄颜色火焰)、白色火焰、白炽灯),提取多种特征,基于混淆矩阵产生层次化分类器结构,以支持向量机(SVM)作为基本的两类分类器,对于分类精度不理想的SVM,通过Ad...  相似文献   

14.
局部密度嵌入的结构单类支持向量机   总被引:1,自引:1,他引:0  
针对现有单类分类器对目标数据先验信息考虑的不足,在结构单类支持向量机(structured one-class support vector machine,SOCSVM)中嵌入局部密度信息,提出局部密度嵌入的结构单类支持向量机(SOCSVM with local density embedding ldSOCSVM)。借助K近邻(K-nearest neighbor, KNN)揭示目标数据局部密度,并进一步诱导出权重因子作用于样本点。该算法充分利用目标数据的全局信息及局部密度信息,从而提高分类器的泛化能力。UCI数据集上的实验结果验证了ldSOCSVM的有效性。  相似文献   

15.
针对传统分类方法的局限性,提出了一种深度学习结合知识挖掘的零样本图像自适应控制图像分类算法.利用对图像属性的深度学习来实现图像深层次特征及属性的学习和预测,基于图像的属性-类别映射使分类器性能有较大差异,通过稀疏表示模型挖掘图像类别和属性之间的关系并设计自适应控制的属性分类器实现对图像的分类操作.结果表明,与DBN和SVM算法相比,在监督模式和零样本模式下,该算法具有较高的属性预测准确度.在零样本情况下对Shoes数据集进行分类时,该算法具有最高的准确分类识别率,比其他算法的分类识别率提高了15%.  相似文献   

16.
入侵检测对于网络安全至关重要,不平衡或易混淆的训练样本往往导致传统入侵检测算法效率不佳。为此,提出一种小样本纠错的多层检测分类模型。首先,通过正交投影降维分类算法,使用入侵检测数据集的训练集构建第一层的初筛分类器,将待测样本粗分为三类;然后基于支持向量机及随机森林算法构造第二层和第三层的级联分类器组,每层逐步纠错前面层,并细分至五类;最后,用开源入侵检测评测数据集NSL-KDD进行实验。实验结果表明,本文的方法显著提高了对于拒绝服务攻击(Denial of Service,DoS)、探测攻击(Probe)、未经授权的远程访问(Remote to Local,R2L)类攻击样本的准确率,整体召回率及准确率优于同类研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号