共查询到19条相似文献,搜索用时 125 毫秒
1.
2.
入侵检测问题可以模型化为数据流分类问题,传统的数据流分类算法需要标注大量的训练样本,代价昂贵,降低了相关算法的实用性。在PU学习算法中,仅需标注部分正例样本就可以构造分类器。对此本文提出一种动态的集成PU学习数据流分类的入侵检测方法,只需要人工标注少量的正例样本,就可以构造数据流分类器。在人工数据集和真实数据集上的实验表明,该方法具有较好的分类性能,在处理偏斜数据流上优于三种PU 学习分类方法,并具有较高的入侵检测率。 相似文献
3.
4.
5.
李慧彦 《智能计算机与应用》2017,7(3)
研究并实现了基于Spark的KNN算法的并行构建.分析了MapReduce模型和Spark在处理迭代计算方面的优劣,结合KNN算法的自身特点设计了对应的Map算子和Reduce算子,实现了KNN算法的Spark并行化.实验结果表明,较传统的KNN串行算法和MapReduce并行KNN算法,基于Spark的并行KNN分类算法具有较好的效率和较高的可扩展性. 相似文献
6.
7.
现存的多维数据流典型相关分析(Canonical Correlation Analysis,简称CCA)算法主要是基于近似技术的求解方法,本质上并不是持续更新的精确算法.为了能在时变的环境中持续、快速而精确地跟踪数据流之间的相关性,本文提出一种多维数据流典型相关跟踪算法TCCA.该算法基于秩2更新理论,通过并行方式持续更新样本协方差矩阵的特征子空间,进而实现多维数据流典型相关的快速跟踪.理论分析及仿真实验结果表明,TCCA具有较好的稳定性、较高的计算效率和精度,可以作为基本工具应用于数据流相关性检测、特征融合、数据降维等数据流挖掘领域. 相似文献
8.
针对现有网络隐写分析算法特征提取难度大、算法适用范围单一的问题,文章提出了一种基于卷积神经网络的网络隐写分析方法。对网络数据流进行预处理,将所有数据包处理成大小相同的矩阵,最大限度地保留数据特征完整性;使用异构卷积进行特征提取,减少模型计算量及参数数量,加快模型收敛速度;取消池化层,提高模型训练效率。与传统网络隐写分析方法相比,模型能够自动提取数据特征,识别多种网络隐写算法。 相似文献
9.
10.
在数据流中挖掘频繁项集得到了广泛的研究,传统的研究方法大多关注于在数据流中挖掘全部频繁项集.由于挖掘全部频繁项集存在数据和模式冗余问题,所以对算法的时间和空间效率都具有更大的挑战性.因此,近年来人们开始关注在数据流中挖掘频繁闭项集,其中一个典型的工作就是Moment算法.本文提出了一种数据流中频繁闭项集的近似挖掘算法A-Moment.它采用衰减窗口机制、近似计数估计方法和分布式更新信息策略来解决Moment算法中过度依赖于窗口和执行效率低等问题.实验表明,该算法在保证挖掘精度的前提下,可以比Moment获得更好的效率. 相似文献
11.
该文提出一种新型的集成TSK模糊分类器(IK-D-TSK),首先通过并行学习的方式组织所有0阶TSK模糊子分类器,然后每个子分类器的输出被扩充到原始(验证)输入空间,最后通过提出的迭代模糊聚类算法(IFCM)作用在增强验证集上生成数据字典,从而利用KNN对测试数据进行快速预测。IK-D-TSK具有以下优点:在IK-D-TSK中,每个0阶TSK子分类器的输出被扩充到原始入空间,以并行方式打开原始(验证)输入空间中存在的流形结构,根据堆栈泛化原理,可以保证提高分类精度;和传统TSK模糊分类器相比,IK-D-TSK以并行方式训练所有的子分类器,因此运行速度可以得到有效保证;由于IK-D-TSK是在以IFCM & KNN所获得的数据字典的基础上进行分类的,因此具有强鲁棒性。理论和实验验证了模糊分类器IK-D-TSK具有较高的分类性能、强鲁棒性和高可解释性。 相似文献
12.
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据。针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的。并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性。 相似文献
13.
朴素贝叶斯分类算法由于其计算高效在生活中应用广泛。本文根据集成算法的差异性特征,聚类算法聚类点的选择方式的可变性,提出了基于K-medoids聚类技术的贝叶斯集成算法,朴素贝叶斯的泛化性能得到了提升。首先,通过样本集训练出多个朴素贝叶斯基分类器模型;然后,为了增大基分类器之间的差异性,利用K-medoids算法对基分类器在验证集上的预测结果进行聚类;最后,从每个聚类簇中选择泛化性能最佳的基分类器进行集成学习,最终结果由简单投票法得出。将该算法应用于UCI数据集,并与其他类似算法进行比较可得,本文提出的基于K-medoids聚类的贝叶斯集成算法(NBKME)提高了数据集的分类准确率。 相似文献
14.
The main challenges of data streams classification include infinite length, concept-drifting, arrival of novel classes and lack of labeled instances. Most existing techniques address only some of them and ignore others. So an ensemble classification model based on decision-feedback(ECM-BDF) is presented in this paper to address all these challenges. Firstly, a data stream is divided into sequential chunks and a classification model is trained from each labeled data chunk. To address the infinite length and concept-drifting problem, a fixed number of such models constitute an ensemble model E and subsequent labeled chunks are used to update E. To deal with the appearance of novel classes and limited labeled instances problem, the model incorporates a novel class detection mechanism to detect the arrival of a novel class without training E with labeled instances of that class. Meanwhile, unsupervised models are trained from unlabeled instances to provide useful constraints for E. An extended ensemble model Ex can be acquired with the constraints as feedback information, and then unlabeled instances can be classified more accurately by satisfying the maximum consensus of Ex. Experimental results demonstrate that the proposed ECM-BDF outperforms traditional techniques in classifying data streams with limited labeled data. 相似文献
15.
为了高效、快速地解决呈指数增长的数据处理问题,提高数据储存、运算能力,文中提出了基于云计算的数据挖掘系统的设计。该系统首先分析了主流云计算平台Spark的组件构成和运行机制,深入研究其计算架构的编程原理。同时利用Spark进行了C4.5算法和K-medoids聚类算法的并行化设计,有效提高算法的运行速度、收敛速度和结果的稳定性。测试表明,在进行海量数据的分析处理时,文中提出的云计算平台在分类误差内,可有效提高整体系统的运算速度,分类效率也大幅提高。 相似文献
16.
提出了一种基于非线性核空间映射人工免疫网络的高光谱遥感图像分类算法.根据生物免疫网络基本原理构建了人工免疫网络模型,利用非线性核函数将高光谱训练样本映射到高维空间,完善了人工免疫网络中目标样本核空间相似性分选方法,降低了人工免疫网络识别样本所需的抗体数量,提升了算法的分类精度和运算效率.为了验证算法的有效性,利用两组高光谱遥感数据将多种高光谱分类方法进行了对比实验.实验表明该算法分类精度和算法运算时间上都有较大改善,是一种分类精度更高、运算速度更快的改进型基于人工免疫网络的高光谱遥感图像分类新方法. 相似文献
17.
全极化合成孔径雷达(PolSAR)图像蕴含更丰富的散射信息,具有更多的可用特征。如何使用这些特征是极化SAR图像分类中非常重要的一步,但是目前尚未对此提出非常明确的准则。为了能够有效地解决上述问题,该文提出一种基于特征加权集成的极化SAR图像分类算法。该算法采用0-1矩阵分解集成方法对包括不同特征的数据集进行学习获得相应加权系数,并通过对每个特征集获得的预测结果进行加权集成来提高极化SAR图像分类性能。首先,输入极化SAR数据,获得极化特征作为原始特征集,并对其进行随机抽取获得不同的特征子集;然后,使用0-1矩阵集成算法得到每个特征值相对应的加权系数;最后,通过对各个特征子集的预测结果进行集成得到最终极化SAR图像分类结果。实测L波段和C波段极化数据的实验结果表明,该算法可以有效地提高极化SAR图像分类的准确度。 相似文献
18.