首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
文章针对传统K-近邻分类方法学习效率低下的问题,提出一种基于并行计算的加速K-近邻分类方法(K-nearest neighbor classification method based on parallel computing,PKNN),即并行K-近邻分类.该方法首先将所需要分类的样本划分为不同的工作子集,然后在每个子集上进行并行的K-近邻分类.由于划分后每个工作子集的规模均远小于整个数据集的规模,因此降低了分类算法的复杂度,可有效处理大规模数据的分类问题.实验结果表明,PK-NN方法能提高分类效率.  相似文献   

2.
提出了一种网络信息文本分类模型的建立方法。根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型。分别进行了基于最近邻决策和K-邻近决策的分类效果试验研究,结果显示:K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

3.
提出了一种网络信息文本分类模型的建立方法,根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型,分别进行了基于最近邻决策和K-近邻决策的分类效果试验研究,结果显示,K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

4.
随着大数据在教育中的作用日益凸显,大量的数据被应用到教学研究、教学评估和行为预测.学生的成绩、行为记录、与老师的互动记录等教育数据,都已经开始发挥价值.为了解决课程的低通过率问题,将改进的K-近邻算法应用到学习预警中,首先利用网格搜索和交叉验证相结合的方法对模型参数进行优选,其次在构建决策树过程中,利用基尼增益确定特征的权重系数并且根据权重系数进行特征选择,在计算距离时引入权重系数,使每个特征收到权重系数的约束.实验表明,在一个公开的数据集和一个真实的数据集上,改进后的K-近邻算法显著优于传统的K-NN.  相似文献   

5.
应用主分量分析法和K-近邻法对基因芯片(微阵列)数据进行分析.主分量分析法是一种提取海量数据有效特征的有效方法 ,可以获得与原来基因芯片数据更为接近的成分的提取特征的效果.实验结果 表明,用主分量分析法预先对数据处理可以提高基因芯片数据分析的准确性.  相似文献   

6.
随着全球信息化的出现,手工分类索引已经不适用于大规模信息的处理,自动分类的研究得到迅速发展。K-近邻法是具有一定效率的自动分类算法。本文将其与智能优化技术结合,用于基于机器学习的文本分类过程中。实验结果表明,对于庞大的文档集合分类,该算法提高了分类的速度和精度。  相似文献   

7.
K-邻近算法作为一种比较简单,易于实现并且错误低的分类算法,广泛应用于网页分类、模式识别和数据挖掘等多个领域中.本文介绍了传统K-邻近算法并分析了该算法在网页相似度值的计算存在的不足,在此基础上,本文提出了基于类中心向量的K-近邻算法,通过理论分析和仿真实验结果证明了该算法对于中文网页分类具有较好的分类效果.  相似文献   

8.
文章提出一种融合互近邻和可信度的K近邻算法,根据互近邻的概念删除噪声数据;利用由近邻诱导待分类样本标签的可信度,避免待分类样本近邻中大类吃小类的概率。该算法不仅可以减小噪声数据对分类的影响,而且一定程度上增强了K近邻分类算法的稳定性。该算法在UCI标准数据集上进行了测试,性能相当或优于其他分类器。  相似文献   

9.
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.  相似文献   

10.
提出了一种基于Map Reduce模型的Apriori改进算法,该算法利用Map Reduce模型分布式处理海量的输入数据,结合Apriori算法,得到局部频繁项集,通过聚合处理得到全局频繁项集.实验证明,该算法是有效的.  相似文献   

11.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

12.
Hadoop平台下MapReduce模型的数据分配策略研究   总被引:1,自引:0,他引:1  
针对Hadoop开源云计算平台下MapReduce并行编程模型中间数据分配不均衡的问题,提出基于抽样的改进型MapReduce模型,即SMR(Sample MapReduce)模型.SMR模型采用MapReduce作业方式对各分块数据集进行并行抽样,基于抽样结果,利用LAB(leen and balance)均衡算法对Map端输出的中间数据进行均衡分配,以改善Reduce端处理数据负载不均衡问题.实验结果表明:改进型MapReduce模型可以有效减少作业运行时间,Reduce端输入数据达到负载均衡.  相似文献   

13.
交通流大数据中的套牌车并行检测算法   总被引:3,自引:0,他引:3  
传统的套牌车识别算法通过串行工作方式在网格化城市交通监控系统所产生的大规模数据中进行两两比对实现套牌车检测,因此在处理海量数据时存在性能瓶颈问题.提出了一种新的基于Hadoop的MapReduce算法模型,该算法具有并行特征,通过引入多台硬件计算资源协同处理大规模数据下的套牌车检测问题,显著提高了计算性能.同时,采用基于动态旅行时间实时的时空窗口计算技术,能进一步提高算法的检测速度和识别精度.  相似文献   

14.
根据K近邻、共享K近邻和互K近邻三种近邻算法的思想分别构造复杂网络,然后通过复杂网络的社团发现算法来实现对样本的聚类.最后,将三种方法分别在人工构造的非凸类簇数据集和UCI数据集上进行仿真实验,结果表明三种方法都是可行的,且互K近邻网络聚类方法还具有识别一定数量孤立点功能.  相似文献   

15.
目的对不同的点云数据,根据有点区域占空间包围盒的比率的不同,对栅格划分最优边长进行估算。方法在分析已有栅格边长估算方法的基础上,提出基于有点区域的二次分割算法来估算最优边长。结果给出了算法的步骤,并将该算法应用于不同的点云数据进行邻域搜索。结论与单次划分的边长相比,新算法的边长估算更加合理、计算效率更高。  相似文献   

16.
针对标准DAAM算法可能产生网络深度折回问题及父节点可分配的地址空间分布不均,提出一种基于两跳邻居的ZigBee网络借地址分配算法。通过控制子节点发送地址请求信息的监测范围设为两跳通信距离内的邻居节点,并改进实时路由,实现优化网络拓扑结构,减少孤立节点。理论和仿真分析表明改进算法在地址分配成功率,地址分配平均耗时等方面优于DAAM算法。  相似文献   

17.
针对动态心电图波形数据量大且具有明显个体差异性的特点,提出了一种改进的K近邻分类算法,用于动态心电图波形分类.该算法首先将实例间的度量改为曼哈顿距离(City Block Distance),然后引入高斯核函数,将K近邻算法改进为非线性分类算法,以达到分类动态心电图波形的目的.实验结果表明,该算法在对动态心电图波形进行分类时,分类精度在90%以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号