首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 530 毫秒
1.
分类是一种重要的数据挖掘技术,其目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的某一个。通过介绍I-Miner下的数据挖掘实验方法,并利用S语言做成的脚本,实现了在I-Miner中没有实现的算法,主要介绍S语言实现分类算法中的K-最邻近算法,通过对不同数据集的实验,验证了K-最邻近算法的特性,并以此为今后改进算法做好基础。  相似文献   

2.
聚类分析是数据挖掘中的核心技术,利用相关的可视化方法显示聚类结果,将数据分布以直观、形象的图形方式呈现给决策者,使得决策者可以直观地分析数据。I-Miner是一个企业级的数据挖掘工具,利用I-Miner软件进行聚类分析,并用多种方法将聚类结果可视化。通过S语言拓展软件功能,编程实现了K-Medoid算法、SOM算法、SOM与K-Medoids结合的聚类组合算法,尤其是在高维数据的可视化上,实现了星图法和SOM之U矩阵法,弥补软件中聚类和可视化模块较少的不足。  相似文献   

3.
数据挖掘是当今数据库系统研究和应用领域中的热点问题.聚类是数据挖掘中的核心问题.I-Miner是一个企业级的数据挖掘工具,利用I-Miner软件进行聚类分析,将聚类结果呈现丰富的可视化效果,通过S语言拓展软件功能,解决应用的特殊需求.  相似文献   

4.
分类在数据挖掘中是一项非常重要的任务.分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个,从而用于数据分类或预测.决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型.主要研究了数据挖掘中的一种基于决策树的分类算法,以及在公交系统数据预测中的应用.在此基础上进一步讨论了ID3算法存在的一些问题并给出了解决方案和实现过程.其研究结果对开发交通规划决策支持系统具有重要的参考价值.  相似文献   

5.
侯天子  朱焱 《软件》2011,(11):25-28,31
在数据挖掘过程中,有很多挖掘算法试图使离群点的影响最小化,甚至是排除它们,然而这样可能丢失一些重要的信息。如今,在欺诈检测、网络入侵检测、故障诊断等问题中,离群点挖掘得到了越来越多的应用,离群点的发掘成为一个热门研究问题。I-Miner是一个企业级的数据挖掘工具,在本文中利用I-Miner软件对数据进行预处理,并用通过S语言拓展软件功能,编写了3种离群点算法并使用多个数据测试,对结果进行分析和对比研究。  相似文献   

6.
K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类.为此,提出一种加权KNN算法GAK-KNN.定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类.基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法.  相似文献   

7.
使用KNN算法的文本分类   总被引:32,自引:2,他引:30  
张宁  贾自艳  史忠植 《计算机工程》2005,31(8):171-172,185
介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。  相似文献   

8.
基于机器学习的文本分类是近年来发展迅速并受广泛关注的数据挖掘技术.该文介绍了几种重要的文本分类方法例如贝叶斯、K最邻近和支持向量机.根据不同方法在不同数据分布状况的中文数据集上的分类表现,对比分析各方法的性能和优缺点.  相似文献   

9.
近年来,随着大数据分析需求的急剧增长,分类算法的运用也越来越广泛,如何为用户选择适用的分类算法成为数据挖掘技术在应用上亟待解决的难题。相关研究表明,同一算法在相似数据集上具有相近的分类效果。根据这一理论,构建基于数据集相似性的分类算法选择模型。首先采用数据集离散化方法来对数据集进行特征提取,构建样本库,然后结合邻近相似的原则为数据集推荐合适的分类算法。通过UCI数据集上的算法实验,结果表明大多数情况下推荐得到的分类算法具有良好的性能。  相似文献   

10.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号