首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 187 毫秒
1.
关联规则发现中的聚类方法   总被引:2,自引:0,他引:2  
算法MARC(Mining Association Rules using Clustering)将聚类技术应用到关联规则的发现上,MARC利用聚类技术压缩交易数据库,从而减少开采算法需要处理的数据量以提高开采效率,同时算法提出了聚类汇总转换的概念用以减轻压缩数据带来的信息丢失.在几个实际数据集上的实验表明该算法可以达到高精度和高性能.  相似文献   

2.
一种改进的密度偏差抽样算法   总被引:1,自引:0,他引:1  
张建锦  吴渝  刘小霞 《计算机应用》2007,27(7):1695-1698
随机抽样技术已经广泛应用于数据挖掘的各类算法中,它在处理分布均匀的数据集时非常有效,但在处理分布比较倾斜的数据集时容易丢失小的聚类。为此提出基于网格的密度偏差抽样算法,仅需要扫描一遍数据集就可以得到近似的密度偏差抽样。经实验测试分析表明,该算法不仅提高了聚类的正确性,而且抗噪声能力强、效率高,是解决海量数据挖掘的一种有效途径。  相似文献   

3.
网格聚类中的边界处理技术   总被引:4,自引:0,他引:4  
提出利用限制性k近邻和相对密度的概念识别网格聚类边界点的技术,给出网格聚类中的边界处理算法和带边界处理的网格聚类算法(GBCB).实验表明,聚类边界处理技术精度高,能有效地将聚类的边界点和孤立点/噪声数据分离开来.基于该边界处理技术的网格聚类算法GBCB能识别任意形状的聚类.由于它只对数据集进行一遍扫描,算法的运行时间是输入数据大小的线性函数,可扩展性好.  相似文献   

4.
基于网格的多密度聚类算法   总被引:2,自引:1,他引:2  
提出了一种多密度网格聚类算法GDD.该算法主要采用密度阈值递减的多阶段聚类技术提取不同密度的聚类,使用边界点处理技术提高聚类精度,同时对聚类结果进行了人工干预.GDD算法只要求对数据集进行一遍扫描.实验表明,该算法可扩展性好,能处理任意形状和大小的聚类,能够很好的识别出孤立点或噪声,在处理多密度聚类方面有很好的精度.  相似文献   

5.
数值型和分类型混合数据的模糊K-Prototypes聚类算法   总被引:15,自引:0,他引:15  
陈宁  陈安  周龙骧 《软件学报》2001,12(8):1107-1119
由于数据库经常同时包含数值型和分类型的属性,因此研究能够处理混合型数据的聚类算法无疑是很重要的.讨论了混合型数据的聚类问题,提出了一种模糊K-prototypes算法.该算法融合了K-means和K-modes对数值型和分类型数据的处理方法,能够处理混合类型的数据.模糊技术体现聚类的边界特征,更适合处理含有噪声和缺失数据的数据库.实验结果显示,模糊算法比相应的确定算法得到的结果准确度高.  相似文献   

6.
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。  相似文献   

7.
顾庆锋  宋顺林 《计算机工程与设计》2007,28(13):3060-3062,3233
Apriori算法是挖掘关联规则的经典算法.在分析该算法的基础上,在实际项目应用当中,结合SQL的特点,提出Apriori算法在SQL中的改进算法-Apriori_Sql.应用Apriori_Sql算法只需扫描一遍数据库,在数据库临时表中建立原始数据库的压缩数据映射,实验表明该算法是一种高效的关联规则的挖掘算法.  相似文献   

8.
数据集成环境下基于相似度的数据库聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
郑凯  梁卓明  郑文栋 《计算机工程》2011,37(19):71-72,75
数据集成环境中的全局数据规划方法复杂度很高,且需要经历较长的周期。针对该问题,提出一种基于相似度集合运算的数据库聚类算法,利用自定义的相似数据库、数据库聚类和聚类距离描述数据库的聚类过程,并给出聚类效果的评价方法。实例分析结果证明,该算法简单且具有通用性。  相似文献   

9.
自动化网格聚类探究   总被引:1,自引:0,他引:1  
提出了一种自动化的网格聚类算法GAC。该算法主要采用密度阈值技术提取不同的类,使用边界点处理技术提高聚类精度。GAC算法只要求对数据集进行一遍扫描。实验表明,该算法可扩展性好,能处理任意形状和大小的聚类,能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

10.
李英  杜启刚 《现代计算机》2009,(11):45-46,67
针对具体超市销售行业CRM进行分析,将聚类技术运用到关联规则发现领域,利用聚类技术压缩交易数据库,从而减少挖掘算法需要处理的数据量以提高挖掘效率.在企业现有数据的基础上进行实现,得到更好的挖掘效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号