首页 | 官方网站   微博 | 高级检索  
     

PODKNN:面向大数据集的并行离群点检测算法
引用本文:苟杰,马自堂,张喆程.PODKNN:面向大数据集的并行离群点检测算法[J].计算机科学,2016,43(7):251-254, 274.
作者姓名:苟杰  马自堂  张喆程
作者单位:解放军信息工程大学密码工程学院 郑州450000,解放军信息工程大学密码工程学院 郑州450000,解放军信息工程大学密码工程学院 郑州450000
摘    要:针对现有离群点检测算法在运用于大规模数据集时时间效率较低的问题,提出一种基于K近邻的并行离群点检测算法PODKNN (Parallel Outlier Detection Based on K-nearest Neighborhood)。该算法利用划分策略对数据集进行预处理,在规模较小的子集中寻找K近邻并计算离群度,最后合并结果并遴选出离群点,设计算法过程使其符合MapReduce的编程模型,实现并行化,从而提高了离群点检测算法处理大规模数据的计算效率。实验结果表明,PODKNN具有较高的加速比及较好的扩展性。

关 键 词:数据挖掘  离群点检测  K近邻  MapReduce
收稿时间:2015/5/25 0:00:00
修稿时间:2015/8/16 0:00:00

PODKNN:A Parallel Outlier Detection Algorithm for Large Dataset
GOU Jie,MA Zi-tang and ZHANG Zhe-cheng.PODKNN:A Parallel Outlier Detection Algorithm for Large Dataset[J].Computer Science,2016,43(7):251-254, 274.
Authors:GOU Jie  MA Zi-tang and ZHANG Zhe-cheng
Affiliation:Password Engineering Institute,PLA Information Engineering University,Zhengzhou 450000,China,Password Engineering Institute,PLA Information Engineering University,Zhengzhou 450000,China and Password Engineering Institute,PLA Information Engineering University,Zhengzhou 450000,China
Abstract:
Keywords:Data mining  Outlier detection  K-nearest neighborhood  MapReduce
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号