基于粗糙集的非监督快速属性选择算法 |
| |
作者姓名: | 白鹤翔 王健 李德玉 陈千 |
| |
作者单位: | 1. 山西大学 计算机与信息技术学院, 太原 030006;
2. 计算智能与中文信息处理教育部重点实验室(山西大学), 太原 030006 |
| |
基金项目: | 国家自然科学基金资助项目(41101440,61272095,61403238);山西省青年科技基金资助项目(2014021022-1);中国博士后科学基金资助项目(2013M530891)。 |
| |
摘 要: | 针对"大数据"中常见的大规模无监督数据集中特征选择速度难以满足实际应用要求的问题,在经典粗糙集绝对约简增量式算法的基础上提出了一种快速的属性选择算法。首先,将大规模数据集看作一个随机到来的对象序列,并初始化候选约简为空集;然后每次都从大规模数据集中无放回地随机抽取一个对象,并且每次都判断使用当前候选约简能否区分这一对象和当前对象集中所有应当区分的对象,并将该对象放入到当前对象集中,如果不能区分则向候选约简中添加合适的属性;最后,如果连续I次都没有发现无法区分的对象,那么将候选约简作为大规模数据集的约简。在5个非监督大规模数据集上的实验表明,所求得的约简能够区分95%以上的对象对,并且求取该约简所需的时间不到基于区分矩阵的算法和增量式约简算法的1%;在文本主题挖掘的实验中,使用约简后的数据集挖掘出的文本主题同原始数据集挖掘出的主题基本一致。两组实验结果表明该方法能够有效快速对大规模数据集进行属性选择。
|
关 键 词: | 海量数据 绝对约简 增量式算法 粗糙集 属性选择 |
收稿时间: | 2015-03-01 |
修稿时间: | 2015-05-08 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机应用》浏览原始摘要信息 |
|
点击此处可从《计算机应用》下载全文 |
|