首页 | 官方网站   微博 | 高级检索  
     

基于信息增益比例约束的数据匿名方法及其评估机制
引用本文:熊 平,朱天清,顾 霄.基于信息增益比例约束的数据匿名方法及其评估机制[J].计算机应用研究,2014,31(3):819-824.
作者姓名:熊 平  朱天清  顾 霄
作者单位:1. 中南财经政法大学 信息与安全工程学院, 武汉 430073; 2. 武汉轻工大学 数学与计算机学院, 武汉 430023
基金项目:国家自然科学基金资助项目(71173238); 国家教育部人文社科研究青年基金资助项目(12YJC630078); 中央高校基本科研业务费专项资金资助项目(31541311302, 31541111305)
摘    要:针对数据发布中的隐私泄露问题, 分析了对数据集进行匿名保护需要满足的条件, 提出了一种基于信息增益比例约束的数据匿名方法。该方法以凝聚层次聚类为基本原理, 将数据集中的元组划分到若干个等价群中, 然后概化每个等价群中的元组使其具有相同的准标志符值。在聚类过程中, 以信息损失最小、信息增益比例最大的约束条件来控制聚类的合并, 可以使数据匿名结果保持良好的可用性和安全性。对匿名结果的质量评估问题进行了深入的探讨, 提出了匿名结果可用性和安全性的量化计算方法。在UCI知识库提供的Adult数据集上的一系列实验结果表明, 该方法是有效可行的。

关 键 词:数据匿名  凝聚层次聚类  信息增益  准标志符  数据发布

Data anonymization based on restriction of information gain ratio:method and evaluation
XIONG Ping,ZHU Tian-qing,GU Xiao.Data anonymization based on restriction of information gain ratio:method and evaluation[J].Application Research of Computers,2014,31(3):819-824.
Authors:XIONG Ping  ZHU Tian-qing  GU Xiao
Affiliation:1. School of Information & Security Engineering, Zhongnan University of Economics & Law, Wuhan 430073, China; 2. School of Mathematics & Computer Science, Wuhan Polytechnic University, Wuhan 430023, China
Abstract:Publishing data without revealing privacy of individuals is an important problem. This paper analyzed the requirements that an anonymized data set should meet and presented a data anonymization method based on restriction of information gain ratio. By applying the hierarchical agglomerative clustering, the method assigned all the tuples in a dataset to several equivalence classes and generalized the quasi-identifier of all the tuples in each equivalence class with the same value. To get an anonymization result with adequate utility and security, controlled the clusters combination process in clustering procedure by the restrictions that the information loss should be minimized while the information gain ratio should be maximized. This paper also discussed the problem of evaluating the quality of anonymization results and brought out a method of measuring the utility and privacy of an anonymization result. A series of experimental results based on the Adult data set provided by the UCI knowledge shows that the methods are effective and feasible.
Keywords:data anonymization  agglomerative hierarchical clustering  information gain  quasi-identifier  data publishing
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号