首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
一种向量等价置换隐私保护数据干扰方法   总被引:1,自引:0,他引:1  
倪巍伟  张勇  黄茂峰  崇志宏  贺玉芝 《软件学报》2012,23(12):3198-3208
近年来,隐私保护数据发布得到了研究者的广泛关注,聚类与隐藏原理上的差异使得面向聚类的隐藏成为难点.针对现有保距和保分布隐藏难以有效兼顾数据聚类可用性和隐私安全的不足,提出基于保邻域隐藏的扰动算法VecREP(vector equivalent replacing based perturbing method),通过分析数据点邻域组成结构,引入能够保持数据邻域组成稳定的安全邻域定义.进一步基于向量偏移与合成思想,提出有效保持邻域数据分布特征的等价置换弧.对任意数据点,采用随机选取位于其安全邻域内等价置换弧上点替换的策略实现隐藏.将算法与已有的RBT,TDR,Camp-crest和NeNDS算法进行实验比较,结果表明:VecREP算法具有与保距隐藏算法RBT相近的聚类可用性,优于其余算法,能够较好地维持数据聚类的可用性.同时,具有好于其余算法的数据隐私保护安全性.  相似文献   

2.
面向挖掘应用的隐私保护数据发布要求对数据集进行隐藏的同时维持数据的挖掘可用性,数据扰动是解决该问题的有效方法.现有的面向聚类的数据扰动方法难以兼顾原始数据个体隐私和维持数据聚类可用性,对此提出了一种基于对数螺线的隐私保护数据干扰方法.通过构建面向聚类的隐私保护数据扰动模型,利用对数螺线对原始数据进行扰动隐藏,维持原始数据的k邻域关系稳定,实现数据集聚类可用性的有效维护;进一步提出多重对数螺线扰动的策略,提高隐私保护强度.理论分析和实验结果表明:文中方法能够有效地避免数据隐私泄露,同时维持数据的聚类可用性.  相似文献   

3.
面向聚类的数据隐藏发布研究   总被引:3,自引:0,他引:3  
数据隐藏发布在保护数据隐私和维持数据可用性间寻求一种折中,近年来得到了研究者的持续关注.数据隐藏发布的起因和目标都源于数据的使用价值,聚类作为实现数据深层使用价值的一个重要步骤,在数据挖掘领域得到了广泛的研究.聚类对数据个体特征的依赖与隐藏操作弱化个体特征的主导思想间的矛盾,使得面向聚类的数据隐藏发布成为一个难点.对面向聚类的隐私保护数据发布领域已有研究成果进行了总结,从保存聚类特征粒度的角度,分析保存聚类特征粒度与聚类可用性、隐私保护安全性间的关系;从维持数据聚类可用性效果角度对匿名、随机化、数据交换、人工合成数据替换等主要隐藏方法的原理、特点进行了分析.在对已有技术方法深入对比分析的基础上,指出了面向聚类的数据隐藏发布领域待解决的一些难点问题和未来发展方向.  相似文献   

4.
基于邻域属性熵的隐私保护数据干扰方法   总被引:3,自引:1,他引:2  
隐私保护微数据发布是数据隐私保护研究的一个热点,数据干扰是隐私保护微数据发布采用的一种有效解决方法.针对隐私保护聚类问题,提出一种隐私保护数据干扰方法NETPA,NETPA干扰方法通过对数据点及邻域点集的分析,借助信息论中熵的理论,提出邻域属性熵和邻域主属性等概念,对原始数据中数据点的邻域主属性值用其k邻域点集内数据点在该属性的均值进行干扰替换,在较好地维持原始数据k邻域关系的情况下达到保护原始数据隐私不泄露的目的.理论分析表明,NETPA干扰方法具有良好地避免隐私泄露的效果,同时可以较好地维持原始数据的聚类模式.实验采用DBSCAN和k-LDCHD聚类算法对干扰前后的数据进行聚类分析比对.实验结果表明,干扰前后数据聚类结果具有较高的相似度,算法是有效可行的.  相似文献   

5.
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。  相似文献   

6.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

7.
为使数据管理者可以发布数据集供研究人员进行挖掘分析,对数据集采用满足差分隐私的保护算法,但其中会加入大量噪声,破坏数据可用性,因此,提出一种基于聚类的差分隐私民航旅客数据发布算法.改进聚类算法,按照数据类型的不同,对数值型属性和分类型属性分别选用不同的距离计算方法,将更可能相关的记录分为一组,降低差分隐私敏感度,结合聚...  相似文献   

8.
基于赌轮选择遗传算法的数据隐藏发布方法   总被引:1,自引:0,他引:1  
面向聚类挖掘的隐私保护微数据发布是数据挖掘研究的新兴热点之一,其目标是通过对微数据数值的修改实现对微数据隐私的保护,同时保证隐藏后数据具有与原数据集相同(或相似)的聚类效果.从保持数据邻域关系稳定的角度,提出一种基于赌轮遗传的干扰方法RWSGA,采用在数据点的k邻域内运用赌轮算子随机选择2个数据点进行交叉或变异的思想实现数据隐藏.进一步,提出从高密度点区域筛选k邻域中心以改进变异操作选择域的优化策略,解决变异操作可能导致数据扰动幅度过大的问题.理论分析和实验结果表明,该方法能较好地对原始数据进行扰动修改以保护数据隐私不泄露,同时保证发布前后的数据聚类结果差异较小.  相似文献   

9.
差分隐私因能提供强大的隐私保证,广泛应用于解决数据发布中的隐私保护问题。但是经差分隐私保护后的数据注入大量噪音,降低了数据可用性,且已有方法中,针对混合属性数据集发布的隐私保护研究成果较少和存在隐私预算分配不合理的问题。因此,提出一种基于个性化隐私预算分配的差分隐私混合属性数据发布方法(DP-IMKP)。利用互信息与属性之间关联关系,提出一种敏感属性分级策略,使用户各属性重要程度得以量化,为不同级别的属性匹配对应的隐私保护程度;结合最优匹配理论,构造隐私预算与敏感属性之间的二部图,为各级敏感属性分配合理的隐私预算;结合信息熵和密度优化思想,对经典k-prototype算法中初始中心的选择和相异度度量方法进行改进,并对原始数据集进行聚类,利用各敏感属性分配的隐私预算,对聚类中心值进行差分隐私保护,防止隐私数据信息泄露。通过实验验证,DP-IMKP方法与同类方法相比,在提高数据可用性和降低数据泄露风险方面有明显优势。  相似文献   

10.
隐私保护k-匿名算法研究   总被引:4,自引:0,他引:4       下载免费PDF全文
隐私保护已成为个人或组织机构关心的基本问题,k-匿名是目前数据发布环境下实现隐私保护的主要技术之一。鉴于多数k-匿名方法采用泛化和隐匿技术,严重依赖于预先定义的泛化层或属性域上的全序关系,产生很高的信息损失,降低了数据的可用性,提出了一种基于聚类技术的k-匿名算法。实验结果表明,该算法在保护隐私的同时,提高了发布数据的可用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号