首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 406 毫秒
1.
一种基于聚类的数据匿名方法   总被引:10,自引:0,他引:10  
王智慧  许俭  汪卫  施伯乐 《软件学报》2010,21(4):680-693
为了防止个人隐私的泄漏,在数据共享前需要对其在准标识符上的属性值作数据概化处理,以消除链接攻击,实现在共享中对敏感属性的匿名保护.概化处理增加了属性值的不确定性,不可避免地会造成一定的信息损失.传统的数据概化处理大都建立在预先定义的概念层次结构的基础上,会造成过度概化,带来许多不必要的信息损失.将准标识符中的属性分为有序属性和无序属性两种类型,分别给出了更为灵活的相应数据概化策略.同时,通过考察数据概化前后属性值不确定性程度的变化,量化地定义了数据概化带来的信息损失.在此基础上,将数据匿名问题转化为带特定约束的聚类问题.针对l-多样模型,提出了一种基于聚类的数据匿名方法L-clustering.该方法能够满足在数据共享中对敏感属性的匿名保护需求,同时能够很好地降低实现匿名保护时概化处理所带来的信息损失.  相似文献   

2.
在社交网络中, 为防范用户隐私泄漏, 在用户数据发布前需要做匿名化处理. 针对以节点度数为背景知识的隐私攻击, 将社交网络匿名化问题建模为图的k度匿名化问题; 其主要方法是对图添加尽可能少的边或点来满足度匿名化要求, 其中要求添加边或点较少是期望尽可能保持原图结构特性. 目前, 加边类算法并不能很好地保留平均路径长度等结构特性; 加边且可加点类算法尽管能更好地保留原图结构特性, 但添加的边或点较多. 本文融合两类算法的策略提出改进算法. 新算法利用贪心法生成匿名度序列, 然后基于社区结构加边, 并且优先满足其匿名代价高于平均匿名代价的节点的匿名化要求; 若加边不能完成匿名化, 则通过加点实现图匿名化. 真实数据集上的实验结果表明新算法能更好地保留图的几种典型的结构特性, 并且添加的边或点更少.  相似文献   

3.
针对传统k度匿名隐私保护方法严重破坏图结构和无法抵抗结构性背景知识攻击的问题,提出改进的k度匿名隐私保护方法。引入社区的概念,将节点划分为社区内节点和连接社区的边缘节点两类,通过区分不同节点的重要性,实现社区内节点的度匿名和边缘节点的社区序列匿名,从而完成整个社交网络的k度匿名。实验结果表明,该方法可降低数据实用性损失,抵抗以节点的度和节点所在社区关系为背景知识的攻击,提升隐私保护力度。  相似文献   

4.
面向表数据发布隐私保护的贪心聚类匿名方法   总被引:1,自引:0,他引:1  
为了防范隐私泄露,表数据一般需要匿名处理后发布.现有匿名方案较少分类考察准标识属性概化,并缺少同时考虑信息损失量和时间效率的最优化.利用贪心法和聚类划分的思想,提出一种贪心聚类匿名方法:分类概化准标识属性,并分别度量其信息损失,有利于减小并合理评价信息损失.对元组间距离和元组与等价类距离,建立与最小合并概化信息损失值正相关的距离定义,聚类过程始终选取具有最小距离值的元组添加,从而保证信息损失总量趋于最小.按照k值控制逐一聚类,实现等价类均衡划分,减少了距离计算总量,节省了运行时间.实验结果表明,该方法在减少信息损失和运行时间方面是有效的.  相似文献   

5.
图数据隐私保护的研究目前主要集中在简单图,适应范围有限。将权重图数据的隐私保护作为研究对象,可以改善权重图发布之后数据的可用性及有效性。针对在利用聚类匿名化方法处理社交网络数据时,需要增删大量的边和节点,造成严重的数据失真的问题进行了研究。提出了(k,l)加权社交网络匿名算法KFCMSA(联合k成员模糊聚类和模拟退火),并利用改进的簇划分算法将权重社交网络聚类成不同的簇,对同一簇中节点的边权重进行泛化使节点满足l多样性。在实现k度匿名的同时有效减少了边的改变量,提高了数据的可用性,实现最优聚类的同时防止了同质性攻击。聚类质量实验和数据可用性分析表明该算法具有较高的性能优势和较高边保留率。  相似文献   

6.
基于杂度增益与层次聚类的数据匿名方法   总被引:2,自引:0,他引:2  
数据匿名是发布数据时对隐私信息进行保护的重要手段之一.对数据匿名的基本概念和应用模型进行了介绍,探讨了数据匿名结果应该满足的要求.为了抵制背景知识攻击,提出了一种基于杂度增益与层次聚类的数据匿名方法,该方法以杂度来度量敏感属性随机性,并以概化过程中信息损失最小、杂度增益最大的条件约束来控制聚类的合并过程,可以使数据匿名处理后的数据集在满足k-匿名模型和l-多样模型的同时,使数据概化的信息损失最小且敏感属性的取值均匀化.在实验部分,提出了一种对数据匿名结果进行评估的方法,该方法将匿名结果和原始数据进行对比,并从平均信息损失和平均杂度2个方面来评估数据匿名的质量.实验结果验证了以上方法的有效性.  相似文献   

7.
社会网络数据发布具有动态性与不安全性,为避免使用不同时刻的社会网络数据进行关联攻击,兼顾节点属性多样性,提出了一种动态社会网络数据发布隐私保护方法。首先,根据匿名规则进行节点聚类,求解当前时刻的匿名图,保证同一个匿名集中节点属性多样性最大的前提下,数据发布后的节点属性与边的泄露概率均小于1/k。然后,生成相邻时刻数据关系图的差集,结合当前时刻的匿名图,删除前序时刻不存在的节点与边,逆向更新已发布数据,保证不同时刻下的匿名图具有相似的图结构,抵御关联攻击。最后,采用新浪微博数据和邮件往来数据进行实验验证,对所提方法的安全性和可用性进行评估。实验结果表明所提方法兼顾了用户数据隐私保护和数据可用性的个性化需求。  相似文献   

8.
在区域医疗信息共享下,传统的匿名化隐私保护算法面对背景知识攻击时抵抗力较差。为此,提出一种敏感属性聚类匿名算法。利用敏感属性之间的关联进行微聚类,使等价组中敏感属性之间在相似性增大的同时存在差异性,从而较好地抵抗背景知识攻击,提高抗泄露风险能力。实验结果表明,该算法能减小数据信息表中的隐私泄露风险。  相似文献   

9.
针对链接攻击导致的隐私泄露问题,以及为了尽可能减少匿名保护时产生的信息损失,提高发布数据集的可用性,提出一种面向个体的基于变长聚类的个性化匿名保护方法。该方法充分考虑记录权重值对聚类簇中心结果的影响,以提高数据的可用性,并对敏感属性值进行分级处理,将敏感属性值分成三个等级类,响应不同个体的保护需求。理论分析和实验结果表明,该方法能满足敏感属性个性化保护需求,同时可有效地降低信息损失,效率较高,生成的匿名数据集具有较好的可用性。  相似文献   

10.
利用传统的k匿名技术在社会网络中进行隐私保护时会存在聚类准则单一、图中数据信息利用不足等问题. 针对该问题, 提出了一种利用Kullback-Leibler (KL)散度衡量节点1-邻居图相似性的匿名技术(anonymization techniques for measuring the similarity of node 1-neighbor graph based on Kullback-Leibler divergence, SNKL). 根据节点1-邻居图分布的相似性对原始图节点集进行划分, 按照划分好的类进行图修改, 使修改后的图满足k匿名, 完成图的匿名发布. 实验结果表明, SNKL方法与HIGA方法相比在聚类系数上的改变量平均降低了17.3%, 同时生成的匿名图与原始图重要性节点重合度保持在95%以上. 所提方法在有效保证隐私的基础上, 可以显著的降低对原始图结构信息的改变.  相似文献   

11.
社交网络边权重表示节点属性相似性时,针对边权重能导致节点敏感属性泄露的问题,提出一种利用差分隐私保护模型的扰动策略进行边权重保护。首先根据社交网络构建属性相似图和非属性相似图,同时建立差分隐私保护算法;然后对属性相似图及非属性相似图边权重进行扰动时,设计扰动方案,并按扰动方案对属性相似图及非属性相似图进行扰动。实现了攻击者无法根据扰动后边权重判断节点属性相似性,从而防止节点敏感属性泄漏,而且该方法能够抵御攻击者拥有最大背景知识的攻击。从理论上证明了算法的可行性,并通过实验验证了算法的可行性及有效性。  相似文献   

12.
针对动态社会网络数据多重发布中用户的隐私信息泄露问题,结合攻击者基于背景知识的结构化攻击,提出了一种动态社会网络隐私保护方法。该方法首先在每次发布时采用k-同构算法把原始图有效划分为k个同构子图,并最小化匿名成本;然后对节点ID泛化,阻止节点增加或删除时攻击者结合多重发布间的关联识别用户的隐私信息。通过数据集实验证实,提出的方法有较高的匿名质量和较低的信息损失,能有效保护动态社会网络中用户的隐私。  相似文献   

13.
针对传统的图数据隐私保护方法只关注保护属性或结构两者之一易导致节点或边隐私信息泄露的问题,提出了一种对属性加权图的局部差分隐私的保护算法(AWG-LDP)。首先,该算法利用GN算法将图数据划分成社区子图;其次,分别计算每个社区子图的局部敏感度,对于划分后的每一个子图,通过结合结构相似性和属性相似性并添加拉普拉斯噪声进行边扰动,实现局部差分隐私;最后,利用属性泛化的方式将待发布的节点进行泛化,防止节点敏感信息被攻击。利用真实的图数据集进行了不同参数配置以及不同算法的对比实验,实验结果表明该算法提升了隐私保护效果,同时,降低了信息损失,提高了数据的可用性。  相似文献   

14.
In the arena of internet of things, everyone has the ability to share every aspect of their lives with other people. Social media is the most popular and effective medium to provide communication. Social media has gripped our lives in a dramatic way. Privacy of users data lying with the service providers needs to be preserved when published for the purpose of research as the release of sensitive personal information of an individual may pose security threats. This has become an important research area nowadays. To some extent, the concepts of anonymization that were earlier used to preserve privacy of relational microdata have been applied to preserve privacy of social networks data. Anonymizing social networks data is challenging as it is a complex structure with users connected to one another graphically and the most important is to preserve the structural properties of the graph depicting the social network relationships while applying such concepts. Recent studies based upon K-anonymity and L-diversity help to preserve privacy of online social networks data and subsequently identify attacks that arise while applying these techniques in different scenarios. K-anonymity equalizes the degree of the nodes to prevent the data from identity disclosure but it cannot preserve sensitive information and also cannot handle attacks arising due to background knowledge and homogeneity. To cope up with the drawbacks of K anonymity, L-diversity was introduced that protects the sensitive labels of the users. In this paper, a novel technique has been proposed which implements the combined features of K-anonymity and L-diversity. Our proposed approach has been validated using the data of real time social network–Twitter (most popular microblogging network). The performance of the proposed technique has been measured by the metrics, such as average path length, average change in sensitive labels, and remaining ratio of top influential users. It thus becomes evident from the results that the values of these parameters attained with the proposed technique for the anonymized graph has minimal variation to that of original structural graph. So, it is possible to retain the utility without compromising privacy while publishing social networks data. Further, the performance of the proposed technique has been discussed by calculating the information loss that addresses the concern of preserving privacy with the least variation of actual content viz info loss.  相似文献   

15.
在图结构数据上开展推理计算是一项重大的任务,该任务的主要挑战是如何表示图结构知识使机器可以快速理解并利用图数据。对比现有表示学习模型发现,基于随机游走方法的表示学习模型容易忽略属性对节点关联关系的特殊作用,因此提出一种基于节点邻接关系与属性关联关系的混合随机游走方法。首先通过邻接节点间的共同属性分布计算属性权重,并获取节点到每个属性的采样概率;然后分别从邻接节点与含有共有属性的非邻接节点中提取网络信息;最后构建基于节点-属性二部图的网络表示学习模型,并通过上述采样序列学习得到节点向量表达。在Flickr、BlogCatalog、Cora公开数据集上,用所提模型得到的节点向量表达进行节点分类的Micro-F1平均准确率为89.38%,比GraphRNA(Graph Recurrent Networks with Attributed random walks)高出了2.02个百分点,比经典工作DeepWalk高出了21.12个百分点;同时,对比不同随机游走方法发现,提高对节点关联有促进作用的属性的采样概率可以增加采样序列所含信息。  相似文献   

16.
网络图可视化可以有效展示网络节点之间的连接关系,广泛应用于诸多领域,如社交网络、知识图谱、生物基因网络等.随着网络数据规模的不断增加,如何简化表达大规模网络图结构已成为图可视化领域中的研究热点.经典的网络图简化可视化方法主要包括图采样、边绑定和图聚类等技术,在减少大量点线交叉造成的视觉紊乱的基础上,提高用户对大规模网络结构的探索和认知效率.然而,上述方法主要侧重于网络图中的拓扑结构,却较少考虑和利用多元图节点的多维属性特征,难以有效提取和表达语义信息,从而无法帮助用户理解大规模多元网络的拓扑结构与多维属性之间的内在关联,为大规模多元图的认知和理解带来困难.因此,本文提出一种语义增强的大规模多元图简化可视分析方法,首先在基于模块度的图聚类算法基础上提取出网络图的层次结构;其次通过多维属性信息熵的计算和比较分析,对网络层次结构进行自适应划分,筛选出具有最优属性聚集特征的社团;进而设计交互便捷的多个关联视图来展示社团之间的拓扑结构、层次关系和属性分布,从不同角度帮助用户分析多维属性在社团形成和网络演化中的作用.大量实验结果表明,本文方法能够有效简化大规模多元图的视觉表达,可以快速分析不同应用领域大规模多元图的关联结构与语义构成,具有较强的实用性.  相似文献   

17.
针对传统的[k]-度匿名方案添加随机噪声次数过多,构图成功率低,且无法抵御更复杂的图查询背景知识攻击的问题,提出了改进的[k]-度匿名隐私保护方案。该方案提出一种优先级构图算法,通过设置参数来调整邻居节点与度需求高的节点之间的权重,引入欧式距离并对[k]-度匿名后的同度节点构造出相似度较高的邻居度序列。实验结果表明,该方案的度信息损失较少,能够调节边信息损失与构图成功率之间的冲突,抵御以节点的度结合邻居度序列作为背景知识的攻击。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号