首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
数据流转过程中,保证数据安全使用的最有效方法即数据脱敏,通过将数据中的敏感信息标识化处理,确保隐私信息在使用过程中的安全可靠。本文首先对数据脱敏技术进行介绍,包括脱敏概念、脱敏原则和脱敏方法等;之后对电力企业数据特点进行分析,梳理形成用户隐私信息类别;进一步对电力系统中用户隐私信息的实际应用场景进行提取划分;在此基础上,应用不可逆的数据脱敏方法,制定形成数据脱敏规则,并根据数据使用的不同业务环境,提出动/静态大数据脱敏技术方案。该方案紧密结合电力企业实际业务需求,在应用过程中,无论是对现有系统进行改造,或是部署新的设备,都最大限度的保证了投入成本与实际产出间的合理配比,使得数据价值得到充分挖掘的同时,保障用户隐私信息安全。  相似文献   

2.
刘振鹏 《计算机应用研究》2020,37(10):3068-3070,3082
通过对◢k-匿名数据脱敏和l-多样◣性匿名数据脱敏模型分析,提出一种更加有针对性的个性匿名保护方法(PDMP)来解决数据泄露问题。PDMP根据不同的敏感程度来找到不同的◢k◣值,通过相应的约束方法对数据进行泛化从而实现敏感数据的脱敏,减少真实数据的攻击率,更好地实现隐私数据的保护。实验表明,该方法降低了信息敏感度的同时,满足了个性化需求,有效地提高了数据隐私的安全性。  相似文献   

3.
彭婧  尹立夫  王洲  王涛  徐清 《计算机应用》2022,(S1):191-194
随着电力事业的蓬勃发展,产生的大量电力数据因具有数量庞大、类型繁多、不易于处理等特点,给信息安全带来了巨大风险。针对电力数据开放过程中会牵涉到部分隐私及机密不能直接开放的问题,通过分析主流脱敏算法建立敏感信息分级机制,提出了一种适应性强、可扩展性高的电力数据脱敏安全防护体系。该体系够满足复杂应用场景下的不同脱敏需求,在不破坏所需要的数据信息与数据特征的前提下,对敏感信息进行保护。首先,结合电力大数据中的敏感信息相应特征,对大数据进行初步的分类;然后,按照对敏感数据划分的唯一性原则对数据进行数据脱敏处理,依据数据资源的防泄漏保护层建立了一套以数据防泄漏为核心的数据脱敏安全防护体系。通过192组电力客户信息数据测试情况对所提方案进行验证,实验结果表明,所提方案实现了良好的脱敏效果,有效解决了电力大数据的应用与保护之间的矛盾。  相似文献   

4.
石秀金  胡艳玲 《计算机科学》2017,44(5):120-124, 165
基于分类树的差分隐私保护方法有效地对静态集值型数据进行了保护,但对于动态集值型数据却没有相应的保护方法,因此提出一种基于分类树的差分隐私保护下的动态集值型数据发布的算法。该算法首先根据数据集中项的全集构造关系矩阵,挑选关系最紧密的项集构造分类树;然后设定一个边界值来限制数据的增量更新,并将新增的记录添加到分类树的根节点中,按照初始分类树的分配法迭代分配每个记录;最后根据拉普拉斯机制向叶子节点中加入噪音,保证整个算法满足差分隐私的要求。相对已有算法,所提算法优化了分类树,使所发布数据建立的分类树模型有少量的叶子节点产生,减少了噪音的添加。实验用两组真实的数据集验证了所提算法的有效性和相对于其他算法的优越性。  相似文献   

5.
李颖  郝晓燕  王勇 《计算机科学》2017,44(Z6):80-83
传统信息抽取针对特定的领域。当转换到新领域时,需要人工编写新的抽取规则和人工标记新的训练样本。开放信息抽取突破了传统信息抽取的局限性。现有的开放式信息抽取系统大多针对英文,然而,目前对于中文的研究相对较少,并主要以抽取三元组为主,没有针对中文抽取多元组的方法。因此提出了一种基于依存分析的中文开放式多元实体关系抽取方法。首先,对文本集进行预处理和依存关系分析;然后将动词视为候选关系词,将与此动词有满足条件的有效依存路径的基本名词短语视为实体词,关联两个及两个以上的实体词的关系词可与实体词组成候选多元实体关系组;最后,使用经过训练的逻辑回归分类器对多元实体关系组进行过滤。对百度百科数据集的抽取结果显示,所提方法在抽取大量实体关系多元组时准确性可达到81%。  相似文献   

6.
金融公告信息披露了企业运营的关键数据,具有应用价值.无结构金融公告中涉及复杂的财务关系,即多元关系.该文设计了基于依存分析树和频繁子图挖掘的垂直域多元关系抽取方法TextMining,可大大降低对数据集的依赖.进一步,受图卷积神经网络启发,该文设计了垂直域优化的FTA-GCN算法.在构建的适用金融公告数据集上,算法较强...  相似文献   

7.
基于生成对抗网络和差分隐私提出一种文本序列数据集脱敏模型,即差分隐私文本序列生成网络(DP-SeqGAN)。DP-SeqGAN通过生成对抗网络自动提取数据集的重要特征并生成与原数据分布接近的新数据集,基于差分隐私对模型做随机加扰以提高生成数据集的隐私性,并进一步降低鉴别器过拟合。DP-SeqGAN 具有直观通用性,无须对具体数据集设计针对性脱敏规则和对模型做适应性调整。实验表明,数据集经DP-SeqGAN脱敏后其隐私性和可用性明显提升,成员推断攻击成功率明显降低。  相似文献   

8.
基于聚类的k-匿名机制是共享数据脱敏的主要方法,它能有效防范针对隐私信息的背景攻击和链接攻击。然而,现有方案都是通过寻找最优k-等价集来平衡隐私性与可用性.从全局看,k-等价集并不一定是满足k-匿名的最优等价集,隐私机制的可用性最优化问题仍然未得到解决.针对上述问题,提出一种基于最优聚类的k-匿名隐私保护机制.通过建立数据距离与信息损失间的函数关系,将k-匿名机制的最优化问题转化为数据集的最优聚类问题;然后利用贪婪算法和二分机制,寻找满足k-匿名约束条件的最优聚类,从而实现k-匿名模型的可用性最优化;最后给出了问题求解的理论证明和实验分析.实验结果表明该机制能最大程度减少聚类匿名的信息损失,并且在运行时间方面是可行有效的.  相似文献   

9.
互联网环境下的数据信息量日趋增多,增加了数据挖掘的难度。为了更好地对数据信息进行挖掘和提取,可以引入机器学习的技术和方法,构建基于机器学习的K-means聚类算法和数据预处理相结合的框架。本文以校园一卡通消费数据为研究对象,结合数据信息的特征和规律,对数据信息进行脱敏处理、清洗、规约和集成等操作,进一步对数据进行整合和优化,较好地实现数据挖掘价值的最大化。  相似文献   

10.
为使数据管理者可以发布数据集供研究人员进行挖掘分析,对数据集采用满足差分隐私的保护算法,但其中会加入大量噪声,破坏数据可用性,因此,提出一种基于聚类的差分隐私民航旅客数据发布算法.改进聚类算法,按照数据类型的不同,对数值型属性和分类型属性分别选用不同的距离计算方法,将更可能相关的记录分为一组,降低差分隐私敏感度,结合聚...  相似文献   

11.
Adding time dimension to relational model and extending relational algebra   总被引:1,自引:0,他引:1  
A methodology for adding the time dimension to the relational model is proposed and relational algebra is extended for this purpose. We propose time-stamping attributes instead of adding time to tuples. Each attribute value is stored along with a time interval over which it is valid. Non-first normal form realations are used. A relation can have atomic, set-valued, triplet-valued, or set triplet-valued attributes. The last two types of attributes preserve the time (history). Furthermore, new algebraic operations are defined to extract information from historical relations. These operations convert one attribute type to another and do selection over the time dimension. Algebraic rules and identities for the new operations are also included.  相似文献   

12.
A crucial operation in the maintenance of data quality in relational databases is to remove tuples that mutually describe the same entity (i.e., duplicate tuples) and to replace them with a tuple that minimizes information loss. A function that combines multiple tuples into one is called a fusion function. In this paper, we investigate fusion functions for attributes of which the values can be sorted by means of an order relation that reflects a notion of generality. It is shown that providing such an order relation a priori, let alone keeping it up-to-date, is a costly operation. Therefore, the Dynamical Order Construction (DOC) algorithm is proposed that constructs an order relation in an automated fashion upon inspecting the data that need to be fused. Such order relations can be immediately deployed in a framework of selectional fusion functions, which are fusion functions that adopt the sort-and-select principle. These fusion functions are investigated closely in terms of their selection strategies. An experimental evaluation of our method shows the influence of the parameters and the benefit with respect to using a fixed and predefined taxonomy.  相似文献   

13.
根据粗关系数据库中所存数据的特性,提出不确定性数据索引方法。将粗关系数据库中的元组属性值以二进制串表示,借助改进的汉明距离公式计算元组间的距离,构成距离矩阵,根据该矩阵中的距离值将元组分类,从而实现对表中元组的索引。给出描述索引的算法,通过实例说明了该索引方法是可行和有效的。  相似文献   

14.
采用当前方法挖掘异构容错数据中存在的同构漏洞时,不能有效的去除网络数据中存在的噪声,挖掘同构漏洞所用的时间较长,存在去噪效果差和挖掘效率低的问题。提出在线网络异构容错数据的同构漏洞挖掘方法,在经验模态分解方法的基础上采用集成经验模式分解方法对在线网络数据做去噪处理,利用差分法抑制在线网络数据中存在的粗差干扰,抑制并分解网络中存在的脉冲干扰,分层去除数据中存在的噪声。提取去噪处理后的数据集中的元组,并对元组作概化处理,获得高层属性,根据高层属性划分网络数据,将同构数据划分到一起,实现在线网络异构容错数据中同构漏洞的挖掘。仿真结果表明,所提方法的去噪效果好,挖掘效率高。  相似文献   

15.
Data Mining in Large Databases Using Domain Generalization Graphs   总被引:5,自引:0,他引:5  
Attribute-oriented generalization summarizes the information in a relational database by repeatedly replacing specific attribute values with more general concepts according to user-defined concept hierarchies. We introduce domain generalization graphs for controlling the generalization of a set of attributes and show how they are constructed. We then present serial and parallel versions of the Multi-Attribute Generalization algorithm for traversing the generalization state space described by joining the domain generalization graphs for multiple attributes. Based upon a generate-and-test approach, the algorithm generates all possible summaries consistent with the domain generalization graphs. Our experimental results show that significant speedups are possible by partitioning path combinations from the DGGs across multiple processors. We also rank the interestingness of the resulting summaries using measures based upon variance and relative entropy. Our experimental results also show that these measures provide an effective basis for analyzing summary data generated from relational databases. Variance appears more useful because it tends to rank the less complex summaries (i.e., those with few attributes and/or tuples) as more interesting.  相似文献   

16.
This paper introduces a novel keyword search paradigm in relational databases, where the result of a search is an Object Summary (OS). An OS summarizes all data held about a particular Data Subject (DS) in a database. More precisely, it is a tree with a tuple containing the keyword(s) as a root and neighboring tuples as children. In contrast to traditional relational keyword search, an OS comprises a more complete and therefore semantically meaningful set of information about the enquired DS.The proposed paradigm introduces the concept of Affinity in order to automatically generate OSs. More precisely, it investigates and quantifies the Affinity of relations (i.e. Affinity) and their attributes (i.e. Attribute Affinity) in order to decide which tuples and attributes to include in the OS. Experimental evaluation on the TPC-H and Northwind databases verifies the searching quality of the proposed paradigm on both large and small databases; precision, recall, f-score, CPU and space measures are presented.  相似文献   

17.
Most temporal data models have concentrated on describing temporal data based on versioning of objects, tuples or attributes. The concept of time series, which is often needed in temporal applications, does not fit well within these models. The goal of this paper is to propose a generalized temporal database model that integrates the modeling of both version-based and time-series based temporal data into a single conceptual framework. The concept of calendar is also integrated into our proposed model. We also discuss how a conceptual Extended-ER design in our model can be mapped to an object-oriented or relational database implementation.  相似文献   

18.
基于规则的关系数据库到本体的转换方法*   总被引:3,自引:1,他引:2  
提出了一种新的全自动的关系数据库到本体的转换方法,通过分析关系模式的主键、属性、引用关系、完整性约束和部分数据来创建本体,尽量保持了关系数据库的信息,并在构建的过程中对信息进行初步的集成和分类.系统实践证明,该方法可自动进行关系模式和数据到本体的等价转换,而且完成了对关系数据库中部分语义信息的辅助挖掘.  相似文献   

19.
为了解决多维数值型敏感属性数据隐私保护方法中存在的准标识符属性信息损失大,以及不能满足用户对数值型敏感属性重要性排序的个性化需求问题,提出一种基于聚类和加权多维桶分组(MSB)的个性化隐私保护方法。首先,根据准标识符的相似程度,将数据集划分成若干准标识符属性值相近的子集;然后,考虑到用户对敏感属性的敏感程度不同,将敏感程度和多维桶的桶容量用于计算加权选择度和构建加权多维桶;最后,依此对数据进行分组和匿名化处理。选用UCI的标准Adult数据集中的8个属性进行实验,并与基于聚类和多维桶的数据隐私保护方法MNSACM和基于聚类和加权多维桶分组的个性化隐私保护方法WMNSAPM进行对比。实验结果表明,所提方法整体较优,并且在减少信息损失和运行时间方面明显优于对比方法,提高了数据质量和运行效率。  相似文献   

20.
基于关系数据库的脆弱性水印算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为了检测对关系数据库的恶意篡改,提出了一种脆弱性数字水印算法。该算法将数据库的元组划分到不同的分组中,在对每个分组内的元组进行秘密排序的基础上,生成由属性水印和元组水印构成的分组水印矩阵,因此可以将对数据库的篡改定位在分组范围内。利用单向哈希函数及关系数据动态生成水印,不但保证了水印信息的安全性,而且也实现了水印的盲检测。理论分析和实验结果表明,该方法能够有效探测攻击者对关系数据库进行元组添加、属性值修改、元组删除和属性变化四类操作,从而为关系数据的真实性认证提供依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号