首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
基于领域本体的数据清洗研究   总被引:2,自引:0,他引:2  
王浩  徐宏炳 《计算机工程与设计》2006,27(22):4274-4276,4280
对数据清洗过程中的语义问题进行了分类,基于领域本体提出了领域概念树和精确度水平节点集的概念。结合领域概念树和精确度水平节点集,给出了基于领域本体的数据清洗方法。该方法通过利用领域本体包含的语义信息,提高了数据清洗质量。与传统的数据清洗方法相比,由于该方法只与本体领域模型进行交互,不局限于特定领域,所以扩展性更强,数据清洗的质量也较高。  相似文献   

2.
数据质量和数据清洗研究综述   总被引:75,自引:1,他引:75  
郭志懋  周傲英 《软件学报》2002,13(11):2076-2082
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望.  相似文献   

3.
中文数据清洗研究综述   总被引:1,自引:0,他引:1  
针对中文数据清洗研究进行了综述。阐明了全面数据质量管理与数据清洗之间的关系,给出数据清洗的定义及对象;介绍中文数据清洗问题产生的背景、国内外研究现状与研究热点,并简介其基本原理、模型及已有算法;着重阐明了中文数据清洗的方法;总结中文数据清洗研究的不足,并对中文数据清洗的研究及应用进行了展望。  相似文献   

4.
随着RFID技术的发展,RFID的应用越来越广泛.然而,由于RFID硬件设备固有的限制和环境噪声的影响,造成了RFID原始数据的不确定性,使RFID在很多领域中的应用受到限制.现实应用中的部署环境通常由多个阅读器及大量标签组成,而现有的数据清洗算法大多只针对单个阅读器对标签的读取情况进行研究,因此在真实应用中的效果差强人意.本文综合考虑RFID的数据特性、阅读器和部署环境的先验知识以及具体应用中的约束条件三个方面,提出一种更贴近现实应用的基于多阅读器数据冗余的数据清洗策略LC-INFER(Location-Containment Inference):首先基于贝叶斯推理对数据进行初步清洗,其次结合基于物体间包含关系的平滑技术,并考虑约束条件对数据进行二次清洗以提高数据的准确性,最后部署真实供应链应用环境进行实际测试,并用大量仿真数据集进行模拟测试,验证了本文提出的RFID数据清洗算法的准确性及高效性.  相似文献   

5.
RFID技术现已广泛应用在供应链、制药监管等领域,然而数据的不准确性制约了RFID技术的进一步发展.为提供高质量的RFID数据给高层应用,对RFID原始数据进行清洗十分必要.本文提出一种基于卡尔曼滤波过滤的数据清洗方法KAL-RFID,有效地解决了单个阅读器的消极读和积极读问题以及动态标签跃迁产生的延迟问题.实验结果表明KAL-RFID方法提高了清洗效率,并且得到更准确的清洗结果.  相似文献   

6.
本文主要对数据清洗问题进行综述。给出数据清洗的定义和对象,简单介绍数据清洗的基本原理和数据清洗的过程,针对不同清洗对象的数据清理方法,清洗后数据的评价要求,并对今后数据清洗的研究方向和应用进行展望。  相似文献   

7.
目的 数据清洗是一个长期存在并困扰人们的问题,随着可视化技术的发展,可视数据清洗必将成为数据清洗的重要方法之一.阐述数据的主要质量问题和可视数据清洗的过程,回顾可视数据清洗的研究现状(包括数据质量问题的来源、分类以及可视数据清洗方法),并根据已有文献总结可视数据清洗面临的主要挑战和机遇.方法 由于数据清洗的方法和策略与具体的数据质量问题相关,因此本文以不同的数据质量问题为线索来归纳和评述可视数据清洗的方法和策略.结果 根据数据质量问题的不同,将可视清洗方法归纳为直接可视清洗、可视缺失数据、可视不确定数据、可视数据转换和数据清洗资源共享等,并依据不同的数据质量问题归纳总结出相应问题所面临的挑战和可进一步研究的方向.结论 对可视数据清洗的归纳、总结和展望,并指出在数据清洗领域中可视数据清洗将会是未来最有前景的研究方向之一.  相似文献   

8.
针对数据清洗中规则间逻辑冲突频发和出错率高的问题,提出一种基于偏序集的规则链自动生成方法。通过分层组合的数据清洗框架自顶向下对规则进行分类处理,采用偏序集和哈斯图自动生成每个层级的逻辑正确和一致的规则链,并设计出对应的生成算法和自动清洗算法。以扶贫领域数据为例进行实验,结果表明该方法使数据清洗效率有一定提升,清洗结果出错率明显降低,检验了方法的科学性和有效性。  相似文献   

9.
数据清洗是保证数据质量的实用方法,但是如何实施灵活的和有效的数据清洗一直是研究的难点.基于此,提出了知识建模的数据清洗来保证数据质量的有效方法.依据清洗系统的现状分析,首先给出了静态库、动态库和静态清洗系统、动态清洗系统的相关概念;然后提出了知识建模的清洗模型,并给出了模型的具体设计和实现过程.最后通过使用知识建模的清洗模型,应用企业信用数据交换系统作为实验,验证了它的灵活性和有效性,保证了数据质量.  相似文献   

10.
传统的基于事件驱动的滑动窗口清洗方法只能处理理想的匀速RFID数据流,然而在实际应用中处理非匀速数据流时却会产生较大的输出延迟.为了解决滑动窗口清洗方法的输出延迟和海量中间数据,提出了一种基于伪事件的数据清洗方法PSCleaning.该方法通过在滑动窗口中增加伪事件处理机制,有效地减小了数据的输出延迟;通过对错读和重复读进行的一次性处理,明显缩减了数据量,提高了数据清洗的效率.  相似文献   

11.
一个可扩展的数据清洗系统   总被引:3,自引:1,他引:3  
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题,要把数据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用,该文提出并实现了一个可扩展的数据清洗框架,它以术语模型、过程描述文件、共享库等概念和技术实现了模块的高度独立性和系统的可扩展性。并提供了一个可视化的流程定义环境。  相似文献   

12.
A knowledge-based approach for duplicate elimination in data cleaning   总被引:6,自引:0,他引:6  
Existing duplicate elimination methods for data cleaning work on the basis of computing the degree of similarity between nearby records in a sorted database. High recall can be achieved by accepting records with low degrees of similarity as duplicates, at the cost of lower precision. High precision can be achieved analogously at the cost of lower recall. This is the recall–precision dilemma. We develop a generic knowledge-based framework for effective data cleaning that can implement any existing data cleaning strategies and more. We propose a new method for computing transitive closure under uncertainty for dealing with the merging of groups of inexact duplicate records and explain why small changes to window sizes has little effect on the results of the sorted neighborhood method. Experimental study with two real-world datasets show that this approach can accurately identify duplicates and anomalies with high recall and precision, thus effectively resolving the recall–precision dilemma.  相似文献   

13.
基于异构数据抽取清洗模型的元数据的研究   总被引:2,自引:0,他引:2  
异构数据的抽取和清洗是企业内外异构信息统一的必由之路。基于此,该文以自行开发的ETL工具为背景,分析了异构数据抽取清洗模型的结构以及实现方式,并集中论述了其中元数据的结构。  相似文献   

14.
位置编码在数据仓库ETL中的应用   总被引:6,自引:0,他引:6       下载免费PDF全文
为了保证数据仓库中数据的质量,在数据挖掘前必须进行数据清洗。ETL是构建数据仓库的重要环节,数据清洗就包含在其中。而检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的关键问题之一。该文将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法,并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。  相似文献   

15.
原始体检数据存在信息模糊、有噪声、不完整和冗余的问题,无法直接用于疾病的风险评估与预测。由于体检数据在结构和格式等方面的不足,不适合采用传统的数据预处理方法。为了充分挖掘体检数据中有价值的信息,从多角度提出了针对体检数据的预处理方法:通过基于压缩方法的数据归约,降低了体检数据预处理的时间及空间复杂度;通过基于分词和权值的字段匹配算法,完成了体检数据的清洗,解决了体检数据不一致的问题;通过基于线性函数的数据变换,实现了历年体检数据的一致性和连续性。实验结果表明,基于分词和权值的字段匹配算法,相对于传统算法具有更高的准确性。  相似文献   

16.
入侵检测数据的获取和整理探讨   总被引:1,自引:0,他引:1  
本文讨论入侵检测数据的获取途径、方法、工具及获取数据的清理、规格化和数据转移至数据库的方法.基于网络的数据获取有网络端口数据包获取和分布式网络数据的获取.基于主机的数据获取有系统日志、注册表信息、活动目录信息等.所用工具包括Windows2003命令行工具、Wmic、C#、SQL Server和自由软件Ethereal等.  相似文献   

17.
一种提高相似重复记录检测精度的方法   总被引:2,自引:0,他引:2  
如何消除数据源中的相似重复记录是数据清理研究中的一个重要问题。为了提高相似重复记录的检测精度,在相似重复记录检测算法的基础上,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度。最后,以一个实例验证了该方法的效果。  相似文献   

18.
电子病历数据预处理技术   总被引:3,自引:0,他引:3  
多年积累的电子病历是一项重要的不可再生资源,对其数据的有效处理、利用是一项非常必要和有意义的工作。本文研究了电子病历数据前期处理的相关技术,涉及从电子文档资料到基础数据库的转换,对存入数据库的数据实施数据清理和数据变换等。通过数据预处理可以消除数据中的噪声、不完整和不一致性,实现数据的规范化和有效压缩,从而形成高质量的数据,可使数据的再处理(统计、数学建模、数据挖掘等)更加有效。  相似文献   

19.
针对城市轨道交通票卡数据流无法快速处理现状,基于云计算平台提出一种城市轨道交通大数据可视化分析方法。基于数据ID将城市轨道交通客流数据按时间段进行分表处理;基于客流关键字段建立索引数据集合并将必要客流数据字段放入对应的索引中;通过删除冗余、错误数据实现对数据筛选和清洗处理。利用ECharts中的JS插件对城市轨道交通客流数据进行可视化呈现。以JSP容器与Web服务器协同构建城市轨道交通数据可视化移动终端。以目标城市为例,对可视化系统进行验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号