首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。  相似文献   

2.
基于数据分组匹配的相似重复记录检测   总被引:1,自引:0,他引:1       下载免费PDF全文
周丽娟  肖满生 《计算机工程》2010,36(12):104-106
针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相似重复记录的识别。理论分析和实验结果表明,该方法识别效率和检测精度较高。  相似文献   

3.
一种相似重复记录检测算法的改进研究   总被引:1,自引:1,他引:0  
相似重复记录检测是数据清洗领域中的一个重要方面.文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法.该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率.最后通过实验证明了该算法的有效性,并提出了进一步的研究方向.  相似文献   

4.
针对多数据源集成中存在的相似重复记录的问题,提出了一种基于用户兴趣度分组的模糊匹配识别方法。首先通过用户兴趣度方法来计算属性的权值,然后按照数据分组思想,选择权值大的属性将数据集分割成不相交的小数据集,最后在各小数据集中用模糊匹配算法进行相似重复记录的识别,为了提高识别效率,可选择余下权值大的属性进行多次分组和识别。理论和实践表明,该方法有较高的识别效率,能有效解决数据集成中相似重复记录的识别问题。  相似文献   

5.
一种基于二分图最优匹配的重复记录检测算法   总被引:1,自引:0,他引:1  
信息集成系统中存在重复记录,重复记录的存在为数据处理和分析带来了困难.重复记录检测已经成为当前数据库研究中的热点问题之一.目前的方法主要集中在计算具有同样数据类型属性的相似性上,而现实系统中存在大量具有不同数据类型、不同模式的记录.针对具有多种类型不同模式数据的重复记录检测问题,提出了一种基于二分图的最优匹配的记录相似度计算方法,并基于这种记录相似性提出了重复记录检测算法.理论分析和实验结果都表明了方法的正确性和有效性.  相似文献   

6.
准确有效地集成海量Web信息, 是Web信息动态聚合、市场情报分析、舆情分析、商业智能等分析型应用的重要基础. 针对数据集成过程中不同实体指代同一实体的问题, 利用搜索引擎返回的页面摘要信息, 设计并实现了一种基于搜索引擎的同义实体识别算法FSE, 并提出了一种基于同义实体识别的Web信息集成框架. 在医院信息集成测试数据集上的实验结果表明, FSE算法效果优于基于VarientDice、VarientCosine、VarientJaccard、VarientOverlap相似度计算的同义实体识别算法.  相似文献   

7.
对基于MPN数据清洗算法的改进   总被引:2,自引:0,他引:2  
相似重复记录的清除是数据清洗领域中的一个很重要的方面,它的目的是清除冗余的数据.介绍了该问题的流行算法-多趟近邻排序算法MPN(Multi-Pass Sorted Neighborhood),该算法能较好地对相似重复记录进行清除,但也有其不足:一是在识别中窗口大小固定,窗口的大小选取对结果影响很大.二是采用传递闭包,容易引起误识别.提出了基于MPN算法的一种改进算法,试验结果证明改进算法在记忆率和准确率上优于MPN算法.  相似文献   

8.
信息集成是消除信息孤岛,实现信息共享,为企业决策提供支持的核心技术,而数据获取过程是信息集成系统的基础.在数据同步更新研究中,通过根据失配元组的间隔自适应调整窗口大小,在不牺牲效率的前提下有效提高快照差分算法的查全率.进一步,在相似重复记录检测方法的研究中,结合一种新的字符串距离度量算法,并利用二次聚类,提出一种高效的基于条件概率分布的相似重复记录检测方法.最后通过实验对比测试,对快照差分算法以及相似重复记录检测算法的性能和效率进行分析,理论分析和实验结果均证明了提出的改进算法是非常有效的.  相似文献   

9.
近似重复记录的增量式识别算法   总被引:2,自引:0,他引:2  
摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(IncrementalMulti-Passsorted-Neighborhood)。文章最后给出了实验结果。  相似文献   

10.
目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想,且国内的中文医学术语标准化进程不足。针对此问题,提出一种基于统计信息对镜检文本数据进行结构化处理的方法。该方法以聚类文本为基础,基于断点词与重合串分词,利用分词词串的统计信息获取关键词以及词语类别信息,并进行词语扩充,从而得到最终词库作为字典。利用基于字典的双向最大匹配分词算法,对文本数据进行分词,并通过添加否定检出的规则,获取结构化数据。实验结果表明,该方法获取的医学词库的准确率达到了80%,实现了不依赖分词工具获得结构化数据的功能。  相似文献   

11.
徐亮 《微型电脑应用》2022,(1):142-144,149
神经网络的连接阈值以及权值直接影响数据库重复记录的检测效果,当前方法无法找到最优的神经网络的连接阈值和权值,导致数据库重复记录检测偏差比较大,并且数据库重复记录检测效率低,为了获得更优的数据库重复记录检测结果,提出了量子粒子群算法优化神经网络算法的数据库重复记录检测方法.首先分析当前数据库重复记录检测研究进展,并提取数...  相似文献   

12.
吴春明  谢德体 《计算机科学》2011,38(10):199-201
深网入口自动识别是深网数据集成的前提和基础。由于表单在设计上具有较大的随意性,使得深网入口缺 乏统一的构建标准,难以利用确定性的规则对其进行判断。首先基于统计特征,抽取了部分表单属性作为深网入口与 非深网入口的可区分特征,在此基础上,提出了一种利用神经网络进行深网入口自动识别的方法。不同于基于规则的 判断方法,神经网络是被训练的,不需要任何先验知识,这种特性使其非常适合于对具有复杂表现形式的深网入口进 行判定。实验结果表明了该方法的有效性。  相似文献   

13.
基于QPSO-LSSVM的数据库相似重复记录检测算法   总被引:1,自引:0,他引:1  
针对大规模数据库的相似重复记录的检测问题,提出了一种量子群优化算法(QPSO)与最小二乘支持向量 机(LSSVM)相结合的相似重复记录检测方法(QPSC}LSSVM)。首先计算记录字段的相似度值;然后利用QPSO对 LSSVM参数进行优化,构建相似重复记录检测模型;最后通过具体数据集进行仿真测试实验。仿真结果表明,QPSCL LSSVM不仅提高了重复记录检测准确率,而且提高了检测效率,是一种有效的相似重复记录检测算法。  相似文献   

14.
一种高效的检测相似重复记录的方法   总被引:33,自引:0,他引:33  
如何消除数据库中的重复信息是数据质量研究中的一个热课题。文中提出了一种高效的基于N-Gram的检测相似重复记录的方法,主要工作有:(1)提出了一种高效的基于N-Gram的聚类算法,该算法能适应常见的拼写错误从而较好地聚类相似重复记录,复杂度仅为O(N);同时提出该算法的改进形式,使其在检测的同时能自动校正单词的插入、删除错误、提高检测精度。(2)采用了一种高效的应用无关的Pair-wise比较算法,该算法以单词间的编辑距离为基础,通过计算两记录中单间的编辑距离来判断记录的相似与否。(3)给出了一种改进的优先队列算法来准确地聚类相似重复记录,该算法使用固定大小的优先队列顺序扫描已排序的记录,通过比较当前记录和队列中记录的距离来聚类相似重复记录,此外,该文构造了合适的实验环境并作了大量的算法实验,在此基础上,文中分析了大量、翔实的实验结果从而验证了算法的科学性。  相似文献   

15.
Deep Web蕴涵丰富的分类信息,是融合型在线旅游业务良好的数据源。本文对Deep Web接口模式进行分析,提出了接口集成方案的流程和领域实例库的建模方法,并就酒店查询业务进行了对方案的评估。测试结果显示,在对接口页面一定积累的基础上,可以达到较高的模式匹配准确率,从而保证了Deep Web接口的正确的自动查询。  相似文献   

16.
谢琪  崔梦天 《计算机应用》2016,36(6):1579-1582
针对Web服务推荐中服务用户调用Web服务的服务质量数据稀疏性导致的低推荐质量问题,提出了一种面向用户群体并基于协同过滤的Web服务推荐算法(WRUG)。首先,为每个服务用户根据用户相似性矩阵构建其个性化的相似用户群体;其次,以相似用户群体中心点代替群体从而计算用户群体相似性矩阵;最后,构造面向群体的Web服务推荐公式并为目标用户预测缺失的Web服务质量。通过对197万条真实Web服务质量调用记录的数据集进行对比实验,与传统基于协同过滤的推荐算法(TCF)和基于用户群体影响的协同过滤推荐算法(CFBUGI)相比,WRUG的平均绝对误差下降幅度分别为28.9%和4.57%;并且WRUG的覆盖率上升幅度分别为110%和22.5%。实验结果表明,在相同实验条件下WRUG不仅能提高Web服务推荐系统的预测准确性,而且能显著地提高其有效预测服务质量的百分比。  相似文献   

17.
数据清理是构建数据仓库中的一个重要研究领域。检测相似重复记录是数据清洗中一项非常重要的任务。提出了一种聚类检测相似重复记录的新方法,该方法是基于N-gram将关系表中的记录映射到高维空间中,并且通过可调密度的改进型DBSCAN算法IDS来聚类检测相似重复记录。并用实验证明了这种方法的有效性。  相似文献   

18.
异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能构成相似重复记录的数据排除在外,减少了记录比较的次数,提高了检测效率;进一步通过设置属性有效性因子和权重比例计算有效权值,利用有效权值进行检测,提高了查全率和查准率。实验证明改进算法在各种性能上均优于SNM算法。  相似文献   

19.
Deep Web contents are accessed by queries submitted to Web databases and the returned data records are enwrapped in dynamically generated Web pages (they will be called deep Web pages in this paper). Extracting structured data from deep Web pages is a challenging problem due to the underlying intricate structures of such pages. Until now, a large number of techniques have been proposed to address this problem, but all of them have inherent limitations because they are Web-page-programming-language-dependent. As the popular two-dimensional media, the contents on Web pages are always displayed regularly for users to browse. This motivates us to seek a different way for deep Web data extraction to overcome the limitations of previous works by utilizing some interesting common visual features on the deep Web pages. In this paper, a novel vision-based approach that is Web-page-programming-language-independent is proposed. This approach primarily utilizes the visual features on the deep Web pages to implement deep Web data extraction, including data record extraction and data item extraction. We also propose a new evaluation measure revision to capture the amount of human effort needed to produce perfect extraction. Our experiments on a large set of Web databases show that the proposed vision-based approach is highly effective for deep Web data extraction.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号