首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
为有效地利用深网中的资源,深网集成应运而生.为了提高深网集成的效率和返回结果的质量,数据源选择成为深网集成的关键技术.深网数据源大多数是结构化和非合作型的.当前已有的非合作结构化深网数据源选择的研究分为2类:一类是面向离散型关键词查询的源选择;另一类是面向字符型关键词查询的源选择,而未见面向混合类型关键词查询的结构化数据源选择的相关研究.基于此,将用户查询关键词分为检索型关键词和约束型关键词,基于主题词与主题词、主题词与特征词和直方图与直方图的关联特征构建了面向检索型、约束型混合关键词查询的层次化数据源摘要,有效地反映了非合作结构化深网数据源选择中检索型关键词的检索意图和约束型关键词的约束相关性,并依据此摘要给出了相应的数据源选择策略.实验结果表明,该方法在面向混合类型关键词查询的非合作结构化深网数据源选择时具有较好的记录召回率及准确率.  相似文献   

2.
邓松  万常选 《软件学报》2017,28(12):3241-3256
在深网数据集成过程中,用户希望仅检索少量数据源便能获取高质量的检索结果,因而数据源选择成为其核心技术.为满足基于相关性和多样性的集成检索需求,提出一种适合小规模抽样文档摘要的深网数据源选择方法.该方法在数据源选择过程中首先度量数据源与用户查询的相关性,然后进一步考虑候选数据源提供数据的多样性.为提升数据源相关性判别的准确性,构建了基于层次主题的数据源摘要,并在其中引入了主题内容相关性偏差概率模型,且给出了基于人工反馈的偏差概率模型构建方法以及基于概率分析的数据源相关性度量方法.为提升数据源选择结果的多样性程度,在基于层次主题的数据源摘要中建立了多样性链接有向边,并给出了数据源多样性的评价方法.最后,将基于相关性和多样性的数据源选择问题转化为一个组合优化问题,提出了基于优化函数的数据源选择策略.实验结果表明:在基于少量抽样文档进行数据源选择时,该方法具有较高的选择准确率.  相似文献   

3.
王江海  吴扬扬 《计算机科学》2012,39(10):170-173,186
提出了一种数据空间中的命名实体集成模型(NEIM)及其在异质异构数据源中的集成方法。命名实体模型描述了数据源、实体与实体描述间的关系,能够实现从其中任意一个息查询到其它相关信息。命名实体的集成架构指出了数据空间中命名实体集成要完成的主要任务,包括命名实体的识别、实体的集成映射和实体的统一。集成算法描述了数据空间中异构数据源包含的命名实体及其描述信息的集成方法。针对结构化半结构化数据,它采取构建映射规则,使系统可以在后期持续集成这些数据源中的实体信息,实验验证了集成方法的构建映射规则的有效性。  相似文献   

4.
在因特网上,每个主题往往拥有成百上千个相关的深网数据源,从众多的数据源中找到合适的源进行数据集成变得越来越重要.传统的考虑源质量的选择方法是不考虑源主题特性的,而是根据经验选取统一的质量维度,因而在不同主题下选择准确性有较大的差异.基于此,提出基于用户反馈的深网源选择方法,依据用户反馈获取特定主题源的核心质量维度从而建立质量评价模型.选取了三个不同主题下的数据源进行了相关的验证,实验结果表明,针对不同主题下的数据源选取,该方法均具有较高的准确性且计算量较少.  相似文献   

5.
Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利。作为Web数据源集成的一个必要的步骤,需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来。在已有的重复实体识别的工作中,主要是在两个数据源之间进行。由于Web数据源数量众多,使得这些方法无法应用于多个Web数据源之间的重复实体识别。针对这个问题提出了一种基于迭代训练的Web重复实体识别方法,可以在较小规模的训练样本上实现在多个Web数据源上的重复实体识别。通过在图书和计算机产品两个不同领域中多个Web数据源上的广泛实验,表明了提出方法的有效性。  相似文献   

6.
深网数据源的动态性、自治性和体量使第三方应用难以完全爬取所有Web数据.文中研究查询类型(仅允许Top-k查询)和查询资源约束下深网数据源爬取问题,提出基于Top-k查询约束的深网增量爬取方法,结合历史数据和领域知识,优化总体数据质量.首先基于查询树获得有效查询,利用历史数据和领域知识估计查询变化和查询代价.然后,基于估计的查询代价和数据质量,近似选择最优的查询子集最大化总体数据质量.实验表明文中方法较好地提高动态Web数据库爬取的效率和数据质量.  相似文献   

7.
装备信息集成中存在着大量的语义异构数据源,阻碍了信息的共享和交换.本体可以描述信息之间隐含的关系.在语义和知识层次上描述信息系统的概念模型,有效地解决信息集成中的语义异构问题.通过对基于本体的信息集成方法的分析,采用Wrapper/Mediator架构,提出了基于混合本体的装备基础信息集成框架,给出了框架的层次结构和关键技术.结合实际对基于本体的装备指标体系构建和查询处理问题进行了研究,验证了基于本体的信息集成方法在装备领域信息集成中的可行性和有效性.  相似文献   

8.
深网查询在Web上众多的应用,需要查询大量的数据源才能获得足够的数据,如多媒体数据搜索、团购网站信息聚合等.应用的成功,取决于查询多数据源的效率和效果.当前研究侧重查询与数据源的相关性而忽略数据源之间的重叠关系,使得不同数据源上相同结果的数据被重复查询,增加了查询开销及数据源的工作负载.为了提高深网查询的效率,提出一种元组水平的分层抽样方法来估计和利用查询在数据源上的统计数据,选择高相关、低重叠的数据源.该方法分为两个阶段:离线阶段,基于元组水平对数据源进行分层抽样,获得样本数据;在线阶段,基于样本数据迭代地估计查询在数据源上的覆盖率和重叠率,并采用一种启发式策略以高效地发现低重叠的数据源.实验结果表明,该方法能够显著提高重叠数据源选择的精度和效率.  相似文献   

9.
《计算机工程》2017,(3):32-39
针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。  相似文献   

10.
在Deep Web页面的背后隐藏着海量的可以通过结构化的查询接口进行访问的数据源。将这些数据源按所属领域进行组织划分,是DeepWeb数据集成中的一个关键步骤。已有的划分方法主要是基于查询接口模式和提交查询返回结果,存在查询接口特征难以完全抽取和提交数据库查询效率不高等问题。提出了一种结合网页文本信息,基于频繁项集的聚类方法,根据数据源查询接口所在页面的标题、关键词和提示文本,将数据源按照领域进行聚类,有效解决了传统方法中依赖查询接口特征以及文本模型的高维性问题。实验结果表明该方法是可行的,具有较高的效率。  相似文献   

11.
常伟鹏  袁泉 《计算机仿真》2021,38(1):331-335
对网络信息实体进行关联匹配,能够更好的实现网络数据的传递和分析。由于网络数据呈现多源异构,以及非均匀分布等特征,导致难以对其信息实体进行准确快速的关联匹配。由此,提出了融合多模式匹配的网络信息实体关联策略。策略考虑了网络信息实体的复杂性与动态性,首先设计了语法相似性,对大量简单信息实体进行快速匹配;然后基于深度与距离设计了语义相似性,对实体中包含的词干与复合词汇进行准确匹配;再利用数据类型建立类型相似性,对缺失信息的实体进行匹配;最后通过编辑距离与惩戒函数,设计了结构性相似度,对实体之间上下文依赖与约束进行匹配。根据实验结果,验证了融合多模式匹配的网络信息实体关联策略具有灵敏的区分能力,并且在匹配准确度和匹配效率上均取得了显著的性能优化效果,能够有效应对网络信息实体的异构与分布特性。  相似文献   

12.
实体链接是知识图谱领域的重要研究内容,现有的实体链接模型研究大多集中在对手工特征的选择上,不能很好地利用实体间的语义信息来实现更高效的实体链接效果。故提出一个基于深度语义匹配模型和卷积神经网络的实体链接模型,候选实体生成阶段采用构造同名字典,并基于上下文进行字典扩充,通过匹配来选择候选实体集。通过卷积神经网络来捕获深层语义信息,进行特征提取,并将其作为语义匹配模型的输入,通过模型训练学习选择出最佳参数,并输出语义相似度最高的候选实体作为实体链接的结果。在NLP & CC2014_ERL 数据集上较Ranking SVM模型准确率提升了3.9%,达到86.7%。实验结果表明了提出的新模型性能优于当前的主流模型。  相似文献   

13.
针对目前大多数模式匹配方法在应用于不同的匹配任务时,多策略结合时没有充分利用模式间的语义信息的问题,提出了一种改进的多策略匹配方法。该方法对部分关键匹配策略进行了改进,并通过对多策略的评价,考虑是否利用模糊综合评判法最优地结合各种策略。实验表明,该方法在保证通用性和稳定性的同时,提高了匹配结果的查全率和查准率。在现实的Web异构数据源场景中应用该方法,得到的查准率和查全率都很高,证明了该方法的正确性和有效性。  相似文献   

14.
现有区块链系统多采用平等挖矿模式,所有记账人(实体)将账本记录在单一主链上,数据存储具有随机性,且在复杂或分类金融场景下,主链数据难以关联或规律存储,导致存储及查询效率很低;同时,现有区块链系统中事件溯源大多只查询到源区块,不能判识实体间的隐含关联,查询具有局限性.针对这些问题,提出一种复合区块链关联事件溯源方法.该方...  相似文献   

15.
社交媒体与知识图谱的数据各具特点,相互之间的数据互通具有较强的现实意义,而社交账号与知识图谱实体的对齐是数据互通的前提。针对社交媒体与知识图谱的特点,提出了一种基于子图相交的对齐方法,旨在给定社交账号的情况下,根据社交账号的相关信息在知识图谱中找到正确的对应条目。该方法在候选实体生成阶段对比实验了不同的生成策略。在目标实体选择阶段提出一种基于子图相交的算法,利用社交账号的社交关系在知识图谱中映射成子图。子图相交算法通过考察子图中候选实体周围顶点的"稠密"程度,确定社交账号所对应的目标实体。由于该领域尚无公开可用的测试数据集,构造了一个基于Twitter与Wikidata的对齐数据集,使用该数据集对该方法进行评估,对比测试了标题匹配算法和AGDISTIS算法,子图相交算法能够达到更好的效果。  相似文献   

16.
实体链接任务是识别文本中潜在的实体指称,并将其链接到给定知识库中无歧义的实体上。在绝大多数情况下,实体链接可能存在中文短文本缺乏有效上下文信息,导致存在一词多义的歧义现象;同时候选链接过程中,候选实体的不确定相关性也影响候选实体链接精确性。针对上述两个问题,提出深度神经网络与关联图相结合的实体链接模型。模型添加字符特征、上下文、信息深层语义来增强指称和实体表示,并进行相似度匹配。利用Fast-newman算法将图谱知识库聚类划分不同类型实体簇,将相似度计算得分最高候选实体所属实体簇映射到关系平面,构建聚类实体关联图。利用偏向随机游走算法考查候选实体之间语义相关度,计算指称与候选实体的匹配程度,输入链接实体。该模型可以实现短文本到知识图谱目标实体的准确链接。  相似文献   

17.
问句实体链接不仅需要大量的数据处理和特征选择工作,而且容易形成错误累积,降低链接效果.针对这种情况,文中提出基于注意力机制的编码器-解码器问句实体链接模型.模型使用双向的长短期记忆网络编码问句,经过注意力机制解码,生成对应的实体指称和消歧信息输出,最后链接到知识库实体.在有关汽车领域车系产品问句和实体数据集上的实验表明,文中模型仅利用较少的上下文信息便可取得良好效果.  相似文献   

18.
杨丹  陈默  申德荣 《计算机科学》2017,44(2):112-116
异构信息空间中的实体和关联关系普遍具有时间信息、多种时间版本的实体数据共存,而传统的实体集成忽略了时间信息,不支持时间维度上的集成。提出一种异构信息空间中时间感知的实体集成框架T-EI,从大量异构实体数据中聚集事实形成干净的、完整的、具有时间信息的实体概貌,进而支持时间感知的实体搜索。T-EI利用实体及关联关系所具有的时间信息提出时间感知的实体识别算法,并通过考虑数据时效性提出时间感知的数据融合算法。在真实数据集上的实验结果表明了T-EI的可行性和有效性。  相似文献   

19.
高明  黄哲学 《集成技术》2012,1(3):47-54
随着Deep Web数量和规模的快速增长,通过对其发起查询请求以得到存储在后台数据库中的相关信息,日渐成为用户获取信息的主要方式。为了方便用户有效地利用Deep Web中的信息,越来越多的研究者致力于这一领域的研究,重点之一是Deep Web后台数据库的数据集成。由于Deep Web后台数据库存储的主要是文本信息,使得从文本处理角度出发,针对Deep Web中存储的内容进行查询与检索的研究具有十分广阔的应用前景。本文对Deep Web的研究现状进行了较为详细的分析,同时对研究的发展方向进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号