首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 343 毫秒
1.
杨丹  陈默  孙良旭  王刚 《计算机科学》2015,42(4):147-150
面对异构信息空间中具有时间信息的大量相互关联的异构实体数据如作者、论文、产品、电影等,提出一个以实体及关联关系为中心的多层的时态数据模型,即多层的时态实体关联网络MTE-Network,它能有效捕捉异构实体和关联关系的时间信息.基于此时态数据模型,提出了实体搜索的多模态融合的查询模型,其支持用户搜索异构信息空间中的任何类型的实体及相关实体,支持在实体级、实体聚类级和时间轴上的实体搜索,并且满足用户多模态融合实体搜索的信息需求.在真实数据集上的实验结果证明了该时态数据模型和查询模型的可行性和有效性.  相似文献   

2.
基于链接路径预测的聚焦Web实体搜索   总被引:1,自引:1,他引:0  
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值.在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法.  相似文献   

3.
现有文本数据集上的实体搜索和自然语言查询方法无法处理需要将分散在不同文档中的信息碎片链接起来以满足有复杂实体关系的查询,而知识库上的查询虽然可以表示实体间的复杂关系,但由于知识库的异构性和不完全性,通常查全率较低。针对这些问题,提出使用文本数据集对知识库进行扩展,并设计相应的含文本短语的三元组模式查询以支持对知识库和文本数据的统一查询。在此基础上,设计并实现了查询放松机制和对结果元组的评分模型,并给出了高效的查询处理方法。使用YAGO、ClueWeb09和其上的FACC1数据集,在三个不同的查询测试集(实体检索、实体关系检索和复杂的实体关系查询)上与两个典型相关工作作了比较。实验结果显示,扩展知识图谱上使用查询放松规则的实体关系检索系统的检索效果大大超出了其他系统,具体地在三个查询测试集上,其平均正确率均值(MAP)比其他系统分别提升了27%、37%和64%以上。  相似文献   

4.
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法.该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化.实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度.  相似文献   

5.
段宗涛  李菲  陈柘 《控制与决策》2021,36(5):1025-1039
实体消歧是将文本中出现的命名实体映射到一个已知的无歧义的结构化知识库中的技术.实体消歧是自然语言处理中的关键问题,对自然语言的发展起到重要作用.实体消歧对知识图谱构建、语义搜索、知识问答、推荐系统等应用有着重要的意义.对此,从实体消歧的定义、分类和相关研究基础出发,对实体消歧技术进行全面的解析.首先,对实体消歧的五元组定义进行说明,并给出实体消歧的常用分类以及相关研究基础;然后,分别对基于聚类的实体消歧、基于实体链接的实体消歧的研究内容以及研究现状进行详细综述;最后,对实体消歧的应用以及评测进行总结,并对未来研究方向进行了展望.  相似文献   

6.
现有基于密度的聚类方法主要用于点数据的聚类,不适用于大规模轨迹数据。针对该问题,提出一种利用群组和密度的轨迹聚类算法。根据最小描述长度原则对轨迹进行分段预处理找出具有相似特征的子轨迹段,通过两次遍历轨迹数据集获取基于子轨迹段的群组集合,并采用群组搜索代替距离计算减少聚类过程中邻域对象集合搜索的计算量,最终结合群组和密度完成对轨迹数据集的聚类。在大西洋飓风轨迹数据集上的实验结果表明,与基于密度的TRACLUS轨迹聚类算法相比,该算法运行时间更短,聚类结果更准确,在小数据集和大数据集上的运行时间分别减少73.79%和84.19%,且运行时间的减幅随轨迹数据集规模的扩大而增加。  相似文献   

7.
针对结构化网页中人物实体全局模式构建问题,提出了基于SVM的动态构建方法。构建分为两个阶段,第一个阶段是来自同一数据源的人物实体结构化实例到人物实体局部模式的转化,第二个阶段是利用SVM分类器完成人物实体局部模式到人物实体全局模式的映射。本方法能适应数据源的不断变化,保证了全局模式的完整性。通过实验,验证了构建算法的有效性和可行性,并对随着结构化网页不断增多时全局模式的稳定性进行了考察。  相似文献   

8.
命名实体识别和歧义消解是自然语言理解的重要研究内容。针对提供实体知识库情况下的命名实体识别和歧义消解任务,该文提出了一种基于多步聚类的方法。首先通过两轮聚类将命名实体与知识库实体定义链接,然后通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于K-Means聚类的结果调整。在CLP-2012的汉语命名实体识别和歧义消解评测数据上的实验表明,该文的方法表现出良好的性能,在测试集上的F值高出评测参赛队伍最好水平6.46%,达到86.68%。  相似文献   

9.
基于关系数据库的关键词查询,使得用户在不需要掌握结构化查询语言和数据库模式的情况下,可以方便地进行关系数据库查询.给定一个关键词查询,已有的方法通过数据库中的主外键关联,查询得到包含关键词的元组集合.但是,在很多实际应用中,元组集合的聚合结果对用户更有价值;研究了基于关系数据库的top-k聚合关键词查询,提出了基于递归的聚合单元枚举算法——基于递归的完全搜索(recursion-based full search,RFS).为了获得更好的查询性能,设计了新的排序方法、二维索引和快速搜索算法——基于输出的快速搜索(output-based quick search,OQS),从而可以高效地枚举top-k个聚合单元;在不同的数据集上进行了大量的实验,实验结果表明OQS算法具有良好的查询性能.  相似文献   

10.
智能化搜索是当今商务网站制作搜索引擎的一个发展方向 ,它的特点就是迎合每个用户的兴趣 ,将尽量精确的有关网页页面展现在用户面前。粗糙集理论是一种处理含糊和不精确性问题的新型数学工具 ,特别对于数据挖掘和知识发现更是提供了一个完备的理论基础。本文首先对Rough集理论中上、下近似集和近似精度的基本概念进行了描述 ,然后引用了Rough集中的上、下近似集及其近似精度的理论 ,利用简化的WWW模型 ,将所搜索到的网页形成一棵用户兴趣树 ,再对此棵树上的网页结点进行约简 ,从而能够使展现在用户面前的网页页面尽量准确  相似文献   

11.
针对信息检索领域特定类型实体的检索问题,在传统搜索引擎的基础上,提出一种基于多角度关联模型的实体检索方法,综合运用实体名识别(NER)、文本向量、关联规则等技术以及Wikipedia、Stanford NER等工具,并在TREC2010实体检索项目中进行评测。实验结果表明,与基于BM25和贝叶斯模型的检索方法相比,该方法的nDCG@R值平均提高11.49%和18.09%。  相似文献   

12.
深度学习实体关系抽取研究综述   总被引:3,自引:0,他引:3  
实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中抽取实体对间的语义关系.近年来,深度学习在联合学习、远程监督等方面上的应用,使关系抽取任务取得了较为丰富的研究成果.目前,基于深度学习的实体关系抽取技术,在特征提取的深度和模型的精确度上已经逐渐超过了传统基于特征和核函数的方法.围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系抽取研究进展,并对未来可能的研究方向进行了探讨和展望.  相似文献   

13.
中文实体关系抽取中的特征选择研究   总被引:9,自引:4,他引:9  
命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测  相似文献   

14.
实体属性挖掘(slot filling,SF)旨在从大规模文档集中挖掘给定实体(称作查询)的特定属性信息。实体搜索是SF的重要组成部分,负责检索包含给定查询的文档(称为相关文档),供后续模块从中抽取属性信息。目前,SF领域关于实体搜索的研究较少,使用的基于布尔逻辑的检索模型忽略了实体查询的特点,仅使用查询的词形信息,受限于查询歧义性,检索结果准确率较低。针对这一问题,该文提出一种基于跨文档实体共指消解(cross document coreference resolution,CDCR)的实体搜索模型。该方法通过对召回率较高但准确率较低的候选结果进行CDCR,过滤不包含与给定实体共指实体的文档,提高检索结果的准确率。为了降低过滤造成的召回率损失,该文使用伪相关反馈方法扩充查询实体的描述信息。实验结果显示,相比于基准系统,该方法能有效提升检索结果,准确率和F1分别提升5.63%、2.56%。  相似文献   

15.
互联网上聚集了大量的文本、图像等非结构化信息,RDF作为W3C提出的互联网上的资源描述框架,非常适合于描述网络上的非结构化信息,因此形成了大量的RDF知识库,如Freebase、Yago、DBPedia等。RDF知识库中包含丰富的语义信息,可以对来自网页的名字实体进行标注,实现语义扩充。将网页上的名字实体映射到知识库中对应实体上称作实体标注。实体标注包括两个主要部分:实体间的映射和标注去歧义。利用海量RDF知识库的特性,提出了一种有效的实体标注方法。该方法采用简单的图加权及计算解决实体标注的去歧义问题。该方法已在云平台上实现,并通过实验验证了其准确度和可扩展性。  相似文献   

16.
随着XML文档的广泛应用,使用实体识别技术对XML文档数据质量进行管理变得非常重要。 XML中实体识别技术主要用于在XML文档中发现同一实体的不同描述,其在数据质量管理中可以用于错误检测、数据集成等。由于XML文档是半结构化的, XML文档上的实体识别与纯文本和关系数据上的实体识别有着很大不同。文中介绍了XML文档上实体识别的概念和应用,分别讨论了 XML文档上几种实体识别技术的概念和原理,给出了相应的树匹配算法,最后得出结论并展望了未来的研究方向。  相似文献   

17.
冯兴杰  彭洲  张成豪  冯小荣 《计算机应用研究》2023,40(4):1052-1058+1064
实体链接的相关研究主要集中于医疗、生物和新闻领域,但在民航领域的研究较少。因此针对民航领域实体链接任务进行了研究,发现在实体链接中存在实体变体多、歧义少等问题。为解决上述问题,提出了一种基于语义推断的实体链接框架以及一种用于增强框架鲁棒性的负采样策略。在民航领域数据集上进行了对比实验,结果表明所提框架链接效果优于现有基准框架,并通过消融实验,验证了负采样策略的有效性。在负采样策略的作用下,该实体链接框架的Acc@top1高达0.875。  相似文献   

18.
根据给定查询实体与知识图谱(Knowledge Graph,KG)中其他实体的相关程度对实体进行排序,是相关实体搜索的重要支撑技术.实体间的相关性不仅体现在KG中,还体现在快速产生的Web文档中.现有的方法主要根据KG来计算实体间的相关度,但KG无法及时地反映真实世界中快速演化的知识,导致计算结果不够客观.因此,本文首先基于TransH模型提出一种候选实体搜索算法,通过分析实体在不同关系超平面中的语义表示来针对不同关系选择候选实体.为了提高候选实体排序的准确性,提出实体无向带权图模型(Entity Undirected Weighted Graph,EUWG),通过量化查询实体与候选实体在Web文档和KG中反映出的相关性,从而准确地对候选实体进行排序.实验结果表明,本文的方法能够在大规模KG中准确地搜索候选实体并对其正确排序.  相似文献   

19.
Wang  Yi-Ting  Shen  Jie  Li  Zhi-Xu  Yang  Qiang  Liu  An  Zhao  Peng-Peng  Xu  Jia-Jie  Zhao  Lei  Yang  Xun-Jie 《计算机科学技术学报》2020,35(4):724-738
Journal of Computer Science and Technology - Entity linking (EL) is the task of determining the identity of textual entity mentions given a predefined knowledge base (KB). Plenty of existing...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号