首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 141 毫秒
1.
Deep Web指无法简单地通过搜索引擎或网络爬虫能够检索到的隐藏在后台数据库中,而往往这些内容具有丰富的信息和数据.获取Deep Web所蕴含的丰富信息的有效方法是构建Deep Web集成框架,而查询接口作为Deep Web的唯一访问接口,所以Deep Web集成系统的关键就是构建Deep Web集成接口.研究的目标是通过自动构建特定领域的本体来表示Deep Web接口信息,从而能够自动识别该领域Deep Web接口来建立索引,提取数据库中丰富的资源.在没有人为干预的情况下展开整个过程.本文的方法能完全自动地提取Deep Web接口信息并派生领域本体,并通过本体贝叶斯网络识别新Deep Web接口,进行匹配.在特定领域,通过一种新的自动从Deep Web接口中提取属性方法,通过WordNet构建成本体语义树,运用得到的领域语义本体树结合贝叶斯网络完成领域分类,并在分类后进行查询接口与集成接口的模式匹配.本文提出的方法通过对比人工提取属性构成的语义树在分类和模式匹配的结果进行对比,验证了该方法的可用性和适用性.  相似文献   

2.
为有效解决Deep Web数据库中数据纠错、消重和整合问题,优化Deep Web数据库实体查询性能.提出一种基于智能语义自相关特征的Deep Web数据库优化识别查询模型.模型由文本匹配模型、语义自相关特征分析模型和分组统计模型构成,设计语义自相关特征提取算法,定义语义信息约束规则,优化逼近数据库实体识别结果,使用语义自相关特征建立表象关联知识库,实现数据查询过程中的纠错、消重、整合.最后用数学推导证明了算法的稳定性.仿真模拟实验表明,算法能综合考虑文本特征、语义自相关特征和约束规则,数据库查询识别结果不断精化,数据查询准确性和有效完备性提高显著.  相似文献   

3.
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径,Deep Web爬虫是Deep Web数据源集成的关键组成部分,提出一种针对结构化Deep Web的聚焦爬虫爬行策略,通过对查询接口的特征分析来判断Deep Web数据源的主题相关性,同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息,实验证明该方法是有效的.  相似文献   

4.
一种Deep Web数据源质量评估模型   总被引:3,自引:1,他引:2  
分析了影响Deep Web数据源质量评估的若干因素,提出了一种Deep Web数据源质量评估模型.该模型从浏览器、Web数据库、Web服务器和用户四个方面对数据源进行质量评估.通过在真实的Deep Web数据源上进行实验验证,说明该方法是有效和可行的.  相似文献   

5.
基于查询接口特征的Deep Web数据源自动分类   总被引:3,自引:0,他引:3  
搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的.传统的搜索引擎搜索不出这部分页面,我们称之为Deep Web。其中大部分Deep Web是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的Deep Web数据源按所属领域进行组织可以方便用户浏览这些有价值的资源.并且这也是大规模Deep Web集成搜索的一个关键步骤。提出了一种基于查询接口特征的Deep Web数据源自动分类方法.并通过实验验证该方法是非常有效的。  相似文献   

6.
KMP算法在Web服务语义标注中的应用   总被引:1,自引:0,他引:1  
对Web服务进行语义标注是指基于领域本体对web服务进行语义描述,使其能够被计算机所理解,因此标注算法的优劣直接会影响到Web服务标注的准确率.目前人工标注方法繁琐,而全自动标注方法又无法保证其准确性,因此研究半自动语义标注是很有必要的,提出了一种概念相似度标注算法,重点介绍了KMP算法在其中的应用.大大提高了Web服务语义标注的效率和准确率.  相似文献   

7.
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性。  相似文献   

8.
重复记录是指描述现实世界中同一实体的不同的记录信息。由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究。在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型。 基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录。实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的。  相似文献   

9.
随着Web2.0应用的不断深入,浏览Web资源以及对其资源进行个性化标注的需求越来越多。但是,现有的Web2.0浏览工具或系统在个性化、智能化和易用性方面尚有很大的改进空间。本文针对社会标注在Web2.0中的大量涌现以及个性化需求的迫切性,结合社会标注和本体在概念语义描述和资源揭示上的互补优势,将其引入到个性化推荐领域,设计一种基于社会标注的个性化推荐系统模型,力图解决Web2.0环境中爆炸式增长的数据与用户个性化需求之间的矛盾,同时达到提高数据搜索效率、推荐合适信息给合适用户的目的。  相似文献   

10.
以全卷积神经网络为基础设计图像语义分割算法框架,设计全局特征提取模块提升高维语义特征的提取能力,引入带孔卷积算子保留图像细节并提升分割结果的分辨率。通过搭建端到端的图像语义分割算法框架进行训练,在可见光数据集上对算法框架进行性能评估,结果表明,本文方法在可见光图像上取得良好的语义分割性能和精度。本文还在不借助红外数据标注训练的情况下对红外图像进行分割,结果证明本文方法在典型红外目标如行人、车辆的分割中也有较好的表现。  相似文献   

11.
《现代电子技术》2020,(1):183-186
现有混合型大数据多源集成系统存在集成度较低、耦合度较低的缺陷,为了解决上述问题,引入复变函数对混合型大数据多源集成系统进行设计。根据现有系统存在的问题,搭建系统架构,以此为基础,对系统硬件计算机体系进行设计,主要由处理单元、存储单元与输入输出单元组成。系统软件主要包括数据库模块、数据查询模块与混合型数据多源集成模块。通过系统硬件与软件的设计,实现了混合型大数据多源集成系统的运行。通过测试得到,与现有混合型大数据多源集成系统相比,设计的混合型大数据多源集成系统极大地提升了集成度与耦合度,充分说明设计的混合型大数据多源集成系统具备更好的数据集成效果。  相似文献   

12.
查询自动生成器在Web数据库发现中的应用   总被引:1,自引:0,他引:1  
为了帮助用户获得一个统一的访问途径来自动地获取利用自由分布在整个万维网上的Deep Web中丰富的信息.Deep Web数据集成受到了越来越多的关注,这其中也包含若干问题急待解决.提出了在Deep Web数据集成领域中解决Web数据库的发现的一种试探性方法,并模拟了该方法的使用场景,介绍了它采用的学习方法.  相似文献   

13.
讨论语义Web下服务的发现,借助本体对信息源进行标注,使用本体概念来描述服务参数。利用本体概念之间的包含关系来实现服务匹配,而本体概念关系则依据其在相关本体概念树中的位置来确定。这种结构化数据的存储与搜索和XML数据有共同点,因此尝试把在XML数据查询中应用非常普遍的索引技术(B’-树索引)应用到的语义Web服务发现过程中,讨论了索引的建立方法并给出具体的检索算法,最后通过实验表明在大规模的服务匹配过程中应用索引可以提高搜索效率。  相似文献   

14.
语义搜索引擎概念模型   总被引:1,自引:0,他引:1  
语义搜索引擎作为未来的万维网搜索引擎,将不仅仅基于关键词检索,而是能够理解Web页面的内容,并进行逻辑推理来完成复杂的查询任务,最终返回精确的结果。对语义Web和搜索引擎技术进行了简要介绍,提出一种语义搜索引擎概念模型,并对其构成模块及模块问的互操作进行了描述,最后对概念模型具体实现上的关键技术进行了简要说明。  相似文献   

15.
张智  顾韵华 《信息技术》2011,(5):108-111
针对Deep Web的查询需求,提出了一种基于K-近邻算法的Deep Web数据源的自动分类方法。该算法在对Deep Web网页进行表单特征提取及规范化的基础上,基于距离对Deep Web网页所属的目标主题进行判定。实验结果表明:基于K-近邻分类算法可以较有效地进行DeepWeb数据源的自动分类,并得到较高的查全率和查准率。  相似文献   

16.
《现代电子技术》2016,(11):125-128
使用模块化构建了一种特定领域的Web信息集成系统,设计实现一种基于领域关键词的新闻、微博数据采集处理系统,通过用户提供的关键词,结合人工筛选进行关键词扩展,对全网相关新闻、微博数据进行采集与抽取。设计实现了一种基于关键词和转发数的新闻排序方法,对特定领域采集的新闻数据进行处理排序,遴选重要信息进行定向推送。以气候变化领域为例,设计了Web信息集成系统。  相似文献   

17.
在三维点云语义分割任务中,使用少量标注的点云数据进行语义分割可以节省人力标注成本,近年来得到学术界的普遍关注。传统的三维点云语义分割方法多利用完全监督的方式,这类方法往往需要耗费人力和时间去标注大量点云,而使用弱监督方式只需要对点云进行少量的标注就能达到和完全监督方法相同的目的。文章回顾和讨论了近年来三维点云弱监督语义分割的发展,从不同角度总结了弱监督语义分割的相关方法,基于这些方法,在四个公开数据集上对其结果进行了定量分析与讨论,最后总结了三维点云弱监督语义分割存在的挑战,并展望了未来的发展方向。  相似文献   

18.
刘杰  杜军平 《电子学报》2014,42(5):987-991
图像语义标注是图像语义分析研究中的一个重要问题.在主题模型的基础上,本文提出一种新颖的跨媒体图像标注方法来进行图像间语义的传播.首先,对训练图像使用主题模型,抽取视觉模态和文本模态信息的潜在语义主题.然后,通过使用一个权重参数来融合两种模态信息的主题分布,从而学习到一种融合主题分布.最后,在融合主题分布的基础上训练一个标注模型来给目标图像赋予合适的语义信息.在标准的MSRC和Corel5K数据集上将提出的方法与最近著名的标注方法进行比较实验.标注性能的详细评价结果表明提出方法的有效性.  相似文献   

19.
逆合成孔径雷达(ISAR)成像技术能够对空间目标进行远距离成像,刻画目标的外形、结构和尺寸等信息。ISAR图像语义分割能够获取目标的感兴趣区域,是ISAR图像解译的重要技术支撑,具有非常重要的研究价值。由于ISAR图像表征性较差,图像中散射点的不连续和强散射点存在的旁瓣效应使得人工精准标注十分困难,基于交叉熵损失的传统深度学习语义分割方法在语义标注不精准情况下无法保证分割性能的稳健。针对这一问题,提出了一种基于生成对抗网络(GAN)的ISAR图像语义分割方法,采用对抗学习思想学习ISAR图像分布到其语义分割图像分布的映射关系,同时通过构建分割图像的局部信息和全局信息来保证语义分割的精度。基于仿真卫星目标ISAR图像数据集的实验结果证明,本文方法能够取得较好的语义分割结果,且在语义标注不够精准的情况下模型更稳健。  相似文献   

20.
以往Web异常数据挖掘软件通常采用小波变换和回声状态网络模型,存在数据库内闭频繁项集"左边"数据循环散布现象,大大降低了异常数据挖掘精度。研究Web异常数据挖掘的软件开发与改进方法,通过post Web异常数据挖掘的堆栈弹出,保障Web数据库内不出现闭频繁项集"左边"数据循环散布现象。在此基础上,采用改进的K-means算法设计用户行为数据分类模块分类用户行为数据,采用异常检测模块通过MapReduce中的map函数确定数据的异常访问类型,Combine和Reduce函数汇总异常访问类型一致的异常检测数据,输出Web异常数据,并采用警告触发模块进行警告。经实验证明,所研究方法挖掘Web异常数据的平均准确度约为97.86%,挖掘不同规则中异常数据的平均结果为96.88%,说明此方法具有较高的挖掘精度和实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号