排序方式: 共有68条查询结果,搜索用时 15 毫秒
1.
图被广泛用来建模在社交网络、语义网、计算生物学和软件分析中的应用.可达性查询是图数据上的一种基础查询.当前,针对图上的可达性查询已经提出了一些索引算法,但是它们不能灵活地扩展到大的图数据.因此,提出了一种索引方法RIAIL(reachability index augmented by interval labeling).RIAIL将结点的标记信息表示成四元组.前两个元素是区间标记,编码生成树的可达性信息,后两个元素编码非树边的可达性信息.RIAIL查询时只需索引且索引创建代价小.最后,通过大量真实和人工生成数据集上的实验说明,RIAIL能够高效地处理可达性查询,并且可以简单地扩展到大的图数据. 相似文献
2.
一种基于语义及统计分析的Deep Web实体识别机制 总被引:1,自引:0,他引:1
分析了常见的实体识别方法,提出了一种基于语义及统计分析的实体识别机制(deep Web entity identification mechanism based on semantics and statistical analysis,简称SS-EIM),能够有效解决Deep Web数据集成中数据纠错、消重及整合等问题.SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果;根据可获取的有限的实例信息,采用静态分析、动态协调相结合的自适应知识维护策略,构建和完善表象关联知识库,以适应Web数据的动态性并保证表象关联知识的完备性.通过实验验证了SS-EIM中所采用的关键技术的可行性和有效性. 相似文献
3.
Deep Web中蕴含着大量高质量的数据,然而只有通过Web查询接口对Web数据库提交查询才能获取这些数据,因此,自动获取Web查询接口模式是实现Web数据库集成的关键.将Web查询接口模式的抽取过程看作一个词法分析的过程,通过构建EGLM-FA(元素分组及标签匹配有限状态自动机)来完成对Web查询接口模式的抽取.首先应用Html呈现引擎将Web查询接口所在页面进行解析,利用查询接口Form中的DOM节点及其坐标信息构建相应的NSS(节点空间结构),之后再将所有的NSS组成NSS列表,将NSS列表作为EGLM-FA的输入,进而抽取出Web查询接口的模式. 相似文献
4.
支持Web深层数据库网格的部分关键技术的研究 总被引:1,自引:1,他引:0
当前,深层Web数据库数量急剧增加,然而其知识并没有得到有效的利用.本文提出将特定的深层Web数据库应用于网格环境中的思想,并针对支持深层Web数据库网格的部分关键技术进行研究,主要包括:(1)深层Web数据库元信息定义模型与模式抽取模型的研究;(2)多层次的模式匹配模型和自协调模型研究;(3)基于属性松弛的Web数据库查询与集成模型研究;(4)多目标函数代价模型和面向局部性的自适应优化调度模型研究.研发成果将为构建深层Web数据库网格提供良好的支持,就像网格的概念所定义的一样,为用户提供统一的接口,可按需为消费者提供集成的深层Web数据知识.其具有广阔的应用前景. 相似文献
5.
6.
重复记录是指描述现实世界中同一实体的不同的记录信息。由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究。在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型。 基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录。实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的。 相似文献
7.
相似性连接技术在数据清洗、数据集成等领域中具有重要意义, 近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现, 传统的串行相似性连接方法已经不能满足当前大数据处理的需求.近些年, GPU作为协处理器在机器学习等领域取得了良好的加速效果, 因此基于GPU的并行算法开始成为解决各类性能问题的有效解决方案.为此, 提出了基于CPU-GPU异构体系的并行相似性连接方法.首先, 方法使用GPU构建倒排索引, 索引采用SoA(struct of arrays)结构, 从而解决了传统索引结构在并行模式下读写效率低的问题.其次, 针对串行算法的性能问题, 提出基于过滤验证框架的并行双重长度过滤算法, 其中利用前缀过滤和构建好的倒排索引提升过滤效果.方法中相似度精确计算验证过程使用CPU计算执行, 从而充分利用CPU-GPU的异构计算资源.最后, 在多个数据集上进行实验验证性能.通过与串行相似性连接算法进行对比, 实验结果表明所提出方法相对于已有方法具有更好的过滤效果和更低的索引生成代价, 并在相似性连接上具有更好的性能和良好的加速比. 相似文献
8.
链接跨组织数据库中表示同一实体的记录,同时保护存储在这些数据库中实体的隐私,是安全有效地整合多源数据资源的核心技术之一。然而,已有隐私保护记录链接(privacy-preserving record linkage,PPRL)技术中的分块方法不能同时保证高查全率和高查准率,强隐私性的匹配方法存在时间代价过大的不足,且对多于两个数据库间的匹配研究很少。针对上述问题,提出了一种多方强隐私保护记录链接方法(multi-partystrong-privacy-preserving record linkage,MP-SPPRL)。首先,提出了一种局部敏感哈希(locality sensitiveHashing,LSH)结合后缀分块的二次分块方法,并引入分块分散度调节两次分块,在保证MP-SPPRL高查全率的前提下有效地提高了查准率;接着,利用滑动窗口合并分块生成候选记录组,保证MP-SPPRL的容错率;然后,采用基于同态加密的Hamming距离计算方法,设计了一种适用于大型数据的基于安全多方计算(securemulti-party computation,SMC)的可伸缩多方记录匹配算法,通过缩减加密记录数量和提前终止不可能匹配的候选记录组的距离计算,显著降低了匹配的时间代价,提高了MP-SPPRL的效率;最后,通过大量实验验证了MP-SPPRL的高查全率、高查准率和高效性。 相似文献
9.
实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它
在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段
聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。 相似文献
10.
随着移动设备的日益普及,积累了大量的用户签到兴趣点数据,用户签到的信息使下一兴趣点推荐成为近年来研究的热点问题.下一兴趣点推荐的准确性主要受到两方面的制约:一方面,签到数据稀疏性问题.当前研究者通过引入兴趣点的地理相关性或社交网络中的朋友评价信息来改善数据稀疏问题,但并不是所有兴趣点之间都存在强地理相关性,且社交网络中只存在少量用户对签到的兴趣点发表评论.另一方面,基于深度学习训练兴趣点签到序列存在梯度消失的问题.针对这些问题,提出融合区域与朋友影响的用户下一兴趣点推荐模型.首先,将兴趣点区域信息融入用户签到兴趣点序列中;其次,使用带有残差连接的神经网络模型对序列进行嵌入,避免梯度消失,提高模型收敛性;最后,融合朋友访问的兴趣点信息进行下一兴趣点推荐,进一步提高兴趣点推荐的准确性.实验数据表明,与其他推荐模型相比,提出的模型具有较高准确性. 相似文献