排序方式: 共有113条查询结果,搜索用时 14 毫秒
11.
Web仓储是使用物化视图方法有效利用Web信息的重要技术。Web仓储系统进行刷新的目标是追求最大的系统时新性,不同的数据时新性标准,决定着不同的系统刷新方案。文章提出了一种基于“状态-效果”的系统时新性标准。分析和实验都表明,所介绍的标准和传统的基于“状态”的标准有着本质不同,它不仅倾向于用户查询结果的最佳化,视图刷新方案也有较强的可操作性,特别适合于复杂多变的Web环境。 相似文献
12.
数字图书馆科技文献知识导航 总被引:5,自引:2,他引:5
提出了一种基于分类法和主题词表的科技文献知识导航体系,该体系支持分类法和主题词表知识导航、元数据结构查询和全文检索这三种检索手段以及他们的混合应用。从分类法主题词表的概念浏览和元数据查询的语义支持的角度来说,这是一个支持概念检索的知识导航体系。根据该体系,实现了“北京大学科技文献检索系统”实验数字图书馆。 相似文献
13.
基于Boost和信任函数的多文本分类器组合模型 总被引:2,自引:0,他引:2
人们对文本分类已经进行了大量的研究,取得很多研究成果,设计多种分类器,达到相当高的分类精确度。但使用单分类器进行文本分类有一些缺点,如分类模型对样本的敏感性,而且单分类器的分类精度很难再有很大的提高。因此,使用多分类器以提高分类的精度是一个非常活跃的研究领域。文章提出使用近年在传统概率统计方法之上发展起来的信任函数理论和方法对多个文本分类器进行组合使用。具体方法是使用信任函数将分类结果进行综合,得到最终的分类结果。实验证明,基于信任函数的信息综合方法比已有的方法更合理,精度也得到提高。 相似文献
14.
基于XML的本体表示和检索技术的研究 总被引:10,自引:0,他引:10
基于XML和本体在抽象层次上都可以用带标签的有向图来表示,文章提出了用XML来描述本体,并在此基础上实现对本体中概念的检索。 相似文献
15.
保持时新性的WebView自适应物化和维护策略 总被引:1,自引:0,他引:1
WebView是指存储在WebRepository中的Web页面。WebView对于很多系统来说都非常有用,它可以给用户的查询和分析带来更快的效率,特别适合联机分析处理(OLAP)和决策支持。然而当使用Repository中的信息为用户服务时,笔者无法保证所提供的信息是最新的(与源数据保持up-to-date)。在这种情况下,虽然把这些信息返回给用户,实际上却不知道这些信息是否可以满足用户的需要。为了提高数据质量,系统需要尽可能提高数据时新性(Freshness),保持Repository与数据源相一致。该文围绕数据时新性,对系统存储哪些页面,这些页面又如何更新和维护才能取得系统能力和效率之间的平衡进行讨论,并提出一种基于效益的时新性保持方法(Profit-basedFreshness-keepingMethod,PFM),同时给出了它的近似解。实验结果说明,该方法在系统效率和数据时新性综合评估方面优于传统方法,同时对Web环境具有良好的适应性。 相似文献
16.
17.
一种无线通信环境中用户移动模式的挖掘算法 总被引:3,自引:0,他引:3
发现无线通信环境中用户的移动模式是移动对象管理中的一个关键问题.提出一种快速挖掘该模式的算法SAM(split and merge),用来挖掘移动对象所产生有序数据集中潜在的移动模式,从而为移动对象管理提供服务.该算法将自底向上搜索和自顶向下过滤技术相结合,采用图存储压缩数据集方法,利用非频繁项集分解子图和频繁长模式过滤数据集相结合的技术,大大减少了迭代次数,降低了CPU时间.最后给出了算法性能比较和算法分析.结果表明,该算法是有效的. 相似文献
18.
论文元数据信息的自动抽取 总被引:16,自引:1,他引:16
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。 相似文献
19.
基于Nearest Pair 的XML 关键词检索算法 总被引:1,自引:0,他引:1
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML 关键词检索中核心概念SLCA(smallest lowest commonancestor)的两个重要性质,并在其基础上提出了Nearest Pair 算法.该算法采用二分迭代查找技术寻找最邻近点,将求解中间结果的次数降低了一个量级.实验结果表明,该算法的性能在绝大多数情况下优于现有主流算法. 相似文献
20.
ADTree是一种基于boosting的决策树学习算法,其预测准确率比一般决策树高并可以给出预测置信度,在实际中有广泛的应用.已有的ADTree构建算法能有效地处理小规模数据,但对于大规模数据的处理非常低效.因此提出了一种新的ADTree构建算法--BICA(bottom-up induction for constructing ADTree),设计了新的数据结构和自底向上的归纳方法,并将其结合到ADTree建树过程中,能够快速地进行分裂测试评估,从而有效地提高ADTree的构建效率.实验证明,BICA对大规模数据集的处理效率明显优于已有ADTree构建算法,能够进行高效的处理. 相似文献