排序方式: 共有113条查询结果,搜索用时 62 毫秒
31.
32.
论文元数据信息的自由抽取 总被引:1,自引:1,他引:1
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者,摘要和关键宇等元数据信息,在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。 相似文献
33.
一种用于位置数据库结构调整的增量聚类算法 总被引:3,自引:0,他引:3
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域划分能够优化位置数据库的拓扑结构,有效地降低查询和更新代价.但是随着时间的迁移,用户的移动模式会发生改变,导致原有区域的划分与当前的移动模式不符,因此产生了动态区域划分这一亟待解决的重要问题.聚类可以很好地解决区域划分问题,而对于动态区域划分问题,如果仍然采用聚类来解决,就等于重新划分,没有充分利用原有划分的信息,所需代价很大.提出了一种增量的聚类算法来解决动态区域划分问题.该方法以较小的代价调整原有划分,使得新得到的划分仍然满足区域划分所需满足的条件. 相似文献
34.
基于DOM的网页主题信息自动提取 总被引:43,自引:0,他引:43
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性,信息提取有助于解决这一问题.基于DOM规范,针对HTML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的STU-DOM树模型.将HTML文档转换为STU-DOM树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息.方法不依赖于信息源,而且不改变源网页的结构和内容,是一种自动、可靠和通用的方法.具有可观的应用价值,可应用于PAD和手机上的web浏览以及信息检索系统. 相似文献
35.
近年来,数据仓库技术在学术界和工业界都得到了广泛的关注.实时主动数据仓库(real time active data warehouse, RTADW)是数据仓库技术发展的一个新的阶段,具有十分广阔的应用前景.介绍了实时主动数据仓库的概念和特点,探讨了实时主动数据仓库的研究问题,并列举了一些典型应用. 相似文献
36.
37.
38.
39.
本体内代数系统之研究 总被引:4,自引:0,他引:4
信息检索中的语义问题一直是研究的热点。本体作为能描述语义能力的建模方法,在信息系统领域得到广泛的关注和应用。文献犤1犦犤2犦研究了在不同本体之间构建代数系统来解决分布式系统之间的语义异构。文章研究单个本体内的代数系统,给出了该代数的定义和相关概念,并结合实例指出该代数系统有利于提高信息检索的质量。 相似文献
40.
PCCS部分聚类分类:一种快速的Web文档聚类方法 总被引:16,自引:1,他引:15
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片中筛选出自已所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类分法,首先对一部分文档进行聚类,然后根据聚类结果形成类模型对其余的文档进行分类,采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集,将其余的文档使用Naive-Bayes分类器进行划分,为了提高聚类与分类的效率,提出了一种混合特征选取方法以减少文档表示的维数,重新计算文档中各特征的熵,从中选取具有最大熵值的前若干个特征,或者基于持久分类模型中的特征集来进行特征选取,实验证明,部分聚类方法能够快速,准确地根据文档主题内容组织Web文档,使用户在更高的术题层次上来查看搜索引擎返回的结果,从以主题相似的文档所形成的集簇中选取相关文档。 相似文献