首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 90 毫秒
1.
基于元数据的WEB信息描述方法的应用研究   总被引:1,自引:0,他引:1  
本文介绍了元数据的概念,并以元数据为基础,以中文WEB文档的自动抽词、中文Web文档关键词的提取和自动摘要、中文WEB文档的自动分类为流程介绍了WEB信息描述的方法,并建立了无字典自动抽词模型,对中文WEB文档的自动分类作了深入的理论探讨。  相似文献   

2.
基于文档实例的中文信息检索   总被引:2,自引:0,他引:2  
传统的信息检索系统基于关键词建立索引并进行信息检索.这些系统存在查询返回文档集大、准确率低和普通用户不便于构造查询等不足.为此,该文提出基于文档实例的信息检索,即以已有文档作为样本,在文档库中检索与样本文档相似的所有文档.文中给出了基于文档实例的中文信息检索的解决方法和实现技术.初步实验结果表明该方法是行之有效的.  相似文献   

3.
隐含语义索引及其在中文文本处理中的应用研究   总被引:33,自引:0,他引:33  
信息检索本质上是语义检索,而传统信息检索系统都是基于独立词索引,因此检索效果并不理想,隐含语义索引是一种新型的信息检索模型,它通过奇异值分析,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度,使得文档之间的语义关系更为明晰。实验和理论结果证实了隐含语义索引能够取得更好的检索效果。本文论述了隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用,包括中文文本检索、中文文本分类和中文文本聚类等。  相似文献   

4.
本文主要介绍我们参加863信息检索评测的情况.我们的信息检索系统采用基于语言模型的信息检索方法,将命名实体技术运用在查询向量的构造中,利用基于链接分析的PageRank算法计算文档的先验概率,并在自动查询中采用了相关反馈技术.文章还介绍了系统构成的软硬件环境及相关评测数据,给出了对待自动查询和人工查询的不同策略,并通过实验结果的比较,分析了中文信息检索中比较有效的方法,最后给出了系统存在的不足以及今后改进的方向.  相似文献   

5.
中文文档自动分类系统的设计与实现   总被引:34,自引:4,他引:30  
文档自动分类是信息处理领域中的一项重要研究课题。本文阐述了一个中文文档自动分类系统的设计与实现,并着重介绍了系统实现中的一些主要技术问题的处理,如文本分类模型、特征提取、词典构造等。  相似文献   

6.
分类查询是网络信息检索的重要组成部分.文章介绍了一个中文网页分类查询系统的设计与实现方法.由于人工分类费时费力,而自动分类需要大量训练数据,因此在实现该系统时提出了一种基于用户推荐机制的解决方案.  相似文献   

7.
基于N-gram信息的中文文档分类研究   总被引:12,自引:3,他引:9  
传统文档分类系统都是基于文档的词属性,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N-gram信息的中文文档分类,使中文文档分类系统摆脱对词典和切词处理的依赖,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法,实现了一个基于N-gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能。  相似文献   

8.
何涛  黄国兴 《计算机科学》2004,31(12):137-138
目前,对于外文文档的自动分类,已有许多有效的方法。但是,中文的特殊性使得这些方法对于中文文档不是很有效。本文提出了一种比较简单的中文文档的自动分类方法,即不用语句分割,只需要计算出文档中各个单字出现的频率,对照已经训练过的模版,就可以比较准确地对其分类。  相似文献   

9.
杨为民  李龙澍 《微机发展》2007,17(2):135-137
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统,仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。  相似文献   

10.
查询词语和文档中词语的不匹配是影响文本信息检索效果的一个关键因素.查询扩展技术可以在一定程度上解决这种词的不匹配问题,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索精度.利用自动构建的相关术语群来进行查询扩展以提高中文检索的效果.在NTCIR中文信息检索测试集上进行的实验表明,相对于传统的查询扩展方法,在检索效果上取得了平均24.5%的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号