首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于反馈规则学习的医学文献主题自动标引方法   总被引:3,自引:0,他引:3  
梁红兵  杨铭魁  黄晓 《计算机工程》2003,29(11):174-176
就中医药文献的自动标引研究,介绍了一种基于规则学习的主题自动标引方法。与以往基于词频统计和加权的自动标引方法,基于反馈的规则学习的方法能有效提取文献的副主题词,并进行主/副题词组配,具有很好的扩展性和适应性,基于此方法开发的系统在大量中医药文献中作了实验,获得了很好的标引结果。  相似文献   

2.
对药物专利中族性结构进行标引是将专利文本信息转换成结构信息用于族性结构的匹配检索。本文根据国家知识产权局知识产权出版社数据研发中心提出的新的图形化标引语言GFL对近千余篇药物专利进行了标引。结合GFL的特点,统计分析药物专利中出现频率很高的结构片断,将这些结构片断的标引结果利用面向对象编程技术设计成一系列的族性模板,便于标引人员直接调用,有利于实现标引工作的半自动化。  相似文献   

3.
领域Ontology的自动丰富——基于ADL地名表的实例研究   总被引:1,自引:0,他引:1  
葛宁  王军 《计算机科学》2007,34(9):156-162
本文以一个地理特征词表(Feature Type Thesaurus,F1T)为研究实例,提出了一种对领域Ontology进行自动丰富的方法。FTT描述了200多种地理特征类型,依照等级结构组织,用于标引和组织美国亚历山大数字图书馆地名表(ADL Gazetteer)中的6百万个地名。为了对F1可进行自动丰富,(1)首先从地名中抽取和发现有检索价值的、表示地理特征类型的通用词;(2)根据它们和标引主题词间的同现关系,在相同词族词汇的聚类过程中,确定与之相对应的主题词,进而将提取出的通用词定位到F1T的等级结构中。充分利用已经存在的大量标引语料,实现通用词的定位分析是核心内容,并且实验结果证明有效性达到82.7%。这项研究的实质是从Ontology标引的语料库中自动提取领域知识和标引知识,达到对Ontology的自动丰富。这一方法可以应用到类似的语料库和知识库上,实现新术语的发现、Ontology自丰富及其互操作。  相似文献   

4.
自动标引中中文姓名的切分   总被引:2,自引:2,他引:2  
靳从  唐振民  杨静宇 《计算机工程》2003,29(22):153-154
主题词的分割是计算机自动标引的第1步,由于中文姓名不像英文、欧洲语言那样可以通过大写字母来辨别,这就给姓名的识别带来一定的困难。该文根据自动标引系统的要求,充分利用姓名的特点及相关信息,给出了一个基于姓名基本结构的切分方法。通过系统标引结果证明了方法的可行性。  相似文献   

5.
基于语义网技术的主题词自动标引   总被引:1,自引:0,他引:1  
为了实现电子政务公文主题词语义意义上的自动标引,创建了电子政务领域的概念空间,包括使用主题词表本体形式描述基本的概念及其关系和使用语义网资源描述框架表示概念类别词及其关系,然后根据主题词表抽取出题名所包含的主题词,并消除歧义词,最后将所得到的主题词使用逻辑推理机RACER进行语义逻辑的推理,从语义的角度进行主题词标引,突破机械标引的局限。  相似文献   

6.
中文信息的标引是国内信息导航系统实现的基础,汉语分词和语义提取是目前尚未解决的难题。本文比较了信息检索系统中目前主要使用的标引方法,根据国内信息导航系统处理对象的“中文”特征,提出了关键词标引与全文标引相结合的混合标引方法,并给出了具体的实现方法,较好地解决了查全、查准和标引空间的增长问题。文中最后也给出了中文信息标引处理后入库的数据的检索方法。  相似文献   

7.
陆小华 《办公自动化》2002,(G00):206-212
本文结合Internet中文信息检索系统(WAIS)这样一个特定环境,探索了一种基于频率统计的中文自动标引方法,以往的自动标引方法所采用词典匹配法有词典不完备等限制,而本文所介绍的方法则实现了不用任何词典,并进行了真正的全文献处理的自动词抽词标引,它突破了已有经验和知识的限制,能自动发现和学习新词,可以说它是一种具有自学习特点的智能型中文文献的自动标引方法。基于该方法的自由词主题标引系统已经实现。在Internet下被应用于采用WAIS工具进行中文信息的检索和查询,为在Internet上建立中文信息库和信息查询开辟了道路。  相似文献   

8.
本文实现了一个媒体资产管理中的语音人机界面标引系统。系统以连续混合高斯隐马尔可夫模型为基础,采用分层构筑维特比算法进行训练和识别。为实现标引的实时性.采用实时计算的方法。为了减少计算量.并没有将状态持续时间分布引入Viterbi译码,而是将其作为后处理部分。对于数字识别,以声调作为辅助判决。以此做了一个体育赛事的词库.测试表明,标引系统首选识别率达到93.5%,前五选识别率达到98%。  相似文献   

9.
一类规范文本篇章结构的自动标引   总被引:2,自引:1,他引:2  
本文通过对汉语文本中标题和段的级、标题的型等概念的描述与分析,讨论了汉语文本篇章结构的标引问题,提出了规范文本的概念,并给出了规范文本篇章结构的一种标记方法,在此基础上,讨论并实现了规范文本篇章结构的自动标引,给出了标引算法。  相似文献   

10.
基于本体的语义标引研究与实现   总被引:2,自引:0,他引:2  
标引是资源管理与检索的基础.传统的标引方式仅停留在关键字异同的逻辑层面,忽略了文档语义层面上的信息.以本体的知识组织体系为基础,以抽取文档的语义向量为目标,提出了基于本体的语义标引思想,为基于概念匹配的语义检索创造条件.为了更清晰的描述标引过程,建立了基于本体的语义标引模型,并对模型中各环节进行详细的功能定义.参照具体的实例本体进行实验和分析.  相似文献   

11.
基于反馈规则学习的医学文献主题自动标引系统   总被引:1,自引:0,他引:1  
该文就中医药文献的自动标引研究,提出并开发了一个基于规则学习的主题自动标引系统。该系统从文献的题名中抽取并识别主题模式,相当有效地解决了医学科技文献的自动标引中涉及主/副题词的组配问题,并避免了基于词频处理的自动标引中存在的中文分词的障碍。开发完成的自动标引系统初期版本在大量中医药文献中进行了实验,取得了很好的结果,具备一定的实用性。  相似文献   

12.
无标引题检索系统的实现是针对目前计算机题录标引、检索中存在的一些难以克服的困难,结合计算机硬件系统的不断发展所作的一次实验性尝试。随着现代计算机技术的不断发展和完善,计算机的内存容量不断扩大,成本不断下降。本系统充分利用这种优势,把所有数据一次性调入扩展内存,对数据的检索仅在内存中进行,避免了反复访问磁盘,从而提高检索速度。本系统还充分利用Borland C++的优势,采用面向对象程序设计工具Tu  相似文献   

13.
自动标引是基于内容检索的关键技术之一。目前国内的汉语自动标引研究主要集中于汉语自动分词这个前期处理问题上。提出了一种基于词平台的汉字编码方法,建立了一种新的中文计算机文档表达格式,使词成为最小的信息单位,汉语分析无需再进行自动分词,可直接进行自动标引,从而提高自动标引的效率和质量。  相似文献   

14.
汉语文本形式结构分析及其标引算法   总被引:3,自引:0,他引:3  
单永明 《中文信息学报》2002,16(2):14-19,26
本文从形式化的角度讨论了汉语文本的形式结构及有关的基本概念,给出了文本的标题、子标题、段落及其层次结构的一种划分与标记方法,提出了规范的与准规范的文本等概念,并以此为基础讨论了文本形式结构的标引问题,给出了两个标引算法。本文阐明的方法和结果对汉语文本的全文文本标引及结构化分析具有直接的现实意义。  相似文献   

15.
胡运发  葛家翔 《软件学报》1997,8(A00):296-300
本文主要介绍大型图书馆智能化管理与辅助决策中有关自动标引原理,类比分类,智能检索等方法。  相似文献   

16.
就海量视频数据进行标引的方法进行了阐述,对元数据、Dublin Core、OAIS进行了分析。通过研究这些技术在视频挖掘中所具有的优势,提出了一种海量视频数据标引平台的体系结构并实现了相关的功能模块,并对视频数据的搜索提出了一个基于标引的解决方法。实验结果证明,该平台可为互联网视频搜索的发展提供更加快捷、方便、准确的标弓l和检索模式,有效降低了用户获取相关视频数据的时间。  相似文献   

17.
基于中文题名的计算机辅助标引   总被引:1,自引:0,他引:1  
本文阐述了基于中文文献题名的计算机辅助标引系统的组成结构,并讨论了其中的一些关键技术问题,文章从系统结构设计方面,对该系统的建表模块,目录模块,分词标模块,校对模块,选号打印模块和系统管理模块进行了讨论,并着重讨论了分词标引技术。  相似文献   

18.
关键词自动标引的最大熵模型应用研究   总被引:37,自引:0,他引:37  
关键词是文档管理、文本聚类/分类、信息检索等领域可利用的重要资源,因此该文提出了利用最大熵模型进行自动标引的技术.最大熵模型为一个成熟的数学模型,已经应用到计算语言学的各个领域.然而它的应用非常灵活,针对标引任务和现有资源的实际情况,作者首先建立了最大熵模型的特征集合,然后提出了三种试验方法,并给出了相应的试验结果,最后针对最大熵模型在关键词自动标引任务中的应用做了有益的分析和探讨.该研究对于关键词标引研究以及最大熵在其他领域中的应用将有所启示.  相似文献   

19.
基于案例系统的一种案例标引和获取方法及算法   总被引:1,自引:0,他引:1  
基于案例系统通过模拟人们分析和处理问题的方式,以达到辅助决策的目的。案例标引和获取是基于案例系统中的两个重要环节。针对已有方法的不足,提出一种新的案例标引和获取方法。  相似文献   

20.
基于UCL的网页自动标引技术   总被引:5,自引:0,他引:5  
UCL(UniformContentLocator)是作者、编者和读者进行语义沟通的工具,是进行信息快速选择、智能代理和信息主动服务的基础。该文针对网络信息检索中的自动标引问题,提出了一种基于UCL的网页自动标引技术。研究了从HTML编写的网页映射到XML文档的过程,并从中提取符合用户兴趣模型的UCL字段,从而达到网页自动标引的目的。实验验证了理论方案的正确性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号