首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
汉语科技词系统建设实践——以新能源汽车领域为例   总被引:2,自引:1,他引:1  
汉语科技词系统是汉语科技词汇深层次知识组织与应用服务工具的集成体系,其知识组织核心内容包括词汇属性描述、词间关系组织、词汇类别信息模型,其核心工具包括词汇和关系的自动获取工具、协同编辑和管理平台系统以及相关应用服务接口.本文比较分析了目前国内典型的词汇语义知识工程,提出了汉语科技词系统数据模型,并以新能源汽车领域知识组织系统为例详细介绍了汉语科技词系统的内涵及相关知识模型.结合实例详细介绍了新能源汽车词系统建设过程中的数据收集策略、分析处理流程,并展望了科技词系统下一步的研发和应用方向.  相似文献   

2.
汉语科技词系统的Web服务研究与实现*   总被引:2,自引:0,他引:2  
对国内外词汇知识的Web服务研究现状进行调研分析,比较OCLC术语服务、英国高级叙词表、FAO多语种农业叙词表、STAR、中文叙词表本体网络术语学服务等国内外主要研究项目。介绍汉语科技词系统的基本架构、数据模型、功能模块和基于Web服务的汉语科技词系统应用模型、接口封装、部署、以及性能测试情况。最后对下一步研究工作进行展望。  相似文献   

3.
广义后缀树及其在汉语科技词系统中的应用研究   总被引:1,自引:0,他引:1  
科技词汇知识是科技信息智能处理的基石,如何加速汉语科技词系统的构建是目前研究的热点问题之·。考虑到中文术语构词的特点,文章引入了一种灵活的数据结构——广义后缀树,从字面的角度提出了关系辅助构建、任务分配以及输入提示等辅助工具,使得知识工程师的工作更加高效。  相似文献   

4.
传统的知识组织系统评价方式存在缺乏宏观测度,时滞过长,不能动态揭示等缺陷.本文结合复杂网络理论,从基本特性、动态特性和鲁棒性三个角度着手,对汉语科技词系统网络特性进行分析.基本特性的分析表明,汉语科技词系统同时具有小世界特性和无尺度特性,连通性良好,但是存在错误建设和重复建设的问题;动态特性的分析则表明,汉语科技词系统的小世界特性越来越显著,同时网络的性能有待进一步提高;鲁棒性的分析表明,汉语科技词系统网络面对随机删除时,具有良好的鲁棒性,面对蓄意攻击时,表现出较强的脆弱性.建议在以后的建设过程中采用有导向的建设,在系统管理和维护的过程中要注重词汇间相互关系,保证系统的连通性.  相似文献   

5.
陈稚瑶 《出版参考》2021,(11):71-73
地方方言的词汇系统中,存在大量来自普通话的词语,它们在形、义上与普通话相同,仅在读音上有所区别——这类词即"对音词".方言词典如果只收录地方特色词汇而不收对音词,可能影响词汇的系统性;而如果收录大量与普通话释义一致的对音词,又可能造成内容的冗余.本文以《闽南方言大词典》为例,探讨方言词典是否应该收录对音词、如何处理对音词以及辞书数字化背景下方言词典对音词收录的新的考虑等诸多问题.  相似文献   

6.
周雷  李颖  石崇德 《情报工程》2015,1(3):064-075
基于机器学习的分词模型可以借助科技词汇构词特征分析提升其在科技领域的适应性,本文对传统语言学的句法构词、韵律构词、语义构词几个方面理论进行总结归纳,融合术语学研究理论,围绕提升分词准确率的目的,提出了适用于科技词汇的构词特征标注系统,并对标注系统的结构进行了规划。这为科技词汇构词特征标注工作完成了前期的探索,为后期批量标注,辅助分词等环节提供了基础依据。  相似文献   

7.
文章首先介绍了汉语科技词系统的体系结构和功能,其次设计了自动赋词标引研究的整体思路,完成了自动赋词标引的系统功能实现,包括标引知识库的格式转换、算法实现和系统实现,并收集语料进行测试。最后对自动赋词标引的结果进行了分析,并且总结了该自动赋词标引研究的特点和不足,介绍了未来的工作设想。  相似文献   

8.
汉语科技词系统建设与应用进展   总被引:2,自引:0,他引:2  
汉语科技词系统是中国科学技术信息研究所提出的面向中文为主的科技信息资源管理及深层次知识服务的知识组织系统.本文介绍了汉语科技词系统的知识架构、建设流程以及在建设过程中协同构建平台开发、知识状态控制、概念描述等方面的进展.本文也介绍了新能源汽车领域词系统的建设现状及汉语科技词系统应用上的探索.新能源汽车领域科技词系统的建设及应用进展证明了领域科技词系统建设的可行性,积累了经验,也为未来大规模建设和应用提供借鉴并指明方向.  相似文献   

9.
面向信息检索的词汇知识发现   总被引:1,自引:0,他引:1  
针对信息检索中词汇知识发现问题,提出面向信息检索的词汇知识发现框架结构,对面向信息检索的词汇的定义、同义词、相关词、排除词等词汇知识获取与挖掘进行详细的介绍,为后续的语义检索研究打下基础。  相似文献   

10.
基准词是具有明确褒贬义倾向的词汇,基准词的选择对词汇倾向性判别的准确率有影响.现有的基准词选择方法主要关注的是基准词的频率、类别区分度和上下文敏感性,忽略了基准词的褒贬强度,这导致了词汇乃至更大粒度的语言单元的语义信息遗失.本文提出了一种含强度的基准词选择和词汇倾向性判别方法,首先对情感词进行语义相似性计算和聚类,然后进行倾向性计算和分类,由此得到包含语义及强度信息的基准词集,该基准词集可用于词汇褒贬性及褒贬强度的判别.我们分别使用通用搜索引擎和领域搜索引擎对该方法进行了验证,实验结果表明,领域搜索引擎下的词汇褒贬性及正负性词的褒贬强度判别准确率分别可以达到84.00%、80.49%和76.47%.  相似文献   

11.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。  相似文献   

12.
相关反馈是近年来信息检索领域的研究热点,是自动查询扩展中的一种重要形式,相关反馈主要包括检索词加权和检索词选择。本文介绍了在相关反馈技术中经典的检索词排序算法,对它们带来的性能改进做了比较,并提出了相关反馈的实际应用中需要解决的一些问题。  相似文献   

13.
本文以术语体系结构为切入点对我国档案工作基本术语的修改进行较为系统、全面的研究.在比较历版档案工作基本术语体系结构的基础上,指出了国家行业标准《DA/T 1-2000档案工作基本术语》体系结构上存在的问题,并从一级类目的设置情况、类目名称的选择、类目划分的合理性、一级类目的排列顺序、术语体系的构架层级和术语体系的构建依...  相似文献   

14.
自动术语识别是知识抽取和文本挖掘等信息技术中的关键步骤。研究现有自动术语识别的主要思路,明确其中的关键问题,研究已有的相关项目和系统的术语识别方法,并分析现有的一些术语资源。借此丰富基于术语识别的文本挖掘理论和方法,为进一步构建相关试验系统提供良好借鉴。  相似文献   

15.
杨雅娜  刘胜奇 《情报工程》2015,1(5):025-031
提出 ATValue(Advanced TValue and Fieldhood Integration) 术语抽取法。为提高术语抽取质量,在 TValue 五属性的基础上,提出领域度。通过相关性分析获得六属性组合值 AValue,最后识别AValue 高于术语可信度的词串来选择候选术语。能源行业的实验结果表明:ATValue 术语抽取法的F值约比 TValue 术语抽取法高出 2 个百分点,原因在于 ATValue 的领域度测算了词串中各种单词对领域的贡献。  相似文献   

16.
针对海量英文文献信息自动化处理问题,构建了一个基于英文超级科技词表的文献主题概念自动标引系统,采用词典与规则方法相结合的术语提取机制,实现了英文文献术语提取、规范概念映射以及优选概念标引等功能,取得了较好的标引效果。  相似文献   

17.
用词上下文向量来表达文本集内一个词语与其他词语之间的上下文关系,并在词上下文向量的基础上生成分类器中所有类别的类别特征向量,以及待分类文本的特征向量,最后由分类器给出待分类文本的所属类别。实验显示,在类别特征向量和文本向量中融入词语上下文关系有助于改善文本分类效果。  相似文献   

18.
以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。  相似文献   

19.
针对现有基于语境特征的术语相似度算法在语境模板生成和匹配过程中存在的不足,提出基于术语的句法依赖关系自动构造术语语境模板,进而通过语境模板匹配计算术语相似度的方法。该方法既能减少语境模板的生成和匹配困难,又将术语语境特征较好地保留在模板中。针对新方法提出具体的实现步骤,并选取基因工程领域实验数据对新方法和现有典型方法进行对比评测。实验证明,新方法在计算效果方面具有明显提升。  相似文献   

20.
In this paper, we propose a new term dependence model for information retrieval, which is based on a theoretical framework using Markov random fields. We assume two types of dependencies of terms given in a query: (i) long-range dependencies that may appear for instance within a passage or a sentence in a target document, and (ii) short-range dependencies that may appear for instance within a compound word in a target document. Based on this assumption, our two-stage term dependence model captures both long-range and short-range term dependencies differently, when more than one compound word appear in a query. We also investigate how query structuring with term dependence can improve the performance of query expansion using a relevance model. The relevance model is constructed using the retrieval results of the structured query with term dependence to expand the query. We show that our term dependence model works well, particularly when using query structuring with compound words, through experiments using a 100-gigabyte test collection of web documents mostly written in Japanese. We also show that the performance of the relevance model can be significantly improved by using the structured query with our term dependence model.
Koji EguchiEmail:
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号