首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 73 毫秒
1.
提出一种新的政务本体术语自动抽取的方法。首先通过中文分词技术和单字合并法提取政务文本中的词作为候选术语;通过C-value求解法和TF-IDF算法对候选术语进行过滤抽取,从而实现政务领域术语的自动抽取。通过实验比较,发现该方法在不影响领域术语抽取召回率的同时可以提高抽取术语的正确率。  相似文献   

2.
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%.  相似文献   

3.
领域中文术语识别与抽取是领域中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。在对领域术语的内涵和特征的阐述基础上,重点对领域中文术语识别与抽取的研究现状、主要的方法以及典型的应用进行综述,最后指出其未来的发展趋势。  相似文献   

4.
专利技术术语的抽取方法   总被引:2,自引:0,他引:2  
针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中抽取技术术语.该模型分为四个阶段:①分词和词性标注; ②运用语言学规则取得可能术语列表; ③计算词语的术语度值,取得候选术语列表; ④领域专家评估并确定术语.实验结果证明,提出的方法能很好地抽取中文专利技术术语,在长术语的抽取和抽取精度上比C-value方法更具有优势.  相似文献   

5.
基于多策略融合的中文术语抽取方法   总被引:2,自引:0,他引:2  
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术.相对于单词型术语,词组型术语的识别过程要更加复杂.由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题.文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务.实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能.  相似文献   

6.
以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响.本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在语句的术语度,进行基于多层术语度的一体化术语抽取.该研究有两个特色:首先,采用条件随机场模型,能有效融合语言学方法和统计方法,实验结果表明了基于一体化策略的术语抽取方法的有效性;其次,通过语料库比较方法,提出基于多层术语度的术语抽取方法,该方法能抽取多字术语,实验结果表明了利用多层术语度进行术语抽取的有效性.  相似文献   

7.
杨雅娜  刘胜奇 《情报工程》2015,1(5):025-031
提出 ATValue(Advanced TValue and Fieldhood Integration) 术语抽取法。为提高术语抽取质量,在 TValue 五属性的基础上,提出领域度。通过相关性分析获得六属性组合值 AValue,最后识别AValue 高于术语可信度的词串来选择候选术语。能源行业的实验结果表明:ATValue 术语抽取法的F值约比 TValue 术语抽取法高出 2 个百分点,原因在于 ATValue 的领域度测算了词串中各种单词对领域的贡献。  相似文献   

8.
[目的/意义]提出利用丰富的论文关键词知识获取专利文本之外的有效特征,以弥补因专利文本集自身信息不足而制约专利术语抽取效果这一缺陷,提高专利术语抽取准确率。[方法/过程]根据相关论文的关键词知识,分别提出领域相关度和首尾度两个特征,以衡量候选术语成为术语的可能性,并将这些特征融入到专利术语抽取的传统方法之中。[结果/结论]实验结果表明,利用论文关键词得到的候选术语领域相关度和首尾度信息,可使结合论文关键词知识的方法比传统的术语抽取方法的准确率有了明显的提升。  相似文献   

9.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。  相似文献   

10.
文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则的方法的确可以正确抽取出术语,而且,通过与现有算法的比较,可以发现,关联规则在算法实现难度和算法占用资源方面具有较明显的优势。  相似文献   

11.
在简要论述“科技报告”、“科技报告制度”和“科技报告体系”的内含、作用及有关问题的基础上,深入  相似文献   

12.
在简要论述“科技报告”、“科技报告制度”和“科技报告体系”的内含、作用及有关问题的基础上,深入辨析三者之间的区别和联系.从理论上纠正一些科技人员对科技报告的认识误区,有助于广大科技人员准确理解和把握这3个概念之间的关系,对普及科技报告知识、推进科技报告制度的建立和科技报告体系的建设以及科学规划和规范开展科技报告工作具有重要的现实意义.  相似文献   

13.
国家科技报告制度建设已经成为我国深化科技体制改革,加快创新体系建设的重要内容。科技报告制度建 设作为科技管理体系的重大变革,涉及到多方权利义务关系的重大调整,必须谨慎操作,确保工作流程顺畅、责任清 晰、利益关系均衡。本文梳理了国家科技报告制度建设试点工作的依据和基本要求,回顾了试点工作的全过程,分析 了强化组织管理、完善标准制度体系、探索实施推进方式、保护知识产权等主要实施策略,并从地方科技报告体系建 设、科技报告质量控制、科技资源关联与集成以及系统与服务优化等4 个角度对我国的科技报告制度建设进行了展望。  相似文献   

14.
[目的/意义]图书馆是实施科技报告存储与传播的核心推进力量,为探索良好实践的实施细节,调查国外科技报告的相关管理措施。[方法/过程]调研分析英国的法律法规以及科研资助机构、科研教育机构的相关政策,以文献综述的方法梳理政策要素。[结果/结论]调查结果显示,有效推进科技报告存储与传播的政策环境,包括以下要素:保障贡献者的署名权和财产权,实现公众的知情权和使用权,落实资助者要求存储与共享的在先权利和审查权利,明确管理者的角色定位与问责机制等。图书馆在实施过程中应注意各方利益关系人的权益平衡。  相似文献   

15.
徐峰 《情报工程》2017,3(5):004-011
与科技智库一样,面向科技创新决策提供支持服务一直都是科技情报的核心功能属性。本文从科技情报与科技智库机构发展的一体化、成果产出的趋同化和研究方法的定量化等三个角度,对当前科技情报与科技智库正呈出现融合发展的态势进行了分析研究。文章认为,随着我国大力推动中国特色新型智库的建设,科技情报与科技智库的融合发展,既给我国传统科技情报机构提供了新的发展机遇,也将加快推动我国科技智库体系的建设完善。  相似文献   

16.
地方科技报告制度建设探究   总被引:1,自引:0,他引:1  
为推动地方科技报告制度建设的不断完善,从出台政策文件、呈交科技报告、设立专业机构、推进宣贯培 训、建设管理系统、开展相关研究6个方面,对地方科技报告制度建设进展情况进行整理分析。根据科技报告制度建设 实践经验,提出目前地方科技报告制度建设中存在的问题,包括政策制度不健全、标准规范格式不统一、呈交质量参 差不齐、共享服务方式不明确等,并从科技报告的培训与撰写、呈交与审核、共享与服务3 个角度给出相关建议。  相似文献   

17.
传统的知识组织系统评价方式存在缺乏宏观测度,时滞过长,不能动态揭示等缺陷.本文结合复杂网络理论,从基本特性、动态特性和鲁棒性三个角度着手,对汉语科技词系统网络特性进行分析.基本特性的分析表明,汉语科技词系统同时具有小世界特性和无尺度特性,连通性良好,但是存在错误建设和重复建设的问题;动态特性的分析则表明,汉语科技词系统的小世界特性越来越显著,同时网络的性能有待进一步提高;鲁棒性的分析表明,汉语科技词系统网络面对随机删除时,具有良好的鲁棒性,面对蓄意攻击时,表现出较强的脆弱性.建议在以后的建设过程中采用有导向的建设,在系统管理和维护的过程中要注重词汇间相互关系,保证系统的连通性.  相似文献   

18.
科技报告作为国家重要的战略信息资源,其制度体系建设对政府财政投入形成的科学技术资产进行有效 管理,并使之成为国家科技创新体系的基础保障条件具有重要意义。文章分析建立科技报告制度体系的意义和作用, 基于美国政府科技报告制度体系建设的实践经验,初步构建我国科技报告制度体系的基本框架,包括战略管理层面、 组织架构层面、管理流程层面和科研文化层面的制度要素,并提出科技报告制度体系建设中相关方的利益保障措施。 通过分析我国科技报告制度建设试点工作的主要环节及其已经取得的进展,为推动科技报告制度融入现行科研管理体 系以及促进国家科技报告体系的科学、合理、高效建设提供参考。  相似文献   

19.
基于C-value与TF-IDF的文献簇主题识别研究   总被引:1,自引:0,他引:1  
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一.引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此需要识别这些文献簇的内容特征.本文分析了引文分析中文献簇主题识别的典型方法及局限,提出了结合C-value和TF-IDF算法的文献簇主题识别方法.实验表明,该方法可以充分地利用C-value和TF-IDF算法的优点,对C-value和TF-IDF算法中不合理的地方予以了改进,从而可以更好地应用于引文分析中文献簇的主题识别.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号