首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
基于标注语料库的有指导学习方法是词义消歧取得性能最好的方法,优于无指导学习方法和基于词典的方法.它的准确率极大地依赖于标注语料库的规模,而目前人工标注语料库数量极少,缺乏标注语料就成为制约词义消歧发展的瓶颈,如何生成大规模标注语料成为词义消歧研究热点.自举是解决上述问题的重要方法,它以小规模标注语料作为种子,运用机器学习算法生成大规模标注语料.本文对自举在词义消歧中的应用和关键问题进行介绍.首先对自举进行算法描述,然后分别从中英文词义消歧领域介绍自举的应用情况,最后对自举应用涉及的初始种子、自举参数、未标注语料集的选择和互联网应用等几个关键问题进行总结.  相似文献   

2.
双语语料库在机器翻译、跨语言信息检索以及翻译词典编纂等自然语言处理领域有着越来越重要的用途。该研究利用同族专利文献信息作为双语语料的来源,探讨了基于同族专利获取双语语料的可行性,以获取汉英双语语料为实例提出了双语语料的获取流程,同时进行双语对译部分的对齐规则的研究,从而构建出科技领域的平行双语语料库。最后,还阐述了该方法的相关注意事项以及应用前景。  相似文献   

3.
基于词表和N-gram算法的新词识别实验   总被引:1,自引:0,他引:1  
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。  相似文献   

4.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。  相似文献   

5.
徐琳宏  丁堃  陈娜  李冰 《情报学报》2020,39(1):25-37
基于内容的引文情感分析克服了传统基于引用频次的引用同一化问题,是引文内容分析领域一个重要的研究热点。然而引文情感分析依赖于带标注的数据集,目前大规模高质量的引文情感语料资源匮乏,严重制约了该领域的研究。因此,本文在分析引文情感表达方式的基础上提出了一套适用于引文情感表示的标注体系,并详细阐述了语料库建设的技术和方法。采用人机结合的标注策略,借助完善的引文标注系统,构建了规模较大的中文文献的引文情感语料库。统计结果显示,在中文信息处理和科技管理领域情感褒义和贬义总的引用的占比分别为22%和6%,引文情感标注kappa值达到0.852,表明该语料库能够客观地反映作者的情感倾向性,可为论文评价、引文网络分析和情感分析等相关领域的研究提供数据支撑。  相似文献   

6.
基于模式匹配的军事演习情报信息抽取   总被引:1,自引:0,他引:1  
以军事演习情报信息抽取为突破点,采用基于模式匹配的方法进行演习情报的抽取.在信息抽取的不同环节,采用层次自动分类方法进行待抽取文本筛选;采用基于种子模式的自举方法结合领域词典进行军事演习组块识别;采用基于语料标注的方法进行事件属性模式学习获取.实验结果表明该方法在特定领域内的有效性,在实际工程项目中达到可应用状态.  相似文献   

7.
[目的/意义]为更好地提升科技文献的语义丰富化效果,对国内外科技文献语篇元素标注模型、技术和方法进行调研总结,为文本挖掘、科技论文知识抽取、语义分析系统研究者提供借鉴。[方法/过程]利用学术网站搜索和相关数据库搜索引擎,对涉及科技论文标注、语篇元素、知识抽取、句子识别和自动文章分类等参考文献以及研究报告进行深入阅读和调研,对语篇元素自动标注模型以及相关工作进展进行研究总结。[结果/结论]科技文献语篇元素标注具有非常重要的实际应用价值,构建标注模型需充分考虑构建思想、标注领域和标注粒度以及标注技术手段等方面。  相似文献   

8.
汉英词典作为沟通中文与英语两种不同语言的桥梁,是中国与世界交流的工具。在信息时代飞速发展的今天,双语词典的自动构建技术在机器翻译和跨语言检索领域起着重要的作用,本文对双语词典的自动构建方法和其中的关键技术进行了比较全面的分析和总结,并提出一种从汉英平行语料库中抽取双语词语,自动构建双语词典的方法,在实现汉英句子级对齐后,对双语语料分别进行分词和词性标注处理,通过抽取汉英词语单元并计算其关联概率来实现汉英的词语对齐,最终生成双语词典。该方法在对真实语料的双语词典构建实验中取得了较好的结果,词对齐效果优于传统的IBM模型方法。  相似文献   

9.
[目的/意义] 自动识别项目申请书摘要中的科学要素,对于揭示科技项目中的科学知识具有重要的研究意义。这些科学要素的识别依赖于结构化项目摘要文本,然而目前结构化项目摘要语料资源匮乏,严重制约着相关研究的进一步发展。拟构建项目申请书摘要文本的语步语料集,为相关研究提供数据支撑。[方法/过程] 首先将项目摘要内容归纳为背景及问题、目标及任务、方法内容、价值意义4种语步类型,总结每个语步结构中出现的标志性特征并制定语步标注规范;其次相继利用基于规则和基于深度学习的方法辅助人工进行项目摘要的语步结构标注,并对每轮标注后的语料进行质量评估。[结果/结论] 两种方法共计标注近25 000条语句,语料标注的一致性系数达到0.983 9,表明该语料集基本能够区分项目摘要内的不同语步结构,初步达到了语料库建设的基本要求。  相似文献   

10.
文章通过学习扩展的机器学习和深度学习,提出针对非物质文化遗产项目语料的术语抽取及新词发现方法,形成领域术语库并探讨在数字人文领域的应用。首先使用自然语言处理方法对非遗陶瓷语料进行预处理,结合领域术语词表对语料进行标注;然后针对Random-CRFs模型,研究词表特征(DICT)、词性特征(POS)、部首特征(Radical)、拼音特征(Pinyin)对术语抽取效果的影响,再对比Random-CRFs、Random-BiLSTM、Random-BiLSTM-CRFs、BERT-BiLSTMCRFs等4个模型对术语抽取效果的影响;最后使用训练完成的模型对测试集语料进行新词识别,对抽取出的候选词进行人工判断,构建包含1,173个术语的非物质文化遗产陶瓷工艺领域术语库,将其应用于非遗项目画像、非遗陶瓷工艺知识图谱和非遗陶瓷工艺术语检索。  相似文献   

11.
周雷  李颖  石崇德 《情报工程》2015,1(3):064-075
基于机器学习的分词模型可以借助科技词汇构词特征分析提升其在科技领域的适应性,本文对传统语言学的句法构词、韵律构词、语义构词几个方面理论进行总结归纳,融合术语学研究理论,围绕提升分词准确率的目的,提出了适用于科技词汇的构词特征标注系统,并对标注系统的结构进行了规划。这为科技词汇构词特征标注工作完成了前期的探索,为后期批量标注,辅助分词等环节提供了基础依据。  相似文献   

12.
云计算技术在网络科研环境中的广泛应用促进了科技信息资源整合服务的创新。本文在理解云计算技术在 网络信息资源整合服务中的应用的基础上探讨云计算技术的特点、对网络科技信息资源整合服务的影响以及与过去网络 信息资源服务的区别。最后提出了一个科技信息资源整合服务平台框架以供参考。  相似文献   

13.
The relative performance of science and technology (S&T) in the USA and PRC was compared in terms of quantity and quality, as reflected in their technical literatures. Three databases (Science Citation Index (SCI), INSPEC, Ei Compendex) were selected for the quantity comparison, and citation analysis in the SCI was used for the quality comparison. Thirty technology and research areas were compared for quantity production, and are presented in this paper. These 30 areas were selected based on our previous assessment of PRC S&T output, and represented areas of emphasis by the PRC in physical, environmental, engineering, and life sciences.In almost all technical areas, the USA had the quantity (number of papers) lead (for the period 2002–2007) based on the SCI results, although the PRC has made dramatic strides to overtake the USA. In most of the technical areas, by 2007 PRC had attained parity with, or exceeded, the S&T literature production of the USA in the INSPEC database. The major exceptions were the biomedical field and some aspects of environmental science, where the USA still had a large lead. For most technical areas, by 2007 the PRC had even higher relative S&T literature production, based on the Ei Compendex, compared to the INSPEC results. Moreover, the USA production appears to have peaked (in the Ei Compendex) in the 2005 time frame, despite increasing amounts of funding for S&T research. The PRC challenge in non-biomedical research and technology sectors becomes apparent in those databases that do not contain substantial biomedical research papers, and therefore remove a substantial intrinsic USA advantage.For quality computations, the publication and citation results were normalized to discrete slices of time, and are presented for nanotechnology only (for the period 1998–2003). While the USA held a commanding lead in quality over the PRC (and the other major nanotechnology producer nations as well) during the past decade, the PRC has increased the quality of its publications monotonically, and now appears to be competitive with France, Italy, Japan, and Australia, using the quality metric in this paper.  相似文献   

14.
利用信息技术构建相应管理系统,可对公共科技服务平台的各类科技服务活动进行信息跟踪和有效管理, 有助于科技服务能力与水平的提升。在对云南省科技服务管理系统的服务流程、服务方式、用户对象等进行分析的基 础上,从总体架构、功能设计、数据库设计等方面进行了详细介绍。实践应用表明,云南科技服务管理系统能满足面 向科技型中小企业的科技服务活动信息的网络化管理需要。  相似文献   

15.
曾文  徐红姣  李颖  王莉军  赵婧 《情报工程》2016,2(3):037-042
文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型(VSM)为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的TF-IDF计算方法。  相似文献   

16.
通过构建科技创新体系评价指标,研究山东省会城市群经济圈科技投入与发展现状。运用熵值法确定指标 权重,对科技创新的核心因素进行深入分析,结合聚类分析法对经济圈内各地市的科技投入与产出情况进行比较评价 和分类研究,并给出提升经济圈科技投入与产出水平的对策建议。  相似文献   

17.
周雷  李颖  石崇德 《情报工程》2016,2(1):114-122
本文以语言学句法构词和语义构词研究为基础,结合术语学及认知语言学对于词汇部分的研究,根据科技词汇自身特点,对影响科技词汇构词因素进行研究,提出了影响科技词汇构词的四个过程:句法-语义过程、认知过程、翻译过程和审美过程.  相似文献   

18.
科技投入是科技创新的主要动力,是欠发达地区经济转型发展的内生动力。文章以广西为例,运用协整 检验以及基于VAR模型的格兰杰因果关系检验和脉冲响应等计量方法对广西科技投入与经济增长的相关数据进行实 证分析。研究结果表明:科技人员对广西经济增长的影响作用较小;经济增长是科技经费使用与科技人员的格兰杰原 因,科技人员是科技经费使用的格兰杰原因;发现经济增长对科技经费使用与科技人员冲击的响应一直保持较低的持 续的正向的加速运动,但是科技经费使用与科技人员对经济增长存在一个短期的滞后效应;进一步说明科技投入不能 有效推动经济增长的原因。在此基础上提出相应的理论建议,为经济欠发达地区改善科技投入环境提供参考。  相似文献   

19.
建立科技资源开放共享公共服务体系是当前我国科技管理改革的重要内容。文章在界定科技资源开放共享 公共服务体系内涵的基础上,从供给内容、供需主体、供给模式、运行机制、评价监督等方面构建科技资源共享开放公 共服务体系的理论架构,同时对科技资源开放共享公共服务体系的主要特征进行探讨。研究结果对于各级政府推进科技 资源开放共享、促进科技资源优化配置具有一定的借鉴和参考价值。  相似文献   

20.
化柏林 《图书情报工作》2017,61(16):150-156
[目的/意义]针对当前科技信息界对大数据的认识问题以及如何利用大数据提供更好的情报服务,构建科技信息大数据在情报服务中的应用框架,以便为科技信息大数据环境下的科技情报服务提供参考。[方法/过程]围绕数据基础、方法技术与应用服务3个核心要素展开,探讨科技信息大数据的概念内涵、科技信息大数据在科技情报服务中的应用以及大数据情报技术。[结果/结论]在概念内涵方面,科技信息大数据是科技活动要素及要素之间相关关系组成的多源异构大规模数据;在大数据情报技术方面,梳理出多源异构融合技术、用户画像与需求探测技术、属性计算与情景计算技术、知识抽取与本体构建技术等关键技术;在情报服务方面,将由被动服务转向主动服务,从单一服务转向嵌入式服务,从决策参考服务扩展到决策引领服务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号