首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
名词短语一直是中外语言学领域的重要研究对象,近年来在自然语言处理领域也受到了研究者的持续关注。英文方面,已建立了一定规模的名词短语语义关系知识库。但迄今为止,尚未建立相应或更大规模的描述名词短语语义关系的中文资源。该文借鉴国内外诸多学者对名词短语语义分类的研究成果,对大规模真实语料中的基本复合名词短语实例进行试标注与分析,建立了中文基本复合名词短语语义关系体系及相应句法语义知识库,该库能够为中文基本复合名词短语句法语义的研究提供基础数据资源。目前该库共含有18 281条高频基本复合名词短语,每条短语均标注了语义关系、短语结构及是否指称实体等信息,每条短语包含的两个名词还分别标注了语义类信息。语义类信息基于北京大学《现代汉语语义词典》。基于该知识库,该文还做了基本复合名词短语句法语义的初步统计与分析。  相似文献   

2.
该文基于生成词库理论中的物性结构和语义类框架,对现代汉语双音节隐喻式名名复合词进了语义信息标注。在此基础上,我们对这些复合词进行了定量与定性分析,即考察了复合词在隐喻过程中涉及的物性角色、探索语义类对隐喻涉及物性角色的影响、以及语素语义类与复合词整体语义类之间的相关性。研究结果显示: 形式角色是隐喻式名名复合词中最常涉及的物性角色;自然类在发生隐喻时较多涉及构成角色,而人造类则较多涉及功用角色。并且,构词语素的语义类对复合词整体的语义类具有一定的预测性。  相似文献   

3.
周强 《中文信息学报》2016,30(3):196-203
谓词词库是深层语法模型分析和理解的核心资源。近年来的常规方法是人工构建或从标注语料库中自动获取,标注规模和信息容量的扩大受制于巨大的人工投入量和标注库体系设计。该文提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)词库的新方法。从知网、北大语法信息词典和大规模事件句式实例中提取汉语谓词的不同句法语义分布特征,融合形成CCG原型范畴表示,将它们指派给各资源信息完全重合的谓词形成核心词库。然后通过自动分类和隶属度分析相结合方法对其他谓词的CCG范畴进行预测,并对两者结果进行融合得到扩展词库,最终合并形成包含约15,000个词条的汉语谓词CCG词库。通过在随机均匀抽样的1000个谓词上通过多人独立标注形成的标准测试库上进行不同角度的性能分析实验,表明该词库的预期准确率达到了96.3%。
  相似文献   

4.
汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息。针对这一现状,该文从多个领域搜集语料,建立了一套新的语义关系体系,标注构建了一个具有相当规模的带有句子信息的基本复合名词语义关系知识库。该库的标注重点是标注句子中基本复合名词短语的边界以及短语内部成分之间的语义关系,总共收录27 007条句子。该文对标注后的知识库做了详细的计量统计分析。最后基于标注得到的知识库,使用基线模型对基本复合名词短语进行了自动定界和语义分类实验,并对实验结果和未来可能的改进方向做了总结分析。  相似文献   

5.
在蒙太鸠语法理论的基础上,利用范畴语法对汉语进行句法分析,并针对汉语范畴动态标注的不确定性进行跨层次松弛关联的计算研究,需要相应地构造范畴化机器词库。本文采用基本词库加扩展生成的思想构建生成的面向范畴语法分析的汉语词库,除具有一般词库的特点外,还对词语的范畴归属、词谓、词用等相关信息给出说明,以供范畴句法分析时选用。实验结果表明,在假设完备的前提下,测试该词库取得了较好的效果。  相似文献   

6.
标准词库是机内自动识别重码和词码输入方式的重要数据基, 但词库庞大,微机内存有限, 使词库不能全部装入内存使用本文介绍无编码通用词库的高倍逻挥压缩技术, 可使词库全部装入内存使用其次, 介绍依输入词码生成待定词及利用反向查询方式查询词码所映象的词的技术原理该技术可使汉字输入系统所有的编码方案不设计词码, 并使用同一个词语库, 这为设计通用智能汉字输入系统莫定了基础  相似文献   

7.
义类自动标注方法的研究   总被引:3,自引:1,他引:2  
句法分析不能满足汉语分析的需要,句法和语义相结合的分析方法适用于汉语分析。分析的基础要有一部语法语义词典。目前的机读词典多是语法词典,因而需要在语法词典中加入词的语义信息。《同义词词林》是一部较好的义类词典,但没有语法信息,可以《同义词词林》的分类体系对语法词典进行义类标注,得到语法语义词典。这一过程中有不一致的情况,特别地,对《同义词词林》中未收录的词就不能直接标注义类。本文采用《同义词词林》的分类体系,研究设计了一个汉语词自动义类标注算法,对北大《现代汉语语法信息词典》进行自动义类标注。实验结果较为满意,得到91%的准确率。  相似文献   

8.
为了研究复杂系统中需求之间的依赖关系,针对需求文本固有的特点以及可能存在的上下文关系,结合各个词之间的词义以及特定语境下的语义知识,提出了一种基于句法和语义的需求依赖关系自动获取方法。在以自然语言描述的需求文本上,首先,通过对每条需求提取关键词,并结合领域知识对其添加领域词汇,对每个关键词进行词性标注并封装成集合来形式化需求;其次,通过对不同需求的关键词做语义分析,定义关联需求的语义词库表,将关系词库和集合中的词性特征结合来判断两个需求之间的依赖关系,并给出抽取关系的方法,基于该方法设计并实现了一个系统,通过自动分析各个词之间的语义依存关系得出需求之间的依赖关系。最后,通过实例证明了该方法的可行性和有效性。  相似文献   

9.
情感词库在文本情感分析中发挥重要作用,但在分析细粒度情感如人类情绪状态时却无法正确区分。针对该问题,提出一种基于义原相似度计算的细粒度情感词库构建方法。对词语之间的义原相似度进行计算分析,构建7类细粒度情感词库,并在此基础上给出细粒度情感词在词库中的权重计算方法,最终得到7类具有权重值的细粒度情感词库。实验结果表明,应用引入权重的细粒度情感词库后,文本情感倾向判别的准确率可提升5%左右。  相似文献   

10.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。  相似文献   

11.
现阶段的语义解析方法大部分都基于组合语义,这类方法的核心就是词典。词典是词汇的集合,词汇定义了自然语言句子中词语到知识库本体中谓词的映射。语义解析一直面临着词典中词汇覆盖度不够的问题。针对此问题,该文在现有工作的基础上,提出了基于桥连接的词典学习方法,该方法能够在训练中自动引入新的词汇并加以学习,为了进一步提高新学习到的词汇的准确度,该文设计了新的词语—二元谓词的特征模板,并使用基于投票机制的核心词典获取方法。该文在两个公开数据集(WebQuestions和Free917)上进行了对比实验,实验结果表明,该文方法能够学习到新的词汇,提高词汇的覆盖度,进而提升语义解析系统的性能,特别是召回率。  相似文献   

12.
平行周遍原则是陈保亚(1999)提出的一种用于区分词与短语的理论,将词语分为既平行又周遍、平行不周遍和不平行不周遍三类,既平行又周遍的是短语,不宜收入词典。由于汉语语义词典在收词时并未严格遵循平行周遍原则,因此依据现有语义词典可以自动地归纳出许多平行周遍规则或者平行不周遍规则。假定有两部语义词典,则可以归纳出两套平行(不)周遍规则,每一套规则都有各自的正例和反例。一个词典中某一规则的反例如果同时是另一词典中的正例,就意味着前一部词典中的词语可能归类不当。基于这一思路,该文提出一个基于平行周遍原则的语义词典归类不当现象自动发现方法,实验结果证明了这一方法的有效性。  相似文献   

13.
词表的质量直接影响汉语语言模型的性能, 而当前汉语词典编撰工作同语言建模工作相脱离, 一方面使得现有的汉语语言模型受词表规模所限, 性能不能发挥到最优, 另一方面因为缺乏专业领域的词表, 难以建立面向特定领域的语言模型. 本文旨在通过建立优化词表的方式来提高现有汉语语言模型的性能, 并使其自动适应训练语料的领域. 本文首先将词表自动生成工作同汉语语言建模工作相结合, 构建一体化迭代算法框架, 在自动生成优化词表的同时能够获得高性能的汉语语言模型. 在该框架下, 本文提出汉字构词强度的概念来描述汉语的词法信息, 并将其作为词法特征与统计特征相结合, 构造一种基于多特征的汉语词表自动生成算法. 最后, 本文提出两种启发式方法, 自动根据训练语料的特点调整系统中的各项参数, 使系统能够自动适应训练语料的领域. 实验表明, 本文的方法能够在生成高质量词表的同时获得高性能的语言模型, 并且能够有效自动适应训练语料的领域.  相似文献   

14.
一种基于生语料的领域词典生成方法   总被引:7,自引:0,他引:7  
为了实现准确分词,实用的汉语信息处理系统都需有其专用的领域词典.针对现有词典构造方法存在的不足,本文提出了一种领域词典的构造方法;利用通用词典对领域生语料进行分词处理,并提出了基于切分单元的最大匹配算法,从而得到候选词串集,然后利用规则对其进行优化,最终生成领域词典.词典的生成过程基本上是自动完成的,人工干预少,易于更新;目前.本方法生成的领域词典已经应用于我们自主开发的“基于Web的智能答疑系统”中,并取得了较好的效果.  相似文献   

15.
文摘生成系统中词典的一种构造方法   总被引:1,自引:1,他引:0  
文章讨论了针对文摘生成系统如何有效地建立一种全信息词典,在正确进行自动分词的同时,为后续的文本分析提供尽可能多的词法、词义及词用信息,以便生成具有理解能力的高质量的文本摘要。  相似文献   

16.
文本情感分析是近年来迅速兴起的一个研究课题,具有显著的研究价值和应用价值。情感词典的构建在情感分析任务中发挥着越来越重要的影响力。该文对情感词典构建的研究进展进行了总结。首先重点介绍了情感词典构建的研究现状,将其归纳为四种方法,即基于启发式规则的方法、基于图的方法、基于词对齐模型的方法以及基于表示学习的方法,并对每种方法进行介绍和分析;然后对一些常见的语料库、词典资源以及评测组织进行介绍;最后,对情感词典的构建进行了总结,并对发展趋势进行了展望。
  相似文献   

17.
当前对现代汉语史的研究多借用政治-社会史的分期方式将现代汉语分为新文化运动至1949年、1950—1966年、1967—1976年和1977—至今四个时期,并在这一基础上开展了许多研究。语言尤其是书面语虽然与社会政治生活有密切联系,但语言系统有其自身的演化规律。从语言数据出发对语言进行分期是更加合适的选择。该文将语言的分期问题视作历时语料的分期问题,进而成为历时文本的聚类问题。该文工作基于历时报刊语料库遴选出的时间敏感程度较好的词汇。使用机器学习领域中广泛使用的K均值和期望最大算法进行聚类,以该部分词汇频率为特征对70年跨度(1945—2015)的历时报刊语料进行聚类,并在不同的聚类数量下绘制了具有层次性的词汇使用分期树。据此构建了过去70年现代汉语的词汇层次分期模型,揭示了改革开放的开始作为词汇使用变迁最重要分水岭的地位。  相似文献   

18.
一种新闻评论情感词典的构建方法   总被引:2,自引:0,他引:2  
情感词典研究是文本情感分析领域的一个重要内容;基于情感词典的文本情感分析方法是一种非常有效的方法。互联网上的新闻评论包含评论人的情感,对其情感进行自动分析研究是非常有意义的。借鉴图排序模型的原理,提出一种新闻评论情感词典构建方法,该方法首先通过新闻评论语料和基础情感词典获得评论情感词集和种子词,然后根据提出的基于PageRank算法的方法判定评论情感词集的极性并计算其强度,进而构建新闻评论情感词典。实验从情感词判定的准确性和基于构建的情感词典的分类性能两个方面验证了所提方法的有效性。  相似文献   

19.
中文分词词典是中文自动分词的一个核心技术,词条的完备率和词典的结构,在一定程度上决定着分词的正确率和查询速度.为了提高以上两方面的性能,从计算机技术层面上讨论,给出两种改进的词典组织结构和一种自动扩充词条的方法.  相似文献   

20.
微博等社交媒体为人们情绪表达提供了重要平台,分析微博的情绪倾向具有重要的商业价值和社会意义。文中提出了基于词典的规则方法识别微博所表达的喜、哀、怒、惧、恶、惊六种情绪。针对情绪表达的重要线索表情符利用互信息法生成了表情符词典,与传统情绪词典相结合,制定了针对否定用法的规则对微博进行分析。建立了第一个包含六种情绪的人工标注微博数据集。实验表明,传统的情绪词典虽然收录了大量词汇,但对于社交媒体文本分析的准确率和覆盖率都不高。表情符词典的应用显著地提高了微博情绪分析的精度和覆盖率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号