首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 328 毫秒
1.
藏语是语序非常灵活的一种语言,藏语词法分析和句法分析等浅层研究不能很好地满足藏语自然语言理解的需求。从简单句型的藏语句子出发,研究了基于投射的藏语语义依存分析,构建了藏语语义依存树库,设计了语义依存弧类型分析特征模板。最后通过最大熵分类模型,对人工分析过的语义依存弧的句子进行依存弧的类型分析并进行标注,为今后的语义依存分析提供新的思考视角和更好的理论支撑。  相似文献   

2.
AMR(抽象语义表示)是国际上一种新的句子语义表示方法,有着接近于中间语言的表示能力,其研发者已经建立了英文《小王子》等AMR语料库。AMR与以往的句法语义表示方法的最大不同在于两个方面,首先采用图结构来表示句子的语义;其次允许添加原句之外的概念节点来表示隐含的语义。该文针对汉语特点,在制定中文AMR标注规范的基础上,标注完成了中文版《小王子》的AMR语料库,标注一致性的Smatch值为0.83。统计结果显示,英汉双语含图结构句子具有很高的相关性,且含有图的句子比例高达40%左右,额外添加的概念节点则存在较大差异。最后讨论了AMR在汉语句子语义表示以及跨语言对比方面的优势。  相似文献   

3.
汉语是一种语序灵活的语言,句子变式很多,基于传统依存树的投射现象还不能很好解决某些句式的语义理解问题。文章以10000个句子的汉语语义依存图库为基础,验证并明确了汉语非投射现象的客观存在性,考察了汉语句子中存在的非投射现象,并从语言学和句子深层语义理解的角度对非投射现象进行了归纳和解释。文章总结了7类出现非投射现象的情况,包括小句宾语句、比较句、主谓谓语句、紧缩复句、代词、动补谓语句以及注释短语或复句。这对于自动语义依存标注有重要的指导作用。  相似文献   

4.
抽取一个句子的核心依存图是对句子进行语义理解的有效途径。在CFN自动标注的基础上,只能得到框架依存图,为了把框架依存图转换成框架核心依存图需要提取每个框架元素的语义核心词。该文提出了基于多词块标注的框架元素语义核心词识别和提取方法,通过对比分析,给出了多词块和框架元素的融合策略,并建立了在多词块标注基础上提取框架元素语义核心词的规则集。在6 771个框架元素上的实验结果显示,采用该文的方法和规则集提取框架元素核心词的平均准确率和覆盖率分别为95.58%和82.91%。  相似文献   

5.
使数据库自然语言接口(NLIDB)能够处理灵活多变的查询语句,增强NLIDB的可用性,是NLIDB研究的一个重要目标.设计并实现了一种数据库汉语查询接口.该查询接口采用语义依存树作为查询语句向SQL转化的中问语言,在构建了基于Nivre算法的语义依存树生成模型的基础上,提出了解决数据库语义歧义问题的方法以及一种新的将语义依存树划分为集合块的划分策略及其向SQL语句的转化方法.实验表明,该系统能够有效地处理各种形式的查询问句,具有良好的可用性.  相似文献   

6.
作为一种新的句子语义表示方法,抽象语义表示(AMR)将一个句子抽象为单根有向无环图,目前已经建立了较大规模的英文语料库。然而,句子中的词语和AMR图的概念对齐信息缺失,使得自动分析效果和语料标注质量受到影响,同时中文尚无较大规模的AMR语料库。该文介绍了中文AMR语料库的构建工作,针对汉语特点调整了AMR的标注体系,增加对复句关系的标注,提出了融合概念对齐的一体化标注方案,解决了中英文输入法频繁切换的问题,增加了错别字纠正和未标注词高亮功能,提高了标注效率。然后,从CTB中选取了6 923句进行人工标注,形成中文AMR语料库,统计得到图和环的比例分别为48%和1%,以及利用对齐信息才能获取的非投影句的比例32%,为中文AMR的理论和自动分析研究奠定基础。  相似文献   

7.
语义依存分析建立在依存理论基础上,是一种深层的语义分析理论.同时融合了句子的依存结构和语义信息,更好地表达了句子的结构与隐含信息.在许多高层次的研究和应用上,语义依存分析都大有用武之地.语义依存分析主要面临两方面的难题,一是语义体系的确定,其次是自动语义依存分析算法.将重点从语义体系的确定以及自动语义依存分析算法的角度上对语义依存分析进行系统的介绍.  相似文献   

8.
非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影结构尚未得到重视,语料库构建过程中也因遵循了投影性原则而缺乏对非投影结构的标注。该文基于概念对齐版的中文AMR语料库,在10 149句语料上统计出带有非投影结构的句子比例为31.62%,其三种主要类型为模态词提升、话题化和成分分离,并提出了相应的自动分析方案,以提高中文AMR自动分析效果。  相似文献   

9.
针对汉语语句表意灵活复杂多变的特点,提出一种基于语义与情感的句子相似度计算方法,从表意层面计算句子相似度。该方法使用哈工大LTP平台对句子进行预处理,提取词语、词性、句法依存标记与语义角色标记,将语义角色标注结果作为句中语义独立成分赋予相似度权重系数,综合句法依存关系与词法关系计算两句相同标签语义独立成分相似度得到部分相似度,加权计算部分相似度得到句子整体相似度。另外,考虑到情感与句式因子,在整体相似度的基础上对满足条件的两句计算情感减益与句式减益。实验结果表明,该方法能有效提取出句子语义独立成分,从语义层面上计算句子相似度,解决了信息遗漏与句子组成成分不一致的问题,提高了句子相似度计算的准确率与鲁棒性。  相似文献   

10.
抽象语义表示(abstract meaning representation, AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图。目前,中文AMR研究仍然处于起步阶段。该文结合中文AMR特性,采用基于转移神经网络的方法对中文AMR解析问题展开了试验性研究。首先,实现了一个基于转移解码方法的增量式中文AMR解析神经网络基线系统;然后,通过引入依存路径语义关系表示学习和上下文相关词语语义表示学习,丰富了特征的表示;最后,模型中应用序列化标注的模型实现AMR概念识别,优化了AMR概念识别效果。实验结果表明,该模型在中文AMR解析任务中达到了0.61的Smatch F1值,明显优于基线系统。  相似文献   

11.
大规模语义角色标注语料库的构建可以为计算机理解自然语言的语义提供有用的训练数据。该文主要研究服务于语义角色标注语料库构建的语义角色标注规则。在人工语义角色标注的基础上,分析句式和句模的对应关系,并总结出一套基于句式的语义角色标注规则,在测试集上达到78.73%的正确率。基于上述规则,可以在构建语义角色标注语料库时完成自动标注的工作,标注人员在此基础上进行人工校对,可有效地减少工作量。  相似文献   

12.
文章首先介绍了句子句法、语义结构标注语料库的基本情况。在标注语料库的基础上,从句型的角度着眼定量统计,构建现代汉语单句的句型句模的对应体系,并进一步说明了句型句模对应关系研究的意义。  相似文献   

13.
考虑到同类型的情感句往往具有相同或者相似的句法和语义表达模式,该文提出了一种基于情感句模的文本情感自动分类方法。首先,将情感表达相关句模人工分为3大类105个二级分类;然后,设计了一种利用依存特征、句法特征和同义词特征的句模获取方法,从标注情感句中半自动地获取情感句模。最后,通过对输入句进行情感句模分类实现文本情感分类。在NLP&CC2013中文微博情绪分类评测语料及RenCECps博客语料的实验结果显示,该文提出的分类方法准确率显著高于基于词特征支持向量机分类器。  相似文献   

14.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用。针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型。模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组成的多维空间曲线,通过计算句子曲线之间相互转换的距离和复杂度来表示句子语义相似度,模型采用了DTW矩阵和改进的匈牙利算法,并对DTW矩阵做最短路径规划。实验结果表明,与现有的夹角余弦相似度等句子相似度计算方法相比,该方法在语序较乱但语义相近的情况下也能得到较为准确的相似度结果值。  相似文献   

15.
Computation on Sentence Semantic Distance for Novelty Detection   总被引:1,自引:0,他引:1       下载免费PDF全文
Novelty detection is to retrieve new information and filter redundancy from given sentences that are relevant to a specific topic. In TREC2003, the authors tried an approach to novelty detection with semantic distance computation. The motivation is to expand a sentence by introducing semantic information. Computation on semantic distance between sentences incorporates WordNet with statistical information. The novelty detection is treated as a binary classification problem: new sentence or not. The feature vector, used in the vector space model for classification, consists of various factors, including the semantic distance from the sentence to the topic and the distance from the sentence to the previous relevant context occurring before it. New sentences are then detected with Winnow and support vector machine classifiers, respectively. Several experiments are conducted to survey the relationship between different factors and performance. It is proved that semantic computation is promising in novelty detection. The ratio of new sentence size to relevant size is further studied given different relevant document sizes. It is found that the ratio reduced with a certain speed (about 0.86). Then another group of experiments is performed supervised with the ratio. It is demonstrated that the ratio is helpful to improve the novelty detection performance.  相似文献   

16.
BFS-CTC汉语句义结构标注语料库   总被引:3,自引:0,他引:3  
句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio-Chinese Tagged Corpus)。标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究;语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用;语料来源和规模方面,语料全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到10 000句。同其他语义标注库相比,BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,兼容进行了词法和语法标注,各类标注既可以单独使用也可综合使用进行横向分析,可用于自然语言处理多方面的研究,进一步推动汉语语义分析的研究和发展。  相似文献   

17.
在语义角色标注过程中,经常需要检索相似的已标注语料,以便进行参考和分析。现有方法未能充分利用动词及其支配的成分信息,无法满足语义角色标注的相似句检索需求。基于此,本文提出一种新的汉语句子相似度计算方法。该方法基于已标注好语义角色的语料资源,以动词为分析核心,通过语义角色分析、标注句型的相似匹配、标注句型间相似度计算等步骤来实现句子语义的相似度量。为达到更好的实验效果,论文还综合比较了基于知网、词向量等多种计算词语相似度的算法,通过分析与实验对比,将实验效果最好的算法应用到句子相似度计算的研究中。实验结果显示,基于语义角色标注的句子相似度计算方法相对传统方法获得了更好的测试结果。  相似文献   

18.
基于特征结构的汉语主谓谓语句语义标注研究   总被引:1,自引:0,他引:1  
建构大规模的汉语语义资源,是当前中文信息处理的重要任务之一。但是其中语义分析的传统方法存在一些问题,不能很好的反映汉语中各个词语或成分之间的语义关联。该文提出了基于特征结构的语义标注方法,并在此基础上建构了一个大规模的汉语语义资源。以汉语主谓谓语句为例,探讨了特征结构的标注方法。结果表明,特征结构分析解决了以往传统标注方法对汉语特殊句型无法表示的难题,包含更多的语义信息,其标注效率更高, 标注精度也更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号