首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
针对非分类关系抽取中的关系识别问题,提出利用SAO结构和依存句法分析相结合的识别方法。该方法将中文专利领域的非分类关系抽取问题转化为符合SAO结构的识别问题,通过SAO结构中的动词信息可以解决关系识别的问题,并在此基础上,利用依存句法分析得到的依存关系强度结合传统的特征,分别对新特征、词特征、上下文特征、距离特征的有效性进行验证分析。实验结果表明,该方法优于传统方法,也验证了依存句法分析在非分类关系抽取中的可行性。  相似文献   

2.
在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。  相似文献   

3.
格语法理论中一般动词带有必须格,而汉语中右侧带必须格的动词映射到依存句法中该动词一般带有宾语。基于该理论识别依存句法分析结果中缺失动宾关系依存弧的现象,针对该类错误,提出了一种基于知识约束的算法,寻找缺失依存弧以改进依存句法分析。实验结果表明,利用语言学知识能有效地识别依存句法分析结果中缺失动宾关系依存弧的动词,识别准确率达到93.80%,改进后的系统UAS值提升了0.21%,动宾关系UAS值提升了2.14%,说明利用语言学知识能够改善依存句法分析效果。  相似文献   

4.
正确识别汉语里的VN结构等基本名词短语可以帮助提高句法分析的准确率。提出并验证了如果动名组合的上下文词语的分布类似,那么它们的结构也类似的假设。结合动词、名词本身,构造了一种基于概率分布的结构向量空间模型,用于VN结构的识别。实验结果表明,虽然没有使用其他外部资源,该方法仍取得了理想的识别效果,精确率和召回率分别达到了95.2%和93.0%。  相似文献   

5.
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。  相似文献   

6.
识别谓语动词是理解句子的关键。由于中文谓语动词结构复杂、使用灵活、形式多变,识别谓语动词在中文自然语言处理中是一项具有挑战的任务。本文从信息抽取角度,介绍了与中文谓语动词识别相关的概念,提出了一种针对中文谓语动词标注方法。在此基础上,研究了一种基于Attentional-BiLSTM-CRF神经网络的中文谓语动词识别方法。该方法通过双向递归神经网络获取句子内部的依赖关系,然后用注意力机制建模句子的焦点角色。最后通过条件随机场(Conditional random field, CRF)层返回一条最大化的标注路径。此外,为解决谓语动词输出唯一性的问题,提出了一种基于卷积神经网络的谓语动词唯一性识别模型。通过实验,该算法超出传统的序列标注模型CRF,在本文标注的中文谓语动词数据上到达76.75%的F值。  相似文献   

7.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

8.
隐马尔科夫支持向量机(HMSVM)是一种新颖的结构化支持向量机模型,该模型在序列标注学习任务比如英文组块分析中的有效性已经被证明,将该模型用于中文浅层句法分析识别任务,实验结果表明,该模型获得了较好的准确率和召回率。  相似文献   

9.
目前基于内容的视频语义挖掘方法并未考虑到视频的多模态特性,不能够实现对于目前海量涌现视频的自动分析处理任务。针对此问题,提出了基于稠密子图发现的视频语义挖掘方法。该方法对待处理的视频进行中文连续语音识别、视频目标识别和视频文字识别,对于识别结果进行中文分词和词性标注,保留名词和动词作为图模型的顶点,顶点之间的边权重设置为两个顶点所代表的词语的中文语义距离,根据稠密子图发现算法挖掘视频的语义信息。实验结果表明这种方法是有效的。  相似文献   

10.
中文复杂名词短语依存句法分析   总被引:1,自引:0,他引:1  
针对中文复杂名词短语的依存句法分析进行了研究,提出简单边优先与SVM相结合的依存句法分析算法.算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者,然后利用支持向量机根据边两端子树的特征确定该边的方向,即得到两棵子树的中心语之间的依存关系.实验证明对于复杂名词短语的依存句法分析,算法准确率比简单边优先算法有明显提高,且优于基于最大生成树算法的中文句法分析器;算法分析效率更高,时间复杂度为O(n2 log n).  相似文献   

11.
The existence of structural ambiguity in modifying clauses renders noun phrase (NP) extraction from running Chinese texts complicated. It is shown from previous experiments that nearly 33% of the errors in an NP extractor were actually caused by the use of clause modifiers. For example, consider the sequence "V + NP1+      ( of ) + NP0." It can be interpreted as two alternatives, a verb phrase (i.e., [V[NP1+     + NP0]NP]VP) or a noun phrase (i.e., [[V NP1]VP+     + NP0]NP). To resolve this ambiguity, syntactical, contextual, and semantics-based approaches are investigated in this article. The conclusion is that the problem can be overcome only when the semantic knowledge about words is adopted. Therefore, a structural disambiguation algorithm based on lexical association is proposed. The algorithm uses the semantic class relation between a word pair derived from a standard Chinese thesaurus,     , to work out whether a noun phrase or a verb phrase has a stronger lexical association within the collocation. This can, in turn, determine the intended phrase structure. With the proposed algorithm, the best accuracy and coverage are 79% and 100%, respectively. The experiment also shows that the backed-off model is more effective for this purpose. With this disambiguation algorithm, parsing performance can be significantly improved.  相似文献   

12.
汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息。针对这一现状,该文从多个领域搜集语料,建立了一套新的语义关系体系,标注构建了一个具有相当规模的带有句子信息的基本复合名词语义关系知识库。该库的标注重点是标注句子中基本复合名词短语的边界以及短语内部成分之间的语义关系,总共收录27 007条句子。该文对标注后的知识库做了详细的计量统计分析。最后基于标注得到的知识库,使用基线模型对基本复合名词短语进行了自动定界和语义分类实验,并对实验结果和未来可能的改进方向做了总结分析。  相似文献   

13.
“V+V”是现代汉语中的常见结构,能够形成兼语、连动等多种完全不同的句法结构,给句法和语义解析造成困难。针对“V+V”形成的句法结构类型和序列关系识别问题,设计并制定了一套语料库标注规范,以解决语料库中存在的“V+V”结构的嵌套标注问题,并据此构建起一个包含5 381个兼语句子、7 987个连动句子,以及1 212个兼语连动嵌套句子的“V+V”语料库。提出一个基于BiLSTM-CRF和多头注意力机制的模型,能够同时识别结构中的多个动词和名词的句法、语义角色。相比于以往只研究单项识别兼语或者连动结构,该模型不仅可以同时识别兼语结构、连动结构,还可以解决兼语连动嵌套结构的识别问题。实验结果表明:该方法能够很好地解决“V+V”序列关系的识别问题,在测试集语料上达到92.12%的F1值。  相似文献   

14.
名词短语一直是中外语言学领域的重要研究对象,近年来在自然语言处理领域也受到了研究者的持续关注。英文方面,已建立了一定规模的名词短语语义关系知识库。但迄今为止,尚未建立相应或更大规模的描述名词短语语义关系的中文资源。该文借鉴国内外诸多学者对名词短语语义分类的研究成果,对大规模真实语料中的基本复合名词短语实例进行试标注与分析,建立了中文基本复合名词短语语义关系体系及相应句法语义知识库,该库能够为中文基本复合名词短语句法语义的研究提供基础数据资源。目前该库共含有18 281条高频基本复合名词短语,每条短语均标注了语义关系、短语结构及是否指称实体等信息,每条短语包含的两个名词还分别标注了语义类信息。语义类信息基于北京大学《现代汉语语义词典》。基于该知识库,该文还做了基本复合名词短语句法语义的初步统计与分析。  相似文献   

15.
虚词在现代汉语中占有重要地位,虚词与词序一起构成现代汉语的句法手段,对句法分析有重要的影响。依存句法分析是自然语言处理领域研究的热点,为了提高依存关系的识别效果,该文考虑将虚词用法应用到依存关系的识别过程中。通过对虚词用法的研究,以及对依存句法分析各种依存关系识别情况的分析,发现并列关系与虚词中的连词关系密切。作者在并列关系识别过程中加入连词的用法信息,从而提高了并列关系的识别效果。实验结果表明,包含连词的并列关系的LAS及UAS分别提高了3.43%和2.29%。  相似文献   

16.
句法与词义相结合的中文代词消解   总被引:1,自引:0,他引:1  
句法知识对代词消解有很大的帮助。近年来依存句法由于其利于描述语言中词与词之间的关系、突出核心词的特点日益得到重视。该文提出了一种中文第三人称代词消解方法,直接利用依存句法分析器的结果,构建有效的句法角色特征和名词短语的支配词之间的词义相似和词语相关特征,采用支持向量机作为分类器,在ACE2005语料上的实验证明了这些特征的有效性。  相似文献   

17.
该文以现代汉语(特别是网络搜索词)中的名名组合为主要研究对象,探索一种基于规则的汉语名名组合的自动释义方法。其研究步骤为: (1)利用《现代汉语语义词典》中名词的语义类别,来建立名名组合的语义类组合模式;(2)在“生成词库论”中物性角色思想的指导下,用名名组合中某个名词的施成角色或功能角色作为释义动词,来揭示这两个名词之间的语义关系;(3)以语义类组合模式为单位构建名名组合的释义模板,并汇集成名名搭配数据库;(4)利用《知网》资源,来获取具体名词的施成角色和功能角色,建立汉语名词知识库。在这两个数据库的基础上,我们初步实现了一个汉语名名组合的自动释义程序。  相似文献   

18.
现代汉语句法与英语句法不同,具有明显复杂性,一是不容易获得完整的规则集,二是整句剖析所得结果含有大量的歧义结构难以消除。使用分治的策略将句法剖析任务分为不同层面的小任务,逐层进行句法剖析是一种可行有效的方法。其基本思想是:首先采用多层马尔可夫模型对句子进行短语组块剖析,将整个句子分割为名词组块、动词组块等短语语块,然后在此基础上运行CYK剖析算法,剖析组块间的依存关系,最终实现对完整语句的句法分析,浅层剖析简化了CYK算法规则集,在一定程度上降低了句法剖析难度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号