首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 687 毫秒
1.
《计算机科学与探索》2017,(7):1114-1121
句法分析是自然语言理解的一项基础技术,是迈向深层语言理解的基石。目前常用的句法分析方法的语法模型建立在上下文无关文法的假设上。事实上,短语结构树的节点之间具有很强的上下文相关性,充分利用结构信息,可进一步提高句法分析的准确性。融合了句法结构树中的多结构信息(在非终节点中增加父亲节点及左、右姐妹节点等标记)以加强语法规则的上下文约束,并采用结构化支持向量机的方法对句法进行了分析。实验表明,该融合多结构信息的句法分析方法可以消解结构歧义,提升句法分析精确率和F1值。  相似文献   

2.
动词+名词现象在中文句法分析中具有非常重要的地位,它直接影响着句子的结构分析,隐马尔科夫支持向量机是兼顾词语前后关系的一种结构化学习模型,该模型在英文句法分析中的有效性已经被证明,将该模型用于中文动词+名词关系分析识别任务,实验结果表明,该模型能获得很好的关系识别效果。  相似文献   

3.
隐马尔科夫支持向量机(HMSVM)是一种新颖的结构化支持向量机模型,该模型在序列标注学习任务比如英文组块分析中的有效性已经被证明,将该模型用于中文浅层句法分析识别任务,实验结果表明,该模型获得了较好的准确率和召回率。  相似文献   

4.
基于合一句法和实体语义树的中文语义关系抽取   总被引:1,自引:0,他引:1  
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。  相似文献   

5.
学术文献的摘要是对文献主要内容的浓缩,摘要不同部分的语步具有不同的信息,语步的自动识别和抽取对于学术摘要的后续研究有着重要的应用价值,而目前语步识别的研究相对较少,并且相关算法的效果还需要提高。针对上述问题,该文提出了一种基于ERNIE-BiGRU模型的语步识别算法。该算法首先结合中文句法分析理论提出基于句法依存关系的多语步结构拆分法,对学术文献摘要多语步结构进行自动拆分,获得多个单语步结构;然后构建用于训练的单语步结构语料库,并利用知识增强语义表示预训练模型,训练出句子级词向量;最后将训练出的单语步结构词向量信息输入双向门限循环单元(BiGRU)进行摘要语步自动化识别,取得了良好的效果。实验结果表明,该算法具有较好的鲁棒性和较高的识别精度,在结构化和非结构化摘要上的识别准确率分别达到了96.57%和93.75%。  相似文献   

6.
基于浅层句法分析的中文语义角色标注研究   总被引:2,自引:1,他引:1  
语义角色标注是获取语义信息的一种重要手段。许多现有的语义角色标注都是在完全句法分析的基础上进行的,但由于现阶段中文完全句法分析器性能比较低,基于自动完全句法分析的中文语义角色标注效果并不理想。因此该文将中文语义角色标注建立在了浅层句法分析的基础上。在句法分析阶段,利用构词法获得词语的“伪中心语素”特征,有效缓解了词语级别的数据稀疏问题,从而提高了句法分析的性能,F值达到了0.93。在角色标注阶段,利用构词法获得了目标动词的语素特征,细粒度地描述了动词本身的结构,从而为角色标注提供了更多的信息。此外,该文还提出了句子的“粗框架”特征,有效模拟了基于完全句法分析的角色标注中的子类框架信息。该文所实现的角色标注系统的F值达到了0.74,比前人的工作(0.71)有较为显著的提升,从而证明了该文的方法是有效的。  相似文献   

7.
在哈萨克语句法分析中,该文用平均感知器算法训练句法分析模型,用柱搜索算法进行解码,可以快速准确地对哈萨克语句子进行短语结构句法分析。在解析句子过程中,构建了一个双向LSTM模型,利用它提取句子中每个单词之间组成结构的信息,以预测每个单词在句法树中的句法组成部分,然后将结果作为辅助前瞻特征传递给句法分析过程。实验证明,此方法与基线模型相比,在准确率和召回率上均有提高。  相似文献   

8.
鲁淑霞  田如娜 《计算机科学》2013,40(12):52-54,80
针对最小二乘支持向量机(LSSVM)没有考虑样例本身的结构信息和对异常点敏感,提出了一种新的分类器——结构化加权最小二乘支持向量机(SWLSSVM),SWLSSVM通过在目标函数中引入协方差矩阵考虑了样例的结构信息;为了减少异常点的影响,其根据本类样本点到该类中心的距离对误差项进行加权。实验表明,SWLSSVM与LSSVM和SVM相比具有更好的分类和泛化性能。  相似文献   

9.
支持向量机在网页信息分类中的应用研究   总被引:4,自引:0,他引:4  
针对日益膨胀的网络信息,为方便用户准确定位所需的信息,将支持向量机(SVM)与二叉决策树结合起来进行网页信息的分类,并在构造决策支持向量机分类模型的基础上,进一步结合聚类的方法,解决多类分类问题,减少支持向量机的训练样本数,提高分类训练速度和分类准确率.  相似文献   

10.
基于核方法的XML文档自动分类   总被引:3,自引:0,他引:3  
杨建武 《计算机学报》2011,34(2):353-359
支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML 文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接向量模型为基础,研究了基于支持向量机的XML文档自动分类方法,提出了适合XML文档分类的核...  相似文献   

11.
本文研究了PCFG独立性假设的局限性,并针对这一局限性提出了句法结构共现的概念以引入上下文信息,给出了计算方法;为了打破中文树库规模过小的局限性,对于句法规则参数的获取,本文利用Inside-Outside算法进行迭代,最后提出了一个基于统计模型的自顶向下的汉语句法分析器。在封闭测试下,其标记精确率和标记召回率分别为88.1%和86.8%。实验结果表明,这种方法确实能够提高标记的精确率和召回率,值得深入研究。  相似文献   

12.
在概述统计句法分析主要特征的基础上,对目前主流分析方法进行了深入分析,提出了实用化的基于统计的句法分析器必须引入结构信息、上下文信息、词汇信息以及语义信息才能提高性能和可靠性的观点。总结了基于统计的汉语句法分析方法当前的研究现状,最后探讨了基于统计的汉语句法分析方法的不足之处和发展趋势。  相似文献   

13.
一种现代汉语句法分析方法的建立与实现   总被引:1,自引:0,他引:1  
本文以7万小学生语文课本分词语料为基础,建立一个隐马尔可夫模型与层次分析法相结合的完全句法分析方法,实现了现代汉语完全句法分析。实验结果表明,该方法具有一定的独创性和高效性,其完全句法分析正确率在封闭和开放测试中分别为92.43%和65.374%。  相似文献   

14.
序列到序列(seq2seq)的框架可以应用到抽象语义表示(AMR)解析任务中,把AMR解析当作一个从源端句子到目标端AMR图的翻译任务。然而,以前的工作通常把源端句子表示为一个单词序列,忽略了句子内部潜藏的句法和语义角色信息。基于seq2seq框架,该文提出了一个直接而有效的融合句法和语义角色信息的AMR解析方法。实验结果表明,该文的方法在AMR英文标准数据集上取得了6.7%的显著提升。最后,该文从多个角度深入分析了源端的句法和语义角色信息是如何对AMR解析提供帮助的。分析表明,词性信息和subword技术对AMR解析性能提升的贡献最大,上层句法和语义角色信息次之。  相似文献   

15.
句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件: 第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展测试集进行评测实验,在扩展测试集上,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.43%和0.44%,表现出更好的鲁棒性。  相似文献   

16.
Patent claim parsing can contribute in many patent-related applications, such as patent search, information extraction, machine translation and summarization. However, patent claim parsing is difficult due to the special structure of patent claims. To overcome this difficulty, the challenges facing the patent claim parsing were first investigated and the peculiarities of claim syntax that obstruct dependency parsing were highlighted. To handle these peculiarities, this study proposes a new two-level parser, in which a conventional parser is imbedded. A patent claim is pre-processed in order to remove peculiarities before passed to the conventional parser. The process is based on a new dependency-based syntax called Independent Claim Segment Dependency Syntax (ICSDS). This two-lever parser has demonstrated promising improvement for patent claim parsing on both effectiveness and efficiency over the conventional parser.  相似文献   

17.
Cutting-plane training of structural SVMs   总被引:4,自引:0,他引:4  
Discriminative training approaches like structural SVMs have shown much promise for building highly complex and accurate models in areas like natural language processing, protein structure prediction, and information retrieval. However, current training algorithms are computationally expensive or intractable on large datasets. To overcome this bottleneck, this paper explores how cutting-plane methods can provide fast training not only for classification SVMs, but also for structural SVMs. We show that for an equivalent “1-slack” reformulation of the linear SVM training problem, our cutting-plane method has time complexity linear in the number of training examples. In particular, the number of iterations does not depend on the number of training examples, and it is linear in the desired precision and the regularization parameter. Furthermore, we present an extensive empirical evaluation of the method applied to binary classification, multi-class classification, HMM sequence tagging, and CFG parsing. The experiments show that the cutting-plane algorithm is broadly applicable and fast in practice. On large datasets, it is typically several orders of magnitude faster than conventional training methods derived from decomposition methods like SVM-light, or conventional cutting-plane methods. Implementations of our methods are available at .  相似文献   

18.
为降低现代汉语句法分析的难度,以北大和哈工大语料为基础,利用改进的Viterbi算法对汉语真实文本进行了短语识别研究.提出了在隐马尔可夫模型(HMM)框架下,训练阶段依据统计概率信息,以极大似然法获取HMM参数,识别阶段用一种改进的Viterbi算法进行动态规划,识别同层短语;在此基础上,运用逐层扫描算法和改进Viterbi算法相结合的方法来识别汉语嵌套短语.实验结果表明,识别正确率在封闭测试中可达93.52%,在开放测试中达到77.529%,证明该算法对短语识别问题具有良好的适应性和实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号