首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 328 毫秒
1.
该文提出一种融入简单名词短语信息的介词短语识别方法。该方法首先使用CRF模型识别语料中的简单名词短语,并使用转换规则对识别结果进行校正,使其更符合介词短语的内部短语形式;然后依据简单名词短语识别结果对语料进行分词融合;最后,通过多层CRFs模型对测试语料进行介词短语识别,并使用规则进行校正。介词短语识别的精确率、召回率及F-值分别为: 93.02%、92.95%、92.99%,比目前发表的最好结果高1.03个百分点。该实验结果表明基于简单名词短语的介词短语识别算法的有效性。
  相似文献   

2.
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。  相似文献   

3.
基本名词短语识别是自然语言处理领域非常重要的子任务。文中总结了一些有代表性的基本名词短语识别方法,并对多种典型英语基本名词短语识别的结果进行了比较和对照,提出并实现了边界统计和词性串校正相结合的英语基本名词短语识别方法。该方法把基本名词短语识别分成主次分明的两部分,边界统计作为主要部分能够正确识别出大部分基本名词短语,词性串规则作为辅助手段在对前者识别出的基本名词短语进行核对和校正的同时还对边界统计方法遗漏的基本名词短语进行再回收。此方法中,词性串规则弥补了边界统计无法顾及基本名词短语内部组合规律的缺点,提高了精确率和召回率。采用此方法,基本名词短语识别的精确率达到96.22%,召回率97.59%,Fβ=196.90%,F值超出了目前报道的最好结果。  相似文献   

4.
李荣  郑家恒  郭梅英 《计算机科学》2009,36(10):244-246
为了进一步提高名词短语的识别精度,针对遗传算法和隐马尔可夫模型各自的特点,提出一种基于遗传算法的隐马尔可夫模型识别方法。该方法是在高准确率词性标注的基础上实现的。在训练阶段,用遗传算法获取HMM参数;识别阶段先用一种改进的Viterbi算法进行动态规划,识别同层名词短语,然后用逐层扫描算法和改进Viterbi算法相结合来识别嵌套名词短语。实验结果表明,此联合算法达到了94.78%的准确率和94.29%的召回率,充分融合了遗传算法和隐马尔可夫模型的优点,证明它较单一的隐马尔可夫模型识别法具有更好的识别效果。  相似文献   

5.
本文运用规则和统计相结合的方法构造了一个汉语介词短语识别算法。首先,根据介词和介词短语右边界组成的搭配模板自动提取可信搭配关系,并用这些搭配关系对介词短语进行识别。之后,用基于词性的三元边界统计模型和规则相结合的方法识别其它未处理的介词短语。通过对含有7323 个介词短语的语料作交叉测试,精确率达到87148 % ,召回率达到87127 %。  相似文献   

6.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。  相似文献   

7.
研究英语名词短语识别不仅是句法分析的基本问题,而且是进行机器翻译的基础.针对英语名词短语传统识别算法存在速度慢,效率低的难题,为提高识别准确率,提出一种基于最大熵原理的英语基本名词短语识别方法.首先综合考虑英语短语结构特性和上下文的位置来建立特征集模板.采用改进的频次和平均互信息相结合方法提取有效特征,表示为最大熵模型形式,最大熵原理完成最后的识别过程.对Penn Treebank语料库中的英语名词短语进行仿真,证明改进方法对短语识别正确率和召回率均达90%以上,远远高于传统方法的识别率,是一种简单、快速、高效的英语名词短语识别方法.  相似文献   

8.
名词短语的识别对句法分析等自然语言处理任务有着基础性的意义。目前,老挝语名词短语识别研究仍处于起步阶段,相较于其他语言,老挝语名词短语识别存在边界模糊、界定描述模糊、语料有限、句式过长等问题。针对以上问题,该文研究了老挝语名词短语的结构,并构建了融合其短语结构的多通道老挝语名词短语模型。模型通过将字符、词和词性特征组合形成不同的输入通道,使用多个BiLSTM网络从不同的方面提取更多隐藏信息,同时改善低资源语料存在大量未登录名词短语的问题。此外,由于老挝语句式过长,模型引入Attention机制,增加重要特征的权重,有效减少了无用信息的干扰。实验结果表明,该模型在有限标注语料下F1值达到85.25%,优于其他模型方法。  相似文献   

9.
针对现有并列名词短语识别不能处理短语序列隐含信息的情况,提出一种新的并列名词短语识别方法。采用隐结构感知模型与条件随机场模型,识别并列名词短语序列以及序列中用于连接并列名词短语的连词和标点。针对并列名词短语序列进行任务描述,建立语料库并选择典型的并列名词短语识别特征进行实验。结果表明,隐结构感知模型由于加入序列中的隐含信息,相比传统条件随机场模型在并列名词短语识别中更有优势,F度量值达到86.36%,进而证明该模型能够用于以信息抽取为导向的并列名词短语识别。  相似文献   

10.
以哈萨克语基本名词短语识别为目标,实现了哈萨克语基本名词短语自动识别系统。采用基于规则自动识别及人工标注的方法建立基本名词短语标注语料库,在此基础上,采用统计和规则相结合的识别方法,利用互信息进行基本名词短语边界预测,然后根据哈萨克语基本名词短语构成规则对预测边界进行调整,加入标注符,得到最终的识别结果。实验结果表明,两种方法封闭测试的识别精确率分别为80.2%和82.5%。  相似文献   

11.
目前,实体识别与依存关系分析,采用的主要是基于监督学习的深度端到端方法.这种方法存在两个问题:不能引入背景知识;不能识别出自然语言的多粒度、嵌套特征.为了解决以上问题,提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时设计了配套的多维端到端短语识别模型(MDM模型).该标注规则以短语为最...  相似文献   

12.
为降低现代汉语句法分析的难度,以北大和哈工大语料为基础,利用改进的Viterbi算法对汉语真实文本进行了短语识别研究.提出了在隐马尔可夫模型(HMM)框架下,训练阶段依据统计概率信息,以极大似然法获取HMM参数,识别阶段用一种改进的Viterbi算法进行动态规划,识别同层短语;在此基础上,运用逐层扫描算法和改进Viterbi算法相结合的方法来识别汉语嵌套短语.实验结果表明,识别正确率在封闭测试中可达93.52%,在开放测试中达到77.529%,证明该算法对短语识别问题具有良好的适应性和实用性.  相似文献   

13.
统计机器翻译中的非连续短语模板抽取及其应用   总被引:1,自引:0,他引:1  
孙越恒  段楠  侯越先 《计算机科学》2009,36(10):192-196
目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助双语对齐语料和介词_方位词翻译表,获得模板对应的英文翻译。最终形成的双语模板被加入短语翻译表中。在标准测试语料上的对比实验表明,加入非连续短语模板后,译文更加符合语法规范,而翻译结果也取得了相对稳定的提高。  相似文献   

14.
GLR算法模型翻译识别结果存在数据点重合的情况,精确度无法得到有效保障。为了准确的识别短语,设计了基于改进GLR算法的短语智能识别算法,该算法构建标记规模约74万个英汉单词的短语语料库,使短语具备可搜索功能,通过短语中心点构建短语结构,可获得词性识别结果,依据解析线性表的句法功能校正词性识别结果中的英汉结构歧义,最终获得识别的内容。实际测评结果显示,该算法克服了GLR的弊端,相对统计算法和动态记忆算法提高了运算速度和处理性能,更加适合机器翻译任务,为在智能机器翻译领域提供了新的思路。  相似文献   

15.
在介词短语的识别中,统计学习方法和人工规则方法是人们常采用的两种最主要的方法。在浅层句法分析层次上,基于几种典型模式探讨分析构建介词短语识别模型时,规则方法和统计学习方法的有效结合。指出介词短语特征的提取实质是基于语料的语用规则的一种抽象。提出统计学习方法和人工规则方法的有机结合是未来的发展方向。  相似文献   

16.
汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于“分歧点”的概率融合策略以融合该双向标注结果.实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果.  相似文献   

17.
神经机器翻译是目前机器翻译领域的主流方法,拥有足够数量的双语平行语料是训练出一个好的翻译模型的前提。双语句对齐技术作为一种从不同语言端单语语料中获取双语平行句对的技术,因此得到广泛的研究。该文首先简单介绍句对齐任务及其相应的评测标准,然后归纳总结前人在句对齐任务上的研究进展,以及句对齐任务的相关信息,并简单概括参加团队所提交的系统,最后对当前工作进行总结并展望未来的工作。  相似文献   

18.
在不同的语言中,句法成分的相对位置往往不同,介词短语表现尤为明显,因此正确的对介词短语进行调序对提高翻译质量至关重要。层次短语模型借助于形式语法规则,具有较强的处理长距离调序的能力,但是其并不对短语的句法成分进行区分,这会导致规则的使用不当,从而引起翻译错误。该文在层次短语模型的基础上,针对介词短语进行处理。首先利用条件随机场模型识别出介词短语,然后抽取出带有介词短语的规则,构建一个新的同步上下文无关文法。解码的时候,在这个同步上下文无关文法定义的空间里搜索找到最优的译文。相对于层次短语模型,该方法在我们内部的英汉数据集上调高了0.8个BLEU百分点,在NIST 2008 英汉翻译数据集上提高了0.5个BLEU百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号