共查询到20条相似文献,搜索用时 572 毫秒
1.
目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在CPWD数据集上,短语窗口模型比传统端对端模型F1值提升超过1个百分点。相应的方法应用到了CCL2018的中文隐喻情感分析比赛中,在原有基础上F1值提升了1个百分点以上,取得第一名成绩。 相似文献
2.
哈萨克语动词短语自动识别研究与实现 总被引:1,自引:0,他引:1
由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(Kz Base VP)进行识别。在该混合策略系统中,根据专属Kz Base VP的特点构建了Kz Base VP搭配规则集,通过规则集对无歧义的Kz Base VP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的Kz Base VP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。 相似文献
3.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。 相似文献
4.
以哈萨克语基本名词短语识别为目标,实现了哈萨克语基本名词短语自动识别系统。采用基于规则自动识别及人工标注的方法建立基本名词短语标注语料库,在此基础上,采用统计和规则相结合的识别方法,利用互信息进行基本名词短语边界预测,然后根据哈萨克语基本名词短语构成规则对预测边界进行调整,加入标注符,得到最终的识别结果。实验结果表明,两种方法封闭测试的识别精确率分别为80.2%和82.5%。 相似文献
5.
以哈萨克语基本名词短语识别为目标,采用基于规则的方法,从基本名词短语结构语法模型出发,利用哈萨克语基本名词短语的词性标记信息及构形附加成分信息,建立了基本名词短语规则集,设计了哈萨克语基本名词短语自动识别系统,实现了对30万词级哈萨克语语料库的基本名词短语标注。实验结果表明,该方法可行,识别精确率达到80.8%。 相似文献
6.
7.
通过对语音识别技术的发展梳理,简单介绍了语音识别的历史和应用现状,并将传统语音识别的技术和当前的研究进展进行描述.传统语音识别采用基于统计的方法,采用声谱特征,在GMM-HMM混合结构上进行训练和匹配.当前的语音识别模型主要基于深度学习的方法,采用CNN、RNN都可以有效的进行特征提取从而建立声学模型.进一步的研究采用了端到端的技术,避免了多个模型间的误差传导.端到端技术主要有CTC技术和attention技术,最新的模型和方法着重研究了attention技术,并在尝试进行与CTC的融合以达到更好的效果.最后结合作者自身的理解,概括了语音识别当前所面临问题和未来发展方向. 相似文献
8.
9.
10.
本文针对多个车牌识别任务之间存在竞争和冲突,导致难以同时提高多个车牌的识别率的问题,提出基于多目标优化多任务学习的端到端车牌识别方法.首先,通过分析某些车牌识别任务容易占主导地位,而其他任务无法得到充分优化的问题,建立基于多任务学习的车牌识别模型.接着,针对字符分割造成车牌识别准确率较低、鲁棒性较差的问题,提出基于多任务学习的端到端车牌识别方法.最后,针对多个车牌识别任务间难以权衡的问题,提出一种基于多目标优化的多任务学习方法,以提高多个车牌识别的准确率.将本文所提方法在标准车牌数据集上进行测试,实验结果验证了该方法的有效性和优越性,其他代表性方法相比可以提高车牌识别的准确率、快速性和鲁棒性. 相似文献
11.
该文提出了一种多模型融合的介词短语识别方法,不仅能识别并列型介词短语,而且提高了嵌套型介词短语的识别精度。首先,利用简单名词短语识别模型识别出语料中的短语信息并进行融合,简化语料,降低介词短语内部复杂性;其次,用CRF模型识别嵌套的内层介词短语,即若存在嵌套则识别嵌套的内层,若无嵌套则识别该介词短语;最后,将初始语料中识别出来的内层介词短语进行分词融合并修改其特征信息,重新训练外层介词短语识别模型进行识别。在内外层介词短语自动识别后,利用双重错误校正系统对识别的介词短语进行校正。在2000年《人民日报》语料中的7 028个介词短语进行五倍交叉实验,结果表明,该方法识别的介词短语的正确率、召回率、F值分别为94.11%、94.02%、94.06%,比基于简单名词短语的介词短语识别方法(baseline)分别提高了1.09%、1.07%、1.08%,有效提高了介词短语识别的性能。 相似文献
12.
13.
14.
15.
该文提出一种融入简单名词短语信息的介词短语识别方法。该方法首先使用CRF模型识别语料中的简单名词短语,并使用转换规则对识别结果进行校正,使其更符合介词短语的内部短语形式;然后依据简单名词短语识别结果对语料进行分词融合;最后,通过多层CRFs模型对测试语料进行介词短语识别,并使用规则进行校正。介词短语识别的精确率、召回率及F-值分别为: 93.02%、92.95%、92.99%,比目前发表的最好结果高1.03个百分点。该实验结果表明基于简单名词短语的介词短语识别算法的有效性。
相似文献
相似文献
16.
统计机器翻译中短语切分的新方法 总被引:1,自引:0,他引:1
基于短语的统计机器翻译是目前主流的一种统计机器翻译方法,但是目前基于短语的翻译系统都没有对短语切分作专门处理,认为一个句子的所有短语切分都是等概率的。本文提出了一种短语切分方法,将句子的短语切分概率化: 首先,识别出汉语语料库中所有出现次数大于2次的词语串,将其作为汉语短语; 其次,用最短路径方法进行短语切分,并利用Viterbi算法迭代统计短语的出现频率。在2005年863汉英机器翻译评测测试集上的实验结果(BLEU4)是: 0.1764(篇章),0.2231(对话)。实验表明,对于长句子(如篇章),短语切分模型的加入有助于提高翻译质量,比原来约提高了0.5个百分点。 相似文献
17.
源语言和目标语言的句法异构性对统计机器翻译(SMT)性能有重要影响。在基于短语的汉英统计机器翻译基础上,提出了一种基于N-best句法知识增强的源语言预调序方法。首先对源语言输入句子进行N-best句法分析,计算统计概率得到高可靠性子树结构,再根据词对齐信息从可靠性子树结构中抽取初始调序规则集。两种优化策略用于对初始规则集进行优化:基于中英文句法知识规则推导筛选和规则概率阈值控制机制。然后为减少短语内部调序,保证短语局部流利性,采用源语言短语翻译表为约束,使调序控制在短语块之间进行。最后根据获取的优化规则集和短语表约束条件对源语言端句子的句法分析树进行预调序。在基于NIST 2005和2008测试数据集上的汉英统计机器翻译实验结果表明,所提基于N-best句法知识增强的统计机器翻译预调序方法相对于基线系统,自动评价准则BLEU得分分别提高了0.68和0.83。 相似文献
18.
为降低现代汉语句法分析的难度,以北大和哈工大语料为基础,利用改进的Viterbi算法对汉语真实文本进行了短语识别研究.提出了在隐马尔可夫模型(HMM)框架下,训练阶段依据统计概率信息,以极大似然法获取HMM参数,识别阶段用一种改进的Viterbi算法进行动态规划,识别同层短语;在此基础上,运用逐层扫描算法和改进Viterbi算法相结合的方法来识别汉语嵌套短语.实验结果表明,识别正确率在封闭测试中可达93.52%,在开放测试中达到77.529%,证明该算法对短语识别问题具有良好的适应性和实用性. 相似文献
19.
GLR算法模型翻译识别结果存在数据点重合的情况,精确度无法得到有效保障。为了准确的识别短语,设计了基于改进GLR算法的短语智能识别算法,该算法构建标记规模约74万个英汉单词的短语语料库,使短语具备可搜索功能,通过短语中心点构建短语结构,可获得词性识别结果,依据解析线性表的句法功能校正词性识别结果中的英汉结构歧义,最终获得识别的内容。实际测评结果显示,该算法克服了GLR的弊端,相对统计算法和动态记忆算法提高了运算速度和处理性能,更加适合机器翻译任务,为在智能机器翻译领域提供了新的思路。 相似文献
20.
现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。 相似文献