共查询到19条相似文献,搜索用时 204 毫秒
1.
动词与动词搭配方法的研究 总被引:1,自引:0,他引:1
搭配是汉语自动句法分析的重要环节,而动词是句法分析的核心。论文面向中文信息处理,通过对真实文本的统计分析归纳了搭配自动获取规则,结合统计模型,研究了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征,在此基础上成功地抽取出所选语料中的动词—动词搭配。其中抽取正确率为75%,召回率为64%。 相似文献
2.
汉语动词-动词搭配规则与分布特征 总被引:4,自引:0,他引:4
搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。论文面向中文信息处理,通过对真实文本的统计分析归纳了用于自动获取搭配的规则,研究了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征,在此基础上提出了抽取动宾、动补、连谓和并列四种关系的动词-动词搭配的适宜观察窗口。 相似文献
3.
提出一种基于最大熵模型和投票法的汉语动词与动词搭配识别方法.该方法通过组合目标动词与候选搭配词的上下文词性信息以及关联程度的统计信息构成5种复合特征模板,然后利用最大熵方法获得它们对应搭配识别器,最后采用最好搭配识别器占优的投票法构造组合识别器.实验结果表明,同时包含上下文词性信息和统计信息的识别器优于单纯包含上下文词性信息或统计信息的识别器,但最好搭配识别器占优的组合识别器效果更佳. 相似文献
4.
5.
6.
基于最大熵模型的汉语问句语义组块分析 总被引:1,自引:0,他引:1
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。 相似文献
7.
8.
动词是中文信息处理的核心,是计算机对汉语进行分析和处理的基础。文章给出利用支持向量机法(SVM)进行动词-动词搭配的研究。首先构造训练特征库和学习特征库,然后利用高斯核函数将训练特征库中的样本映射为高维空间中的向量,使样本线性可分,求得超平面,最终实现SVM机的构造。通过对待测的1000句汉语句子应用SVM进行了动词搭配的自动识别分析,获得了开放测试抽取正确率为69.6%,召回率为67.8%的理想结果。 相似文献
9.
语义级的自动查错一直是汉语文本自动校对技术的难点.针对汉语文本中的语义搭配错误,提出了一种基于<知网>义原搭配的有效的自动查错方法,主要包括语义知识库的构建和自动查错算法.语义知识库的构建分为两步:①根据规则从训练语料中统计出大量的动词与名词之间的二元搭配组合,并利用互信息等因素筛选记录;②利用<知网>对词语义项的义原描述(对于动词抽取其义项中的主义原,名词抽取其义项中的主义原和常见的4个辅助义原),将动词与名词的二元搭配组合转变为义原之间相互制约的多元组合.在语义知识库的基础上设计相应的自动查错算法.实验结果显示,该方法的召回率为35%,精确率为82.3%,具有较好的应用前景. 相似文献
10.
11.
范畴标注是组合范畴语法解析中的子任务之一,可用于提高解析器的效率和性能.传统的最大熵模型需要手工定义特征模板,神经网络则通过隐含层学习到离散特征的分布式表示,从而自动提取分类需要的特征.引入该模型来解决该问题,在原有神经语言模型的基础上加入了向量化的词性表示层和范畴表示层,并通过反向传播自动更新词向量、词性向量和范畴向量,学习到它们的分布式表示.此外,在预测时采用束搜索的序列解码方式来引入标签之间的依赖信息.实验结果表明,这两种改进都能提升模型的性能,使其在范畴标注任务上比传统的最大熵模型效果要好(提升1%). 相似文献
12.
格语法理论中一般动词带有必须格,而汉语中右侧带必须格的动词映射到依存句法中该动词一般带有宾语。基于该理论识别依存句法分析结果中缺失动宾关系依存弧的现象,针对该类错误,提出了一种基于知识约束的算法,寻找缺失依存弧以改进依存句法分析。实验结果表明,利用语言学知识能有效地识别依存句法分析结果中缺失动宾关系依存弧的动词,识别准确率达到93.80%,改进后的系统UAS值提升了0.21%,动宾关系UAS值提升了2.14%,说明利用语言学知识能够改善依存句法分析效果。 相似文献
13.
谌志群 《计算机工程与应用》2007,43(17):176-178
谓词的自动识别是浅层句法分析的重要内容。以汉语的“谓词中枢论”为语言学基础,详细分析了汉语句子中谓词所处的上下文环境,讨论了影响谓词出现的主要语境因素。提出了一种基于统计学原理的汉语句子谓词自动识别概率模型,通过极大似然估计对谓词候选词在句中充当谓词的概率进行近似计算,利用绝对折扣模型对参数进行平滑。在小规模语料库上进行的实验显示,谓词识别率最高分别达到了80.6%(动词性谓词)和83.2%(形容词性谓词),表明了该方法的可行性和有效性。 相似文献
14.
15.
提出了一个汉语基本短语分析模型,将汉语短语的边界划分和短语标识分开,假定这两个过程相互独立,采用最大熵方法分别建立模型解决。最大熵模型的关键是如何选取有效的特征,文中给出了两个步骤相关的特征空间以及特征选择过程和算法。实验表明,模型的短语定界精确率达到95.27%,标注精确率达到96.2%。 相似文献
16.
在汉英机器翻译译文生成中,一个主要的问题是如何根据句子的上下文语境获取有关时态、语态、句式和主谓性、数、格等信息,生成具有正确单词形态的译文,如动词的过去式、过去分词、现在式形式;名词的所有相、复数形式;助动词生成以及冠同的生成等.本文提出一种基于SC文法的汉英机器翻译译文词形态生成算法,该方法通过设计一种生成导向的语言特征描述体系,采用译文生成和源文分析一体化的语言分析技术,使得译文生成能够充分利用源又分析过程中所用到的各种知识,准确地形成句子中各个成分的形态特征,并能有效地解决汉英机译译文生成中助动词 相似文献
17.
18.
基于最大熵分类器的语义角色标注 总被引:24,自引:2,他引:24
语义角色标注是浅层语义分析的一种可行方案.描述了一个采用最大熵分类器的语义角色标注系统,该系统把句法成分作为语义标注的基本单元,用最大熵分类器对句子中谓词的语义角色同时进行识别和分类.最大熵分类器中使用了一些有用的特征及其组合.在后处理阶段,在具有嵌套关系的结果中,只有概率最高的语义角色被保留.在预测了全部能够在句法分析树中找到匹配成分的角色以后,采用简单的后处理规则去识别那些找不到匹配成分的角色.最终在开发集和测试集上分别获得了75.49%和75.60%的F1值,此结果是已知的基于单一句法 相似文献
19.
该研究以型式语法为理论基础,通过链语法形式化语法体系对动词型式进行了形式化,并对链语法动词词典进行了重构,旨在构建一个更好的面向中国学生的英语书面语动词形式错误检查系统。测试结果显示,重构后链语法词典的查错性能和句法分析能力得到提高。对错句检查的召回率比原词典提高了4.5%,准确率提高了15.7%;对本族者正确分析句子的准确率提高了12.2%。研究表明,该研究所基于的语言学理论(动词型式语法)和形式模型(链语法)可以较好地适用于中国学生书面英语动词形式错误检查系统的构建。 相似文献