首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对传统的基于双语平行语料的复述获取方法在复述获取和应用的过程中忽视文档上下文的缺点,引入基于主题模型的上下文信息来改善复述获取-主要致力于如何计算上下文无关的复述生成概率和上下文相关的复述生成概率.研究如何将上述2种概率融入统计机器翻译建模,以提高翻译系统的性能.多个测试集上的实验结果证明了该方法的有效性.  相似文献   

2.
决策式依存句法分析方法由于分析算法的确定性和贪婪性导致其在句法分析过程中容易出现严重的错误传播。缓解这一问题的一种方法是对待分析句子做预分析,以缩减句子长度,减少决策次数。但当前的名词短语、介词短语等短语句法信息存在定义不清晰、有歧义、内部依存结构多样和不易识别等问题,导致决策系统无法对这些短语句法结构进行高质量的预分析。针对以上问题,对依存树库中的依存树结构进行分析,从而定义了一种根偏置子树,这种子树具有定义清晰明确、结构简单固定的优点,可以在决策式依存句法分析前,能更准确地分析出子树的依存结构,从而达到缩减句子长度,减少决策次数,提升决策式依存句法分析器性能的目的。  相似文献   

3.
为解决中文同义词词林无法用做上下文相关的复述语料问题,提出了一种词汇级复述方法。在中文大语料库环境下,根据给定的上下文,提取复述目标词和复述候选词;建立词、句融合的分层概率统计模型,给出了计算句、词复述相似度的5项特征值,用以训练二元分类器,并对候选复述词进行筛选。实验结果证明:1)基于大语料库数据挖掘,获取候选复述词提取方法具有实用价值,每个目标词给定的上下文句子中获取3.1个正确复述词;2)利用二元分类器对复述确认是有效的,精确率达到0.65;3)提取的复述中,有32%在《中文同义词扩展词林》无法查出,有效扩展了传统同义词复述方法。  相似文献   

4.
通过对大量的使用垂直搜索引擎搜索到的信息数据进行分析,提出了一种新的专业信息库生成算法,即基于语料统计树的专业信息库生成算法(CSTA).论文定义了语料树、语料链、关联度等相关概念,并由此推导出相关的性质,在此基础上对CSTA进行了详细的描述.  相似文献   

5.
机器翻译系统中,语言技术是居于核心地位的;谓语是句子结构的核心,动词又是谓语的主要形式,因此翻译系统中的动词的处理至关重要。本文依据汉藏翻译系统的需要,通过汉藏实际语料的对比分析,进行了汉藏动词的特点比较,就动词的分类、动词的时态及动词作句子各种成分时其形态的变化规律进行了深入的讨论,并提出了处理策略,为有效地提高系统的翻译质量提供了有益的方法和思路。  相似文献   

6.
分析了中文自然语言处理中句子相似度的计算方法,介绍了基于向量空间模型的TF—IDF的、基于句子语义和基于句子依存关系的三种句子相似度计算模型,并对它们的计算原理、计算方法进行了分析,给出了他们的优缺点.基于向量空间模型的句子相似度计算模型已经比较成熟,一般情况下能够产生较好的效果.由于TF—IDF方法没有考虑这种语义信息,所以传统的TF—IDF方法具有一定的局限性.而基于句子语义或句子的依存结构来进行相似度计算,能达到更好的效果.  相似文献   

7.
无扩展的情感词识别方法对于倾向容易发生演化的社区媒体信息的召回率很低.基于此,提出了一种基于依存关联分析的情感词扩展识别方法,首先对文本进行新词和短语发现;再对句子的依存树进行剪枝和归并;然后按照给定的策略进行情感词和评价对象的扩展;最后得到情感词扩展的识别结果.该方法能同时扩展具有直接依存关系和间接依存关系的情感词. 实验结果表明该方法有效.  相似文献   

8.
首先介绍文献术语的重要性和分布情况,归纳常用的文献术语抽取方法,进而提出一种从英汉平行语料库中自动抽取术语的算法.主要采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注.统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集.然后对每个英文候选术语计算与其相关的中文翻...  相似文献   

9.
作为自然语言处理的一项基础性研究,词义消歧对机器翻译、信息检索、文本分类、情感分析等上层应用有重要影响。本文针对现有消歧方法中存在的对知网知识利用不充分问题,提出了一种基于How Net的图模型词义消歧方法。该方法利用依存句法分析获取上下文知识,构建上下文消歧图,并对How Net中有着重要词义区分能力的例句进行依存句法分析,构建依存消歧图,结合上下文消歧图和依存消歧图完成歧义词的消歧处理。实验结果表明,该方法在Sem Eval-2007 task#5数据集上取得了0.468的消歧准确率,获得优于同类方法的消歧效果。  相似文献   

10.
从本质上说,机器翻译过程是一个多层次消歧过程。介词短语修饰歧义是导致机器翻译中结构歧义的典型原因之一。本文构造了一个基于类似最大似然估计的介词短语修饰消歧模型。该模型利用了词汇的下位词性、语义分类和短语结构信息,同时考虑了低概率事件。利用关于汽车配件的真实语料进行训练该模型,真实训练语料库包括大约 100000个句子,其中构造了大约 3000个测试例子,测试结果获得了 93%的准确率。该消歧技术应用在汽车配件真实受控文本机器翻译系统中,取得了很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号