期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

羊毛卓玛《计算机工程与应用》2013,(24):135-137,148

藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏丈语法规则实用于藏文词性标注的解决词性排岐方法。实验证明：该处理方法在藏文词性自动标注中对词性排岐方面有较好的效果,使藏文词性标注正确率有了一定的提高。相似文献

2.

藏文自动分词系统的设计

才智杰才让卓玛《计算机工程与科学》2011,33(5):151

语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。相似文献

3.

班智达藏文语料切分词典的建立与算法研究 总被引：2，自引：0，他引：2

才藏太《计算机应用》2009,29(7):2019-2021

随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。结合藏文语料库切分标注规范,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。相似文献

4.

基于判别式的藏语依存句法分析

下载免费PDF全文

华却才让赵海兴《计算机工程》2013,39(4)

现有藏语句法体系复杂,不利于藏文自然语言处理的应用.为此,提出基于判别式的藏语依存句法分析方法,采用感知机方法训练句法分析模型,CYK自底向上算法解码生成最大生成树.实验结果表明,在人工标注的测试集上,句法分析正确率达到81.2％,可实际应用到藏语依存树库的构建和其他自然语言处理中. 相似文献

5.

面向信息处理的藏文分词规范研究 总被引：2，自引：1，他引：1

扎西加珠杰《中文信息学报》2009,23(4):113-118

自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。在藏文信息处理“字词处理”层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。相似文献

6.

基于几何形状分析的藏文字符识别 总被引：1，自引：0，他引：1

周纬陈良育曾振柄《计算机工程与应用》2012,48(18):201-205

在分析藏文的几何结构的基础上,提出了一种基于几何形状分析的藏文识别方法。通过对藏文的辅音和元音符号的几何特征提取,达到学习的目的,根据印刷体藏文的组成结构特征,对其进行切分,进而分别对切分结果进行识别,将藏文字符转译为拉丁文,使得即使不认识藏文的人也能“读”藏文。实验结果表明,该方法的正确率达89%以上。相似文献

7.

基于多层有限状态自动机的多输入汉语词性标注系统

孔骏陈玉泉陆汝占《计算机工程》2001,27(2):30-31,98

将带有歧义的切分字段作为词语性标注系统的输入,并在词性标注系统中引入了有限状态自动机进行部分句法分析以排除切分和标注歧义,实现了一个结合部分句法分析的汉语词性标注系统。相似文献

8.

信息处理中藏语虚词“na”和“la”的标注研究

才让三智多拉《数字社区&智能家居》2011,(10)

藏文信息处理已经从最初字处理转向了自然语言处理的阶段。现如今正逐步向句法分析、语句分析、自动文摘、自动分类和机器翻译迈进。但是这些都基于词的层面上研究处理,而词则受许多格标记和虚词的制约。因此,在藏文信息处理中对格标记的分词标注更是一件棘手和复杂的事。该文通过研究藏文信息中的兼类虚词na和la,提出了如何在不同的语境中,处理和解决这类词性的标注问题。相似文献

9.

基于知识融合的CRFs藏文分词系统

洛桑嘎登杨媛媛赵小兵《中文信息学报》2015,29(6):213-219

藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%。相似文献

10.

基于两种句法分析的语义角色标注比较研究 总被引：1，自引：0，他引：1

张育王红玲周国栋《计算机应用与软件》2010,27(8)

首先介绍了短语结构句法树和依存树,比较了两者的差别.然后通过构建基于短语结构句法分析和基于依存句法分析的两个不同的语义角色标注系统,在实验数据的基础上,重点分析短语结构句法分析和依存句法分析的差别以及两者对语义角色标注的影响.实验结果表明,基于依存句法分析的语义角色标注系统的性能略好于基于短语结构句法分析的语义角色标注系统. 相似文献

11.

Dependency parsing of Japanese monologue using clause boundaries

Tomohiro Ohno Shigeki Matsubara Hideki Kashioka Takehiko Maruyama Hideki Tanaka Yasuyoshi Inagaki 《Language Resources and Evaluation》2006,40(3-4):263-279

Spoken monologues feature greater sentence length and structural complexity than spoken dialogues. To achieve high-parsing performance for spoken monologues, simplifying the structure by dividing a sentence into suitable language units could prove effective. This paper proposes a method for dependency parsing of Japanese spoken monologues based on sentence segmentation. In this method, dependency parsing is executed in two stages: at the clause level and the sentence level. First, dependencies within a clause are identified by dividing a sentence into clauses and executing stochastic dependency parsing for each clause. Next, dependencies across clause boundaries are identified stochastically, and the dependency structure of the entire sentence is thus completed. An experiment using a spoken monologue corpus shows the effectiveness of this method for efficient dependency parsing of Japanese monologue sentences. 相似文献

12.

结合短语结构句法的语义角色标注

杨凤玲周俏丽蔡东风季铎《中文信息学报》2018,32(6):1-11

该文提出一种结合短语结构句法的语义角色标注方法。结合短语结构句法对句子进行剪枝、子句抽取处理,然后,对处理过的句子进行语义角色分析并还原。最后,结合短语树对还原后的论元边界进行修正。其中,剪枝包括并列结构、插入语的剪枝,子句抽取针对不同形式的子句有不同的处理方式。边界修正主要是针对某些类型论元进行修正。该文分别在CoNLL2004与CoNLL2005评测语料中做了实验,在CoNLL2005 Shared Task的test_wsj数据集上F值为88.25%,在CoNLL2004 Shared Task的test数据集上F值为85.66%。实验结果表明,引入短语结构句法能有效地提升语义角色的识别效果。相似文献

13.

藏文句子语义块识别方法

柔特色差甲才让加《中文信息学报》2019,33(6):42-49

语义理解是自然语言理解的一项关键任务,传统上采用以语法为中心的词法和句法分析等技术来解析句义。该文提出了一种以语义块分析藏文句义的新方法,其中藏文语义块识别通过采用Bi-LSTM和ID-CNN 两种神经网络构架对该任务进行建模和对比分析。经实验,上述的两种模型在测试数据集上取得了良好的性能表现, F₁值平均分别为89%和92%。这种语义块分析和识别技术能够较好地替代词义消歧和语义角色标注等工作。相似文献

14.

哈萨克语句法分析辅助特征提取研究

陈雪古丽拉·阿东别克《中文信息学报》2018,32(8):75

在哈萨克语句法分析中,该文用平均感知器算法训练句法分析模型,用柱搜索算法进行解码,可以快速准确地对哈萨克语句子进行短语结构句法分析。在解析句子过程中,构建了一个双向LSTM模型,利用它提取句子中每个单词之间组成结构的信息,以预测每个单词在句法树中的句法组成部分,然后将结果作为辅助前瞻特征传递给句法分析过程。实验证明,此方法与基线模型相比,在准确率和召回率上均有提高。相似文献

15.

Expressing unrestricted grammars by extended definite clause grammars1

Erik Knudsen 《Computational Intelligence》1989,5(2):127-133

A definition of extended definite clause grammars and their relationship to unrestricted grammars are presented. A method for translating extended definite clause grammars describing unrestricted grammars into executable prolog programs is given. Three different parsing techniques are presented, and for each a complete presentation of how to incorporate unrestricted grammars in the actual formalism is done. Extended definite clause grammar is a powerful formalism usable for specifying grammars in natural language processing systems. 相似文献

16.

藏文句义分割方法

柔特色差甲才让加《计算机工程》2020,46(2):286-291

句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出一种藏文句义分割方法,通过长度介于词语和句子之间的语义块单元进行句义分割。在对句子进行分词和标注的基础上,重新组合分词结果,将句子分割为若干个语义块,并采用空洞卷积神经网络模型对语义块进行识别。实验结果表明,该方法对藏文句义分割的准确率达到94.68%。相似文献

17.

基于最大熵模型的汉语问句语义组块分析 总被引：1，自引：0，他引：1

余正涛樊孝忠《计算机工程》2005,31(17):3-5,8

问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。相似文献

18.

基于UAMRT的机器翻译方法

李玉鉴《计算机科学》2004,31(5):172-175

本文提出了一种新的机器翻译方法，即基于UAMRT的机器翻译。该方法的基本思想非常简单：首先设计模板匹配替换通用算法UAMRT，然后利用UAMRT匹配句子中的源语言模板，并将其替换为相应的目标语言模板，从而实现对句子的翻译。在结合句型分析算法和从句分析算法的基础上，利用启发式搜索机制进一步提高了句子的翻译速度和质量。速度测试表明用该方法实现的英汉翻译系统在P-IV1．7G的计算机上翻译速度每秒可以达到1300个单词左右；质量测试表明该系统的性能在开发过程中仅仅通过增加更多的模板就会变得越来越好，而且在应用时与几种商用系统相比可以达到中等水平。相似文献

19.

面向篇章机器翻译的英汉翻译单位和翻译模型研究

宋柔葛诗利《中文信息学报》2015,29(5):125-136

篇章机器翻译的首要问题是确定翻译单位。基于汉语和英语的语言知识和英汉翻译的实践,该文提出面向篇章机器翻译的基本单位和复合单位的双层单位体系,讨论了这两种单位支持篇章翻译应满足的性质,并据此勾画了篇章机器翻译的拆分、翻译、装配三步模型(PTA模型)。该文提出,汉语篇章机器翻译的复合单位为广义话题结构对应的文本块,基本单位则是根据广义话题结构流水模型得到的话题自足句;英语篇章机器翻译的复合单位为句号句,基本单位为naming-telling小句(NT小句),即指称性成分加上对它的陈述或后修饰成分所构成的小句。该文展示了在这样的翻译单位体系下采用PTA模型的英汉翻译过程实例,规划了面向篇章翻译的英汉小句对齐语料库的建设任务,讨论了PTA模型的可行性。
相似文献

20.

Parsing electronic circuits in a logic grammar

Tanaka T. 《Knowledge and Data Engineering, IEEE Transactions on》1993,5(2):225-239

Understanding circuits is a prerequisite for circuit design and trouble shooting. Circuit understanding by engineers is described as a process that starts with a structural analysis and then proceeds to a causal analysis. As a step toward automatic circuit understanding, a method for analyzing circuit structures is presented. In this method, a circuit is reviewed as a sentence and its elements as words. Circuit structures are defined by rules written in a logic grammar called definite clause set grammar (DCSG). Given circuits are decomposed into parse trees by the DCSG top-down parsing mechanism. These parse trees represent hierarchical structures of functional blocks. This representation is presented as one step in the process of automatic understanding of circuit structures 相似文献