共查询到20条相似文献,搜索用时 78 毫秒
1.
BFS-CTC汉语句义结构标注语料库 总被引:3,自引:0,他引:3
句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio-Chinese Tagged Corpus)。标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究;语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用;语料来源和规模方面,语料全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到10 000句。同其他语义标注库相比,BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,兼容进行了词法和语法标注,各类标注既可以单独使用也可综合使用进行横向分析,可用于自然语言处理多方面的研究,进一步推动汉语语义分析的研究和发展。 相似文献
2.
义类标注是信息检索和自然语言处理中的一个重要问题,但依靠人工对义类进行标注不仅是一个十分烦琐的工作,而且很难把握标准,对义类代自动标注的研究就显得尤为迫切,而要实现自动标注,必须解决多义词排歧这一重要问题,在地《现代汉语词典》的义类标注过程中,文中通过统计相邻词语义类组合串的出现频率构造了一个同现频率矩阵集,这一同现频率矩阵集充分利用了义类体系的层次结构,极大地减少了数据稀疏和数据冗余,在此基础上 相似文献
3.
在汉语的自然语言处理领域中,汉语的语义标注一直是一个重要的研究课题。在以往的研究中,大多使用手工的方式取得模板进行标注;采用抽取自动模板的方法,对汉语的语义进行标注,以解决对词的类别进行标注,以及对复合结构语义关系进行标注的问题。实验效果表明,对词的类别进行标注取得了在把维度降到363时的精确率为81.6406%的结果;对复合结构语义关系之间的标注也取得了比以往工作有所改进的成果。 相似文献
4.
汉语词性标注方法的研究 总被引:4,自引:0,他引:4
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现 相似文献
5.
浅层语义分析,即分析句子中谓词(可以是动词或名词等)的语义角色成分,包括施事者、受事者、时间、地点等。根据谓词词性的不同,通常可以将SRL分为动词性谓词SRL和名词性谓词SRL。经过依存关系分析、谓词标识、特征抽取、角色识别和角色分类,最终在中文NomBank上取得名词性谓词的SRL实验结果。 相似文献
6.
7.
面向服务架构中,分布式网络计算的实现依赖于服务交互问题的有效解决。为此,服务接口必须采用机器可理解的方式描述,从而为服务的动态发现和组合提供底层支持。服务语义标注技术满足了上述需求,它是指通过共享域本体中机器可理解的元数据表示服务元素。本文将服务语义标注过程分解为域标注和概念标注两个阶段,重点针对域标注注问题,并提出了一种基于机器学习的域标注算法,对实际服务的标注实验验证了该算法的有效性 相似文献
8.
9.
10.
近年来,随着对基于内容图像检索技术研究的深入,图像自动语义标注已成为了该领域的研究热点。针对目前广泛研究的图像语义标注技术,从其分类、关键技术、存在问题及发展方向进行了进行了论述,以期为从事该方向研究的人员提供一定的借鉴意义和参考价值。 相似文献
11.
12.
13.
14.
汉语语料词性标注自动校对方法的研究 总被引:6,自引:0,他引:6
兼类词的词类排歧是汉语语料词性标注中的难点问题,它严重影响语料的词性标注质量。针对这一难点问题,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息,自动生成兼类词词性校对规则,并应用获取的规则实现对机器初始标注语料的自动校对,从而提高语料中兼类词的词性标注质量。分别对50万汉语语料做封闭测试和开放测试,结果显示,校对后语料的兼类词词性标注正确率分别可提高11.32%和5.97%。 相似文献
15.
隐马尔可夫模型(Hidden Markov Model,HMM)在自然语言处理、语音识别、模式识别等领域都得到了广泛的应用,特别是在词性标注中起到了很好的效果.词性标注在信息处理范畴内起着重要的基础性作用,词性标注的好坏直接影响着基于标注结果的各种信息处理的准确度.基于HMM分别实现了中文词性标注与英文词性标注,并对两... 相似文献
16.
藏语的“音节”在词汇语法研究和文本信息处理研究中都十分重要,尤其在解决未登录词切分问题和标注中能够发挥积极的作用。然而在现有的研究中,对音节的重视还不够。该文提出在文本标注时,可以先进行音节的性质标注,然后通过音节构词的规律预测复合词的词性,尤其是未登录词的词性。该文作者对藏语音节的定义进行了界定,提出音节的性质分类及标注原则,利用统计模型,在约24万音节的中小学语文教材语料库上进行实验,音节性质标注的正确率为93.520 8%。在此基础上,把音节性质标注信息用到词性标注中。实验结果表明: 即使在音节性质标注存在一定错误的情况下,词性标注的正确率也提高到94.196 7%;如果在保证音节性质标注完全正确的情况下,词性标注的正确率可以提高到97.775 4%,这说明音节性质标注信息对词性标注有帮助。 相似文献
17.
词性标注是自然语言理解中很长期的问题,但对于大词性标注集的词性标注,它的标注精度还很低.为此我们应用隐含马尔可夫方法(HMM)和最大熵方法对大词性标注集的词性标注问题进行了研究,并在此基础上提出了关于词性标注的最新方法--对数线性模型,以此来提高词性标注精度.此次实验分别在运用HMM模型时,提出了新的光滑算法;在运用最大熵模型上,集成了详细的局部和远距离的上下文特征信息;在对数线性模型中,集成了HMM模型和最大熵模型,并进行了对比.结果表明综合了多源信息的对数线性模型标注精度迭81.52%,取得了比传统的HMM模型更好的结果. 相似文献
18.
随着在线新闻服务的迅猛发展,用户在阅读新闻后可以非常方便地表达自己的主观情绪,有效分析和预测用户的情绪有助于新闻服务提供商为新闻用户提供更好的服务.情绪标注研究已经取得了很多优秀的成果,但仍然存在着一些问题:1)传统的方法将整个文档看作单词流或词袋,不能对句子间的逻辑关系进行建模,在文档中的句子间包含逻辑关系时,这些方法无法适当地表达文档的语义;2)这些方法只用了文档本身的语义,忽略了与该文档相关的其他信息源中信息,而这些信息源对该文档的语义表达也有一定的影响.为了解决这些问题,提出了一种基于多信息源的在线新闻评论双向分层语义表示模型,称为双向分层语义神经网络(bi-directional hierarchical semantic neural network, Bi-HSNN),该模型既捕获句子中词语所表达的情感,又自底向上地学习文档中句子间的逻辑关系,并利用评论、新闻和用户投票等多种信息源对在线新闻评论的情绪进行标注.在真实数据集上的一系列实验,验证了该模型的有效性. 相似文献
19.
In the paper, we introduce chinese corpus tagging based on statistical language model (bi-gram model)and Huang-Yu‘s smoothing method. Especially, we also suggest a two-directions method based on statistical languagemodel, namely, we not only compute probability of P(CIW)(W= w1w2w3…. wm),but also compute probability of P(C |wnwn-1…… w1)-From our experience we can see it can enhance the accuracy of Chinese corpus tagging using this method of two directions comoutation. 相似文献
20.
从现代汉语语义学角度,可将句义类型划分为简单句义、复杂句义、复合句义和多重句义4种。作为在整体上对句义结构进行描述的方式之一,句义类型识别是对汉语句子进行完整句义结构分析的重要步骤。该文基于谓词及句义类型块提出了一种汉语句义类型识别的方法,实现了4种句义类型的识别。该方法先通过句中谓词的个数进行初步识别判断出部分简单句,再对剩余的句子先用C4.5机器学习的方法得到句中谓词经过的最大句义类型块的个数,再结合句法结构中顶端句子节点进行判决,最终给出剩余句子的句义类型判定结果。实验采用BFS-CTC汉语标注语料库中10221个句子进行开集测试,句义类型的整体识别准确率达到97.6%,为基于现代汉语语义学的研究奠定了一定的技术研究基础。 相似文献