首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
模糊限制语用于表示不确定性的观点。由模糊限制语所引导的信息为模糊限制信息,开展中文模糊限制信息检测研究,对事实信息抽取意义重大。模糊限制信息检测包含模糊限制性句子识别和模糊限制信息范围检测两个子任务。中文模糊限制信息范围语料库的缺乏,影响了中文模糊限制信息检测的研究。该文研究制定了基于短语结构的中文模糊限制信息范围标注规则,构建了中文模糊限制信息范围语料库。最后对标注的语料库进行了统计和分析。该文语料库的构建为中文模糊限制信息检测研究提供了资源支持。  相似文献   

2.
模糊限制信息检测用于区分模糊限制信息与事实信息,提高抽取信息的真实性和可靠性。模糊限制信息范围的界定具有依赖于语义和句法结构的特点,是模糊限制信息检测的一个难点。该文提出一种基于句法结构约束的模糊限制信息范围检测方法,基于依存结构树和短语结构树构建决策树,获取句法结构约束集,用于产生句法结构约束特征,并加入到条件随机域模型中进行模糊限制信息范围检测。实验采用CoNLL-2010共享任务数据集,在标准的模糊限制语标注语料上,获得了70.28%的F值,比采用普通的句法结构特征提高了4.22%。  相似文献   

3.
评价对象抽取是自然语言处理中情感分析研究领域的一项重要任务.本文研究基于LDA进行中文评价对象的抽取问题.利用中文倾向性评测中任务3的Digital语料进行相关实验.首先对语料进行分词,词性标注以及去除干扰内容等预操作,然后利用LDA主题模型进行处理,最后对抽取的评价对象进行分析.数据结果表明,将LDA方法运用到评价对象抽取问题具有一定的研究和实用价值.  相似文献   

4.
在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。 该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。  相似文献   

5.
中文事件触发词的自动抽取研究*   总被引:1,自引:0,他引:1  
随着自然语言处理领域中信息抽取技术的不断发展,越来越多的学者开始关注事件的识别和抽取研究,其中触发词的识别和抽取是事件识别和抽取的关键。针对目前中文触发词抽取结果的 F值不够理想的情况,选用中文事件语料库C EC语料作为训练语料和测试语料,提出了一种基于触发词扩展表和机器学习相结合的触发词抽取方法,实验表明,该方法抽取效果比较理想,F值可达到69.7%。  相似文献   

6.
第三届中文倾向性分析评测(COAE2011)语料的构建与分析   总被引:1,自引:0,他引:1  
文本倾向性分析已成为自然语言处理领域研究的热点问题之一。为进一步推动中文倾向性分析的研究,中国中文信息学会信息检索专业委员会举办了第三届中文倾向性分析评测(COAE2011)。该次评测主要关注领域和上下文语境(Context)对中文倾向性分析的影响。该文主要介绍COAE2011评测语料的构建及其对评测的支撑 首先介绍了COAE2011语料的领域选取、媒介分布等获取过程,然后详细阐述语料的标注原则与方法,最后依据评测结果分析领域和上下文语境因素对倾向性的影响。COAE2011语料的建立将为中文倾向性分析提供强大的资源支持。  相似文献   

7.
情感信息抽取是情感分析中的一个重要子任务。虽然该任务已经开展有一段时间,但是面向中文文本的情感信息抽取任务研究才刚刚起步。目前中文文本的情感信息抽取面临的首要困难在于现有的相关中文语料库还非常有限。为了更好开展中文文本的情感信息抽取研究,该文重点研究了中文语料标注体系,构建一个规模较大、标注类型丰富的中文情感信息抽取语料库。除了常见语料库标注的情感倾向性、评价对象、情感词等信息外,重点标注了评价对象的省略、无情感词情感句表达及极性转移等情况。由语料信息统计可知,该文所指出的特殊现象(例如,评价对象的省略)在中文情感表达中是非常普遍的,开展这方面的研究很有必要。该文所构建的中文文本语料库将为中文情感信息抽取任务提供语料基础。  相似文献   

8.
自然语言中存在大量不确定的表述,针对此类信息的检测任务是信息抽取领域的研究热点之一,然而,面向中文的不确定信息检测研究仍然比较匮乏,利用支持向量机(Support Vector Machine,SVM)能够很好的解决非线性、高维数、局部小样本等实际问题的优势,将中文不确定性信息识别问题转化为分类问题,通过在复旦大学发布的中文不确定性检测数据集语料上的实验,验证了本文提出的基于SVM的中文不确性信息检测方法的有效性,相比于句子评分模型,我们的系统取得了更好的召回率.  相似文献   

9.
计算机语义分析是当前制约中文信息检索、信息抽取与机器翻译等应用技术发展的瓶颈问题,而语义角色标注是语义分析的一个主要任务.即以框架语义理论为基础,以汉语框架语义知识库的核心框架元素为语义角色标注的范畴知识体系,以认知语义领域为研究实例,以真实语料为依据,根据短语类型、句法功能以及短语内、外部其他句法语义特征,获取中文语...  相似文献   

10.
针对在中文资源的关系抽取中,由于中文长句句式复杂,句法特征提取难度大、准确度低等问题,提出了一种基于平行语料库的双语协同中文关系抽取方法。首先在中英双语平行语料库中的英文语料上利用英文成熟的句法分析工具,将得到依存句法特征用于英文关系抽取分类器的训练,然后与利用适合中文的n-gram特征在中文语料上训练的中文关系抽取分类器构成双语视图,最后再依靠标注映射后的平行语料库,将彼此高可靠性的语料加入对方训练语料进行双语协同训练,最终得到一个性能更好的中文关系抽取分类模型。通过对中文测试语料进行实验,结果表明该方法提高了基于弱监督方法的中文关系抽取性能,其F值提高了3.9个百分点。  相似文献   

11.
中文电子病历命名实体和实体关系语料库构建   总被引:1,自引:0,他引:1  
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.  相似文献   

12.
事件事实性表达事件是否是事实的确定性程度,在文档中表现这一属性的是特定的句子结构和词汇。该文在充分研究影响中文事件事实性的句子成分的基础上,提出了五类事件事实性相关信息并给出了具体的标注规则。最后,在ACE 2005中文语料库的基础上完成了Movement事件的事实性标注,并对标注完成的语料库进行了相关的统计和分析,为后续研究提供基础。  相似文献   

13.
构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用中文抽象语义表示(CAMR)来直接标注构式的语义结构。目前收录最全的构式库是北京大学现代汉语构式知识库,通过对该构式库1 057条构式进行人工标注并统计后,发现CAMR可以表示出61.2%的基本符合组合原则的构式;而38.8%不符合组合原则的构式需要修改或添加概念,存在缺少概念、组成成分难以拆分、修辞意义难以表示等情况。该文给出的策略是将其整体作为一个谓词标注或只标注其表层义。汉语构式库的标注可以为构式语义的自动分析提供理论与数据基础。  相似文献   

14.
语言修饰集作为一种刻画不确定信息的有效表达方式,用更加符合语言习惯的表达形式描述决策者对事物的评价结果.与其他语言术语相比,语言修饰集旨在修正隶属函数使其在表达专家的决策信息过程中更具有有效性、客观性,因此基于语言修饰集的研究是非常必要的.鉴于此,对语言修饰集的发展进行综述:首先回顾语言修饰集的研究背景;然后对语言修饰集在运算法则、语义量化、模糊逻辑、分类器等方面的发展进行回顾,同时介绍一些基于语言修饰集在情感分析、工程风险管理等方面的应用;最后展望语言修饰集的研究前景.  相似文献   

15.
互联网中存在海量易获取的自然语言形式地址描述文本,其中蕴含丰富的空间信息。针对其非结构化特点,提出了自动提取中文自然语言地址描述中词语和句法信息的方法,以便深度挖掘空间知识。首先,根据地址语料中字串共现的统计规律设计一种不依赖地名词典的中文分词算法,并利用在地址文本中起指示、限定作用的常见词语组成的预定义词表改善分词效果及辅助词性标注。分词完成后,定义能够表达中文地址描述常用句法的有限状态机模型,进而利用其自动匹配与识别地址文本的句法结构。最后,基于大规模真实语料的统计分词及句法识别实验表明了该方法的可用性及有效性。  相似文献   

16.
由于GIS中文查询语句的理解是为了构造查询语句,而不同的应用系统其语料库的内容和结构有其特殊性,并且语料库也不可能穷尽所有的查询语句用词,所以本文提出了基于系统语料库的GIS中文查询语句的未登录词识别算法的研究。将识别出来的未登录词通过人机交互的方式加入语料库,使所输入的查询语句的分词有自动记忆的功能,测试
结果显示,此算法正确有效,为GIS中文查询语句的正确理解奠定了基础。  相似文献   

17.
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005, OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号