共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
3.
基于自监督学习的维基百科家庭关系抽取 总被引:1,自引:0,他引:1
传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息--家庭关系三元组映射到自由文本中,从而自动生成已标注的训练语料;然后,使用基于特征的关系抽取方法从中文维基百科的文本中获取人物间的家庭关系。在一个人工标注的家庭关系网络测试集上的实验结果表明,该方法优于自举方法,其F1指数达到77%,说明自监督学习可以较为有效地抽取人物家庭关系。 相似文献
4.
针对在中文资源的关系抽取中,由于中文长句句式复杂,句法特征提取难度大、准确度低等问题,提出了一种基于平行语料库的双语协同中文关系抽取方法。首先在中英双语平行语料库中的英文语料上利用英文成熟的句法分析工具,将得到依存句法特征用于英文关系抽取分类器的训练,然后与利用适合中文的n-gram特征在中文语料上训练的中文关系抽取分类器构成双语视图,最后再依靠标注映射后的平行语料库,将彼此高可靠性的语料加入对方训练语料进行双语协同训练,最终得到一个性能更好的中文关系抽取分类模型。通过对中文测试语料进行实验,结果表明该方法提高了基于弱监督方法的中文关系抽取性能,其F值提高了3.9个百分点。 相似文献
5.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好. 相似文献
6.
7.
为解决地质领域实体关系类型复杂且缺乏大量标注语料的问题,建立基于句法结构的开放式实体关系联合抽取模型CSSEM (Chinese syntactic structure extraction model).给出一种基于模式的地质领域实体识别方法,解决地质领域缺乏实体标注语料的问题;基于少量标注语料自动学习关系抽取模式,使用基于句法结构的抽取模式从非结构化文本中开放式地抽取三元组.基于AUC (area under curve)评价标准,CSSEM与其它方法在地质领域和通用领域的数据集上进行对比分析.分析结果表明,该模型在上述两个领域取得了更好的准确率和召回率. 相似文献
8.
9.
观点往往承载着文本的重要信息,观点句抽取技术旨在抽取文本中包含作者主观观点的句子,其应用越来越广泛。针对网络语言不规范的现象,文章提出了一种对不规范文本的无监督观点句抽取方法,该方法先对语料及其分词结果进行规范化处理,再通过基于词典和基于规则的方法自动构造训练样例,对SVM分类器进行训练,再使用分类器抽取观点句。使用该方法在人工标注的语料以及COAE2011电子产品语料上进行实验,取得了较好的效果。 相似文献
10.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。 相似文献
11.
12.
13.
该文给出了数据抽取过程中需要的基本定义,描述了数据抽取所基于的页面生成模型。同时给出了EXALG+这种数据抽取方法的基本流程,并给出了这种方法的抽取流程图。 相似文献
14.
将用户感兴趣的事件从非结构化信息中提取出来,然后以结构化的方式展示给用户,这就是事件抽取。事件抽取在信息收集、信息检索、文档合成、信息问答等方面有着广泛应用。从全局出发,事件抽取算法可以分为基于模式匹配的算法、触发词法、基于本体的算法以及前沿联合模型方法这四类。在研究过程中根据相关需求可使用不同评价方法和数据集,而不同的事件表示方法也与事件抽取研究有一定联系;以任务类型区分,元事件抽取和主题事件抽取是事件抽取的两大基本任务。其中,元事件抽取有基于模式匹配、基于机器学习和基于神经网络这三种方式,而主题事件抽取有基于事件框架和基于本体两种方式。事件抽取研究在中英等单语言上均已取得了优秀成果,而跨语言事件抽取依然面临着许多问题。最后,总结了事件抽取的相关工作并提出未来研究方向,以期为后续研究提供参考。 相似文献
15.
针对传统特征提取算法容易忽略对数据的降维处理,未能较好的提取出图像异常步态特征,导致提取准确率不高的问题,提出一种基于图像的异常步态二次特征提取算法。根据不同姿态下足底的压力变化数值,完成异常步态图像的一次特征提取;根据一次特征提取后正常步态定义的特征变量数据,构建目标个体行走轮廓的步态能量图,同时结合KPCA核方法,对一次特征提取后的步态轮廓数据进行降维处理,完成异常步态的二次特征提取。仿真结果表明,在正常步态下和异常步态下,所提算法都能够有效地提取出图像的异常步态,具有较高的特征提取准确率,表明所提算法具有较强的实用性。 相似文献
16.
Personal information extraction, which extracts the persons in question and their related information (such as biographical information and occupation) from web, is an important component to construct social network (a kind of semantic web). For this practical task, two important issues are to be discussed: personal named entity ambiguity and the extraction of personal information for a specific person. For personal named entity ambiguity, which is a common phenomenon in the fast growing web resource, we propose a robust system which extracts lightweight features with a totally unsupervised approach from broad resources. The experiments show that these lightweight features not only improve the performances, but also increase the robustness of a disambiguation system. To extract the information of the focus person, an integrated system is introduced, which is able to effectively re-use and combine current well-developed tools for web data, and at the same time, to identify the expression properties of web data. We show that our flexible extraction system achieves state-of-the-art performances, especially the high precision, which is very important for real applications. 相似文献
17.
于春燕 《数字社区&智能家居》2007,(11):599-600
根据“行情数据常表现为最大的表格区域”等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据。 相似文献
18.
A Linguistic Approach to Extracting Acronym Expansions from Text 总被引:1,自引:1,他引:0
We propose a linguistically aided approach for the extraction of acronyms from text, with implications at the discourse, lexicon, morphologic and phonologic levels. A system implemented using this approach achieves excellent performance ($f=95.22$%) on a limited corpus. Our work indicates the adequacy of linguistic methods for acronym discovery. 相似文献
19.
于春燕 《数字社区&智能家居》2007,(21)
根据“行情数据常表现为最大的表格区域“等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据. 相似文献
20.
事件抽取是信息抽取领域的一个研究热点。在新冠肺炎疫情常态化下,利用事件抽取技术可以筛选出有价值的信息。然而事件抽取领域缺乏精标注的新冠新闻训练数据集,且因部分事件的复杂性,论元不只存在于一句话中,需要多个句子才能完整描述一个事件。因此,首先构建新冠肺炎新闻数据集,接着提出一种三阶段的管道方法实现从篇章中抽取新冠肺炎事件。该方法对数据集进行事件类型分类;进行事件句的抽取;实现篇章级论元抽取。实验结果表明提出的方法能够减少事件分类时间,抽取两个事件句的条件下,对数据通报类论元识别效果最好,准确率、召回率和F1值达到75.0%、73.0%,和74.0%,证明方法能有效抽取新冠肺炎相关篇章级事件。 相似文献