首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
中文实体关系抽取中的特征选择研究   总被引:9,自引:4,他引:9  
命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测  相似文献   

2.
中文事件抽取技术研究   总被引:13,自引:3,他引:13  
事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。  相似文献   

3.
使用基于模板的方法对中文人物评论语句进行意见元素挖掘,提取出句中所含的评价对象、评价词语,并分析出意见的倾向性。进行了中文人物评论语句的自动意见挖掘实验,实验中首先建立了一定数量的熟语料库,然后从语料库中生成意见模板,最后用生成的模板来提取语句的意见元素。实验获得了72.55%的F-score,表明该算法是有效的。  相似文献   

4.
目前许多观点挖掘方法挖掘粒度过大,导致反馈信息不足。为解决该问题,对标准LDA模型进行改进,提出主题情感联合最大熵LDA模型进行细粒度观点挖掘。首先,考虑到词的位置和语义信息,在传统LDA模型中加入最大熵组件来区分背景词、特征词和观点词,并对特征词和观点词进行局部和全局的划分;其次,在主题层和单词层之间加入情感层,实现词语级别的细粒度情感分析,并引入情感转移变量来处理情感从属关系,同时获取整篇评论和每个主题的情感极性,实验验证了所提模型和理论的有效性。  相似文献   

5.
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。  相似文献   

6.
实体关系自动抽取   总被引:36,自引:7,他引:36  
实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法,Winnow 和支持向量机(SVM) ,在2004 年ACE(Automatic Content Extraction) 评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow和SVM算法的加权平均F-Score 分别为73108 %和73127 %。可见在使用相同的特征集,不同的学习算法进行实体关系的识别时,最终性能差别不大。因此使用自动的方法进行实体关系抽取时,应当集中精力寻找好的特征。  相似文献   

7.
时间关系普遍存在于时间和事件概念之间,为信息组织提供了一条天然的线索。该文在信息抽取和时间信息标注的基础上,研究汉语中时间与时间、事件与时间和事件与事件之间的时间关系。一方面考虑汉语文本的特点,充分抽取蕴含于语法语义层面中的时间关系;另一方面定义了与文本无关的规则,实现了不同来源信息之间的时间关系的计算。这为信息抽取结果的组织、积累和共享打下了基础,对于事件追踪、多文本摘要等方面的研究也有一定的借鉴意义。  相似文献   

8.
中文比较句识别及比较关系抽取   总被引:1,自引:0,他引:1  
比较是一种具有一定说服力的评估方式,利用机器进行比较句的识别以及比较关系的抽取可以对观点挖掘、信息推荐等应用提供重要的依据。该文通过构建中文比较模式库以实现中文比较句的自动识别。在此基础上,该文通过选取比较主体、比较客体及其上下文的词、词性、位置、语义以及比较属性的领域知识等特征,利用条件随机域模型进行中文比较关系抽取。实验结果表明,中文比较模式库的构建有助于比较句的自动识别,而在词、词性、位置等Baseline特征中融入语义、领域知识及启发式规则特征后,基于条件随机域的比较关系抽取结果有了显著的提高。  相似文献   

9.
可视化中文文本挖掘模型   总被引:13,自引:0,他引:13  
面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。在这样的需求驱动下,文本挖掘得到了长足的发展,并取得了相当的成功。由于目前在因特网上大多数的信息表现形式为文本形式,只有通过文本挖掘才能充分地利用信息资源。  相似文献   

10.
中文语音合成中的文本正则化研究   总被引:5,自引:0,他引:5  
中文文本正则化是把非汉字字符串转化为汉字串以确定其读音的过程。该工作的难点:一是正则化对象——非汉字串形式复杂多样,难于归纳;二是非汉字串有歧义,需要消歧处理。文章引入非标准词的概念对非汉字串进行有效归类,提出非标准词的识别、消歧及标准词生成的三层正则化模型。在非标准词的消歧中引入机器学习的方法,避免了复杂规则的书写。实验表明,此方法取得了很好的效果,并具有良好的推广性,开放测试的正确率达到98.64%。  相似文献   

11.
基于最大熵模型的观点句主观关系提取   总被引:4,自引:0,他引:4       下载免费PDF全文
提出一种提取中文观点句中评价对象和评价词主观匹配关系的方法。分析观点句中评价词和评价对象的词性、词语位置,通过句法分析获取语义特征,将2类特征应用于最大熵模型,提取观点句的主观关系。实验结果证明,与取距离评价词语最近的词作为评价对象的Baseline方法相比,该方法大幅度提高了准确率和F测试值。  相似文献   

12.
基于核方法的中文实体关系抽取研究   总被引:3,自引:1,他引:3  
命名实体关系抽取是信息抽取领域中的重要研究课题之一。该文探讨了核方法在中文关系抽取上的有效性问题,主要分为三部分研究了在卷积树核中使用不同的语法树对关系抽取性能的影响;通过构造复合核检查了树核与平面核之间的互补效果;改进了最短路径依赖核,将核计算建立在原最短依赖路径的最长公共子序列上,以消除原始最短路径依赖核对依赖路径长度相同的过严要求。因为核方法开始被用于英文关系抽取时,F1值也只有40%左右,而我们在ACE2007标准语料集上的实验结果表明,只使用作用在语法树上的卷积核时,中文关系抽取的F1值达到了35%,可见卷积核方法对中文关系抽取也是有效的,同时实验也表明最短路径依赖核对中文关系抽取效果不明显。  相似文献   

13.
该文提出了一种基于卷积树核的无指导中文实体关系抽取方法。该方法以最短路径包含树作为关系实例的结构化表示形式,以卷积树核函数作为树相似度计算方法,并采用分层聚类方法进行无指导中文实体关系抽取。在ACE RDC 2005中文基准语料库上的无指导关系抽取实验表明,采用该方法的F值最高可达到60.1,这说明基于卷积树核的无指导中文实体关系抽取是行之有效的。  相似文献   

14.
基于树核函数的实体语义关系抽取方法研究   总被引:3,自引:2,他引:3  
该文描述了一种改进的基于树核函数的实体语义关系抽取方法,通过在原有关系实例的结构化信息中加入实体语义信息和去除冗余信息的方法来提高关系抽取的性能。该方法在最短路径包含树的基础上,首先加入实体类型、引用类型等与实体相关的语义信息,然后对树进行裁剪,去掉修饰语冗余和并列冗余信息,并扩充所有格结构,最后生成实体语义关系实例。在ACE RDC 2004基准语料上进行的关系检测和7个关系大类抽取的实验表明,该方法在较大程度上提高了实体语义关系识别和分类的效果,F值分别达到了79.1%和71.9%。  相似文献   

15.
文本意见挖掘综述   总被引:10,自引:2,他引:10  
意见挖掘是针对主观性文本自动获取有用的意见信息和知识,它是一个新颖而且十分重要的研究课题。这种技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等。本文首先对意见挖掘进行了定义,然后阐述了意见挖掘研究的目的,接着从主题的识别、意见持有者的识别、陈述的选择和情感的分析四个方面对意见挖掘的研究现状进行了综述,并介绍了几个成型的系统。此外,我们针对汉语的意见挖掘做了特别的分析。最后对整个领域的研究进行了总结。  相似文献   

16.
语言学组合特征在语义关系抽取中的应用   总被引:1,自引:0,他引:1  
语义关系抽取是信息抽取中的一个重要的研究领域。目前基于特征向量的语义关系抽取已经很难通过发掘新的特征来提高抽取的性能。本文提出了一种特征组合方法,通过在各种词法、语法、语义的基本特征内部及特征之间进行合理的组合形成组合特征,使用基于支持向量机的学习方法,使得关系抽取的准确率和召回率得到了提高。在ACE 2004语料库的7个关系大类和23个关系子类抽取实验中F值分别达到了66.6%和59.50%。实验结果表明通过对基本语言学特征进行组合所得到的组合特征能够显著地提高语义关系抽取的性能。  相似文献   

17.
第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关系三元组。共有174支队伍参加了评测任务,最终17支队伍提交了42组结果,该任务以微平均F1值为最终评估标准,提交结果中F1最高值达0.648 6。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号