首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
泰语的依存句法分析任务具有重要研究价值。但泰语作为低资源语言,缺乏公开可用的句法标注训练集,难以训练有效的依存解析模型。针对这种情况,借助泰语和英语间的动态词嵌入对齐矩阵,将在英语标注数据上训练的依存解析模型迁移到泰语中,分析无监督泰语依存句法。实验结果表明,该方法能有效地从无标注泰语数据中提取到依存句法知识。此外该方法还支持多语言联合训练迁移到泰语来提升泰语依存句法分析的性能。  相似文献   

2.
基于依存连接权VSM的子话题检测与跟踪方法   总被引:1,自引:0,他引:1  
针对在新闻话题中报道突发、热点相似且子话题层次丰富的现象,依据增量TF-IDF值构造特征维,生成全局向量;然后在时间窗内生成特征连接权的局部邻接图,利用依存句法进行分析降维;最后采用领域词典加权,时间阈值衰减;从而构造出利用依存连接权VSM进行关联分析的子话题检测与跟踪(sTDT)计算方法。实验表明,利用依存关联分析使文本表示由线性变为平面结构,能够有效地提取描述子话题;在人工标注的测试语料下,其最小DET代价比经典方法至少降低2.2%。  相似文献   

3.
孙佳慧  韩萍  程争 《信号处理》2021,37(8):1384-1391
方面级情感分析是针对一个评论中涉及多种方面类别时的情感分析,现有方法通常利用方面级数据集在神经网络模型上直接进行训练,但已标注的方面级训练数据规模较小,造成模型不能充分学习而性能受限。为解决上述问题,本文利用迁移学习的思想,将数据量较大的文档级数据进行情感分析模型的预训练,进而获得丰富的文本语义、句法信息和情感特征,然后通过本文设计的目标函数及注意力融合方法,将文档级情感分析模型中的注意力权重融合到方面级情感分析模型中,从而使方面级文本情感分析性能提升。将该模型在SemEval2014数据集上进行实验,实验结果中的准确率和F1值均高于对比模型,证明了本文模型的有效性。   相似文献   

4.
该文以处理大规模真实文本为目标,把句法分析分解为分词/词性标注、短语识别两个部分。首先提出了一个一体化的分词/词性标注方法,该方法在隐马尔科夫模型(HMM)的基础上引入词汇信息,既保留了HMM简单快速的特点,又有效提高了标注精度;然后应用中心驱动模型进行短语识别,这是一个词汇化的英文句法分析模型,该文将其同分词/词性标注模型结合进行汉语句法分析。在公共的测试集上对句法分析器的性能进行了评价,精确率和召回率分别为77.57%和74.96%,这一结果要明显好于目前唯一可比的工作。  相似文献   

5.
依存句法分析是对自然语言进行自动分析构建句子对应的依存树的一种方法,是自然语言处理重要的一部分,但目前依存句法分析的准确率并不高。介绍了依存句法结构并对依存句法的分析方法进行了总结与综述,介绍了基于规则的依存句法、基于统计的依存句法和规则与统计相结合的依存句法的分析方法。最后,分析了汉语依存句法分析的困难和优势。  相似文献   

6.
在小语种舆情监控领域,由于小语种的标注语料难以获取,导致深度学习的训练效果较差.对于民间及媒体发表的新闻内容很难准确抽取其核心观点句,从而影响了进一步的舆情分析效果.为了将研究问题具体化,以越南语为例,提出一种融入共享主题特征的汉越跨语言新闻观点句的抽取方法,可以借助充足的汉语标注语料解决小语种资源稀缺问题,并利用双语可比语料间可共享的主题信息来优化抽取效果,进而提升舆情监控效果.具体方法为,提取汉越可比新闻的隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题来构建共享主题特征,借助共享主题词典和情感词典训练双语词嵌入模型来共享汉越语义空间表征,将特征融入词向量,通过将语义信息与主题、情感、位置信息相结合来提升抽取效果.在汉越可比新闻数据集里进行的实验结果表明,融入共享主题特征能够提升小语种新闻观点句的抽取效果,F1值达到0.721,对小语种舆情监控起到支撑作用.  相似文献   

7.
情感识别是实现自然人机交互的必要过程。然而,情感数据高昂的采集和标注成本成为了限制情感识别研究发展的一大瓶颈。在无标注或有限标注的场景下,利用知识的跨领域或跨任务迁移提升情感识别效果的问题值得探索。本文对情感识别中的迁移学习问题进行了梳理和分析。首先,将迁移学习问题划分为针对领域差异和针对任务差异的两大部分,并进一步将每部分问题细分为多种不同的情况。随后,基于情感识别领域的研究现状,分别总结不同情况下的现有工作。在目标领域训练资源匮乏的情况下,可以利用其他带标注的数据集作为源领域训练模型,并对齐不同领域下的特征分布,或将特征映射到域间共享的空间。考虑到情感标签所提供的监督信息往往较为有限,为了进一步提升模型的识别效果,可以引入其他相关任务进行联合训练,或将预训练模型、外部知识库提供的先验语义知识迁移到情感识别任务中。最后,讨论了情感识别领域中未来需要得到更多关注和探索的迁移学习问题,旨在为研究者带来新的启发。  相似文献   

8.
袁里驰 《电子学报》2013,41(7):1337-1342
解决数据稀疏问题是中心词驱动句法分析中的一个重要问题,基于词类的统计语言模型是解决统计模型数据稀疏问题的重要方法.本文在分析经典平滑算法的基础上,提出一种基于语义依存信息和互信息的词聚类算法,并利用绝对权重差分方法构造了一种可变长语言模型,即根据历史词对当前词预测所作的贡献不同,n值的大小也随之变化.进而提出了一种基于语义类和可变长模型的中心词驱动句法分析改进模型,既增强了句法分析模型的消歧能力,又解决了严重的数据稀疏问题.改进模型性能有了明显的提高,精确率和召回率分别为84.53%和82.41%,综合指标F值比Collins的中心词驱动句法分析模型提高了2.02个百分点.  相似文献   

9.
本文首先介绍了自然语言处理的概念,并给出了自然语言处理模型,与此同时,分析了依存句法的有关问题,包括其公理以及具体分析方法等,最后阐述了基于依存句法的实体关系抽取过程。  相似文献   

10.
基于最大熵模型的语义角色标注   总被引:1,自引:0,他引:1  
提出了基于最大熵模型的语义角色标注方法,该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将最大熵模型用于句子中谓词的语义角色标注.该方法的关键在于模型参数估计和特征选择.具体应用中采用IIS算法学习模型参数,并选择基于句法成分的、基于谓词的、句法成分一谓词关系、语义四类特征作为模型特征集.将该方法用于信息抽取中事件表述语句的语义角色标注,对"职务变动"和"会见"两类事件的表述语句进行事件要素的语义角色标注,在各自的测试集上分别获得了76.3%和72.2%的综合指标F值.  相似文献   

11.
针对通过微博文本获取用户情感倾向,以提高舆情监控效率的问题。利用深度学习的方法实现微博语料的情感分类,构建符合近年文本长度分布特点的高质量微博情感分类数据集,分析微博文本长度对情感分类的影响。由于中长语料主观性强、句子关联度弱,其检测准确率偏低。针对此问题,本文提出一种基于胶囊网络的中长微博情感分析模型。采用注意力机制,在融合局部特征与全局特征的基础上,利用胶囊向量实现深层情感特征提取,提高中长语料的检测效果。利用本文搜集的数据集进行实验,结果表明,相较于多种深度学习算法,本文模型性能更佳。在不同文本长度语料的对比实验中,伴随着文本长度的增加,分类准确率逐渐降低。相较于传统的LSTM算法,本文模型随文本长度增加效果提升,证明了该模型针对中长微博文本情感分类的可行性。   相似文献   

12.
方面级情感分析目前主要采用注意力机制与传统神经网络相结合的方法对方面与上下文词进行建模。这类方法忽略了句子中方面与上下文词之间的句法依存信息及位置信息,从而导致注意力权重分配不合理。为此,该文提出一种面向方面级情感分析的交互图注意力网络模型(IGATs)。该模型首先使用双向长短期记忆网络(BiLSTM)学习句子的语义特征表示,并结合位置信息生成新的句子特征表示,然后在新生成的特征表示上构建图注意力网络以捕获句法依存信息,再通过交互注意力机制建模方面与上下文词之间的语义关系,最后利用softmax进行分类输出。在3个公开数据集上的实验结果表明,与其他现有模型相比,IGATs的准确率与宏平均F1值均得到显著提升。  相似文献   

13.
本文通过对涵盖各类体裁的10000个藏语句子进行短语结构的分类和标注,构建了一个比较完备的藏语短语结构标注树库,并采用统计和规则相结合的方法,以形式化的方式对藏语短语的组合形式和结构规则进行了全面描述,较为详细地归纳了各类短语结构的句法语义信息,制定了藏语短语结构树库的标注体系。在此基础上,采用深度学习的方法分析藏语短语模型,能够为全面分析藏语短语的句法信息,自动识别和提取藏语的各类短语结构提供有力支持。  相似文献   

14.
基于无向图序列标注模型的中文分词词性标注一体化系统   总被引:3,自引:0,他引:3  
在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模型中。由于可以采用更深层次的依赖关系作为特征,一体化系统在1998年人民日报语料上取得了97.19%的分词精确率和95.34%的词性标注精确率,是目前同类系统,在这一语料上取得的最好结果。  相似文献   

15.
袁里驰 《电子学报》2013,41(10):2029
目前主流的词汇化句法分析方法仅仅考虑词语之间的语义依存关系,而没有引入语义搭配和语义类等语义信息.“配价”是词语的一个比较本质的特点,一旦一个词语的配价结构确定下来,它应该和怎样的词进行搭配也就比较清楚了,从而也可以比较直接地导出句子的结构.本文结合中心词驱动句法分析模型,提出了基于配价结构和语义依存关系的句法分析模型.模型在规则的分解及概率计算中引入丰富的语义信息,既包括语义依存信息,也包括配价结构等语义搭配信息.用改进的句法分析模型进行句法分析实验,实验结果表明,精确率和召回率分别为88.76%和87.43%,综合指标F值比Collins的中心词驱动句法分析模型提高了6.65个百分点.  相似文献   

16.
方面级情感分析目前主要采用注意力机制与传统神经网络相结合的方法对方面与上下文词进行建模.这类方法忽略了句子中方面与上下文词之间的句法依存信息及位置信息,从而导致注意力权重分配不合理.为此,该文提出一种面向方面级情感分析的交互图注意力网络模型(IGATs).该模型首先使用双向长短期记忆网络(BiLSTM)学习句子的语义特征表示,并结合位置信息生成新的句子特征表示,然后在新生成的特征表示上构建图注意力网络以捕获句法依存信息,再通过交互注意力机制建模方面与上下文词之间的语义关系,最后利用soft-max进行分类输出.在3个公开数据集上的实验结果表明,与其他现有模型相比,IGATs的准确率与宏平均F1值均得到显著提升.  相似文献   

17.
在自然语言处理中词性标注和词干提取是最重要的任务。文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了广大学员通过一部Android系统的手机随时随地参与语料标注任务,从而完成了大规模语料的标注工作,将其应用到文本分析、机器翻译、语音合成、语音翻译等研究领域。该系统的实现为低资源少数民族智能化研究工作做出了贡献。  相似文献   

18.
随着生物医学研究与信息化技术的迅速发展,临床医学文献数量呈指数级增长,利用文本挖掘技术自动提取医学知识逐渐成为当前研究热点。针对目前新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)临床文本研究匮乏、语料不足与标注质量不高等问题,本文结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,建立命名实体识别语料库,明确实体识别任务。其次,提出了一种基于MPNet与BiLSTM的COVID-19临床文本命名实体识别模型。通过预训练语言模型获得文本的向量化表示,解决了一词多义问题;采用双向长短期记忆网络,捕捉文本的长距离依赖;最后引入条件随机场,实现句子级序列注释,输出完整的最优标签序列。实验结果表明,MPNet-BiLSTM-CRF模型在COVID-19临床命名实体识别数据集上取得了较好的表现。  相似文献   

19.
针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化为向量特征矩阵,实现了对医疗语料的自动过滤和标注。通过向神经网络模型嵌入所构建的医疗关系语料库,一定程度上提高了模型疾病分类的准确度。在医疗护理学数据集上的实验表明,基于卷积神经网络的模型在指标精确度、召回率、F1值可达到89.78%、87.59%、89.77%。综上所述,该研究提出的基于卷积神经网络的医疗护理学实体关系抽取方法能够有效地抽取医疗语料数据中的实体关系,优于传统的实体关系抽取模型。  相似文献   

20.
深度学习已在众多领域如图像分类中取得突破性发展,其成功依赖大量标注数据。然而很多领域中数据标注代价昂贵。主动学习主要是通过合适的查询策略选择信息量大的未标注数据交由专家或者工作人员进行标记,试图以尽可能少的高质量标注数据训练高性能的模型。从不同角度详细地对基于预设计策略和基于学习损失的主动学习方法的研究现状进行了分析和比较,最后对现有的主动学习进行了总结和进一步指出了一些值得研究的方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号