首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
王侃  曹开臣  徐畅  潘袁湘  牛新征 《电讯技术》2019,59(10):1175-1181
传统的文本摘要方法,如基于循环神经网络和Encoder-Decoder框架构建的摘要生成模型等,在生成文本摘要时存在并行能力不足或长期依赖的性能缺陷,以及文本摘要生成的准确率和流畅度的问题。对此,提出了一种动态词嵌入摘要生成方法。该方法基于改进的Transformer模型,在文本预处理阶段引入先验知识,将ELMo(Embeddings from Language Models)动态词向量作为训练文本的词表征,结合此词对应当句的文本句向量拼接生成输入文本矩阵,将文本矩阵输入到Encoder生成固定长度的文本向量表达,然后通过Decoder将此向量表达解码生成目标文本摘要。实验采用Rouge值作为摘要的评测指标,与其他方法进行的对比实验结果表明,所提方法所生成的文本摘要的准确率和流畅度更高。  相似文献   

2.
基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题.对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性.基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择...  相似文献   

3.
黄名选 《电子学报》2021,49(7):1305-1313
针对自然语言处理中查询主题漂移和词不匹配问题,提出基于CSC(Copulas-based Support and Confidence)框架的关联模式挖掘与规则扩展算法,并将基于统计学分析的关联模式与具有上下文语义信息的词向量融合,提出关联模式挖掘与词向量学习融合的伪相关反馈查询扩展模型.该模型对伪相关反馈文档集挖掘规则扩展词,对初检文档集进行词嵌入学习训练得到词向量,计算规则扩展词与原查询的向量相似度,提取向量相似度不低于阈值的规则扩展词作为最终扩展词.实验结果表明,所提扩展模型能有效地减少查询主题漂移和词不匹配问题,提高检索性能,与现有基于关联模式的和基于词向量的查询扩展方法比较,MAP(Mean Average Precision)平均增幅最大可达17.52%,对短查询更有效.所提挖掘方法可用于其他文本挖掘任务和推荐系统,以提高其性能.  相似文献   

4.
 针对循环神经网络语言模型对长距离历史信息学习能力不足的问题,本文提出了结合全局词向量特征的循环神经网络语言模型。首先利用GloVe(Global Word Vectors)算法训练出全局词向量,然后将其作为特征向量输入到引入特征层的循环神经网络中进行训练。相对于局部词向量方法,全局词向量能够利用全局统计信息来训练出含有更加丰富的语义和句法信息词向量。为了验证新方法的性能,本文在Penn Treebank和Wall Street Journal语料库上分别进行困惑度和连续语音识别实验。实验结果表明结合全局词向量的循环神经网络语言模型的困惑度相比传统的循环神经网络语言模型降低了202%,同时语音识别系统的词错误率降低了183%。   相似文献   

5.
针对现有基于深度卷积神经网络(DCNNs)的逆合成孔径雷达(ISAR)目标识别方法在训练样本不足时性能下降甚至失效等问题,该文提出基于高斯原型网络(GPN)的小样本ISAR目标识别方法。该方法通过嵌入网络将ISAR像映射为嵌入向量,进而根据加权嵌入向量构建高斯原型,最终根据测试样本到原型的马氏距离预测目标类别。3类飞机目标实测数据的识别结果表明,该方法在小样本条件下可获得更高的平均识别精度。  相似文献   

6.
中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果.  相似文献   

7.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

8.
针对车辆轨迹预测中节点序列的时序特性和实际路网中的空间关联性,该文提出一种基于深度置信网络和SoftMax (DBN-SoftMax)轨迹预测方法.首先,考虑到轨迹在节点集合中的强稀疏性和一般特征学习方法对新特征的泛化能力不足,该文利用深度置信网络(DBN)较强的无监督特征学习能力,达到提取轨迹局部空间特性的目的;然后,针对轨迹的时序特性,该文采用逻辑回归的预测思路,用当前轨迹集在路网特征空间中的线性组合来预测轨迹;最后,结合自然语言处理领域中的词嵌入的思想,基于实际轨迹中节点存在的上下文关系,运用节点的向量集表征了节点间的交通时空关系.实验结果表明该模型不仅能够有效地提取轨迹特征,并且在拓扑结构复杂的路网中也能得到较好的预测结果.  相似文献   

9.
源代码漏洞检测是保证软件系统安全的重要手段。近年来,多种深度学习模型应用于源代码漏洞检测,极大提高了漏洞检测的效率,但还存在自定义标识符导致库外词过多、嵌入词向量的语义不够准确、神经网络模型缺乏可解释性等问题。基于此,该文提出了一种基于卷积神经网络(CNN)和全局平均池化(GAP)可解释性模型的源代码漏洞检测方法。首先在源代码预处理中对部分自定义标识符进行归一化,并采用One-hot编码进行词嵌入以缓解库外词过多的问题;然后构建CNN-GAP神经网络模型,识别出包含CWE-119缓冲区溢出类型漏洞的函数;最后通过类激活映射(CAM)可解释方法对结果进行可视化输出,标识出可能与漏洞相关的代码。通过与Russell等人提出的模型以及Li等人提出的VulDeePecker模型进行对比分析,表明CNN-GAP模型能达到相当甚至更好的性能,且具有一定的可解释性,便于研究人员对漏洞进行更深入的分析。  相似文献   

10.
针对两个反义词在相似语境下转化成词向量后空间距离相近,容易造成情感信息丢失,循环神经网络等的特征提取方式容易导致网络依赖增强,难以充分提取局部性特征。针对第一个问题,本文提出情感嵌入模块,在词嵌入的过程中加入情感向量与语义信息作为网络的输入层;针对第二个问题,本文提出层次注意力机制,将融合后的词向量切片形成两个子序列,将单词的词向量输入到双向门控循环网络,利用注意力机制对隐藏层进行加权计算,获得子序列文本信息,通过多个网络层获得整个文本序列信息;最后,经过softmax函数输出文本情感极性。在NLPIR微博语料库和NLPCC2014的微博公开数据集进行实验,表明该情感分析模型在准确率上有所提高,证明了模型的有效性。  相似文献   

11.
词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变体上下文窗口对词嵌入准确度的影响。根据上下文窗口的各种宽度、偏移量、权值进行了一系列实验。从实验结果中发现,上下文窗口的变化只会对整体训练结果的准确性造成很小的影响,然而对于其中具体的各个单词却有显著影响。从而得出结论,即大量单词各自所适应的上下文窗口区别较大,而统一的上下文窗口难以实现对全部单词的最佳训练。  相似文献   

12.
针对现有文本分类算法处理中文数据时存在的分类精度低、参数量庞大、模型难训练等问题,对BERT算法进行了优化.BERT算法处理中文文本时无法提取词向量特征,为此提出了均匀词向量卷积模块AWC.通过在传统卷积神经网络中引入注意力机制来提取可靠词向量特征,再进一步获取到文本的局部特征,由此弥补了BERT模型无法提取词向量的缺...  相似文献   

13.
为解决卷积神经网络(CNN)和循环神经网络(RNN)处理文本分类任务时,由于文本特征稀疏造成的关键特征信息丢失、模型性能不高和分类效果不佳等问题.提出一种基于多通道注意力机制的文本分类模型,首先利用字词融合的形式进行向量表示,然后利用CNN和BiLSTM提取文本的局部特征和上下文关联信息,接着以注意力机制对各通道的输出...  相似文献   

14.
该文针对包含多种攻击模式的高维特征空间中的异常检测问题,提出了一种基于有监督局部决策的分层支持向量机(HSVM)异常检测方法.通过HSVM的二叉树结构实现复杂异常检测问题的分而治之,即在每个中间节点上,通过信息增益准则构建有监督学习所需的训练信号,监督局部决策;在每个嵌入中间节点的二分类支持向量机(SVM)的训练过程中,以局部决策边界对特征的敏感度为依据,选择入侵检测的局部最优特征子集.实验结果表明,该文提出的异常检测方法能够在训练信号的局部决策监督下构建具有良好稳定性的检测学习模型,并能以更精简的特征信息实现检测精确率和检测效率的提高.  相似文献   

15.
针对车辆轨迹预测中节点序列的时序特性和实际路网中的空间关联性,该文提出一种基于深度置信网络和SoftMax (DBN-SoftMax)轨迹预测方法。首先,考虑到轨迹在节点集合中的强稀疏性和一般特征学习方法对新特征的泛化能力不足,该文利用深度置信网络(DBN)较强的无监督特征学习能力,达到提取轨迹局部空间特性的目的;然后,针对轨迹的时序特性,该文采用逻辑回归的预测思路,用当前轨迹集在路网特征空间中的线性组合来预测轨迹;最后,结合自然语言处理领域中的词嵌入的思想,基于实际轨迹中节点存在的上下文关系,运用节点的向量集表征了节点间的交通时空关系。实验结果表明该模型不仅能够有效地提取轨迹特征,并且在拓扑结构复杂的路网中也能得到较好的预测结果。  相似文献   

16.
针对Word2Vec等模型所表示的词向量存在语义模糊从而导致的特征稀疏问题,提出一种结合自编码和广义自回归预训练语言模型的文本分类方法。首先,分别通过BERT、XLNet对文本进行特征表示,提取一词多义、词语位置及词间联系等语义特征;再分别通过双向长短期记忆网络(BiLSTM)充分提取上下文特征,最后分别使用自注意力机制(Self_Attention)和层归一化(Layer Normalization)实现语义增强,并将两通道文本向量进行特征融合,获取更接近原文的语义特征,提升文本分类效果。将提出的文本分类模型与多个深度学习模型在3个数据集上进行对比,实验结果表明,相较于基于传统的Word2Vec以及BERT、XLNet词向量表示的文本分类模型,改进模型获得更高的准确率和F1值,证明了改进模型的分类有效性。  相似文献   

17.
上下位关系抽取是知识图谱构建的关键环节,目前常用的基于模板和分布式的方法存在可移植性差、召回率低等不足。针对这些问题,提出了一种基于多通道特征融合的上下位关系抽取方法,通过预训练词嵌入、双向LSTM和依存句法树结果编码三个通道来构建模型编码器。首先,提出了上下位关系抽取整体框架,包括数据挖掘与标注模块、特征抽取模块、候选句打分模块及结果排序模块。然后,针对特征抽取模块,提出了融合句法依存关系、上下文特征以及预训练特征的自适应编码方法;针对句子打分模块,提出了包含编解码器结构的网络模型。最后,通过对准确率、召回率、查全率进行消融实验,表明所提出的模型具有较好的有效性和更好的可解释性。  相似文献   

18.
为提升电力系统中智能客服系统的效率,降低人工成本,提出一种基于长短时记忆网络(Long Short Term Meory ,LSTM)的情绪识别方法。首先利用词嵌入(Word Embedding)方法提取出对话内容的特征表示,并根据先验知识添加情感特征,生成具有情绪语义的词向量,基于双向长短时记忆网络训练得到情绪分类模型,将问题解决的需求分为紧急、一般与非紧急三个级别,并可将分类结果用于优先级自动调度决策中,判断是否应立即接入人工服务。在真实的电力客服对话平台数 据集上对算法在准确度和响应时间两个方面进行测试,实验结果表明,算法对情绪的识别准确率达到了较高的水平,且响应时间可以满足系统实时处理的需求,有较高的实用性。  相似文献   

19.
针对传统短语对齐方法依赖外部资源,且较少涉及平行句对内在特征的问题,提出了融入双语词向量的韩汉名词短语对齐方法.利用平行语料,分别训练单语词向量再进行跨语言映射得到双语词向量,并构建了基于短语构成规律的短语抽取和融入双语词向量、短语长度和词性相似度的短语对齐模型.实验结果证明,融入韩汉双语词向量,能更有效地提取短语特征从而实现短语对齐.  相似文献   

20.
针对传统卷积神经网络(CNN)同层神经元之间信息不能互传,无法充分利用同一层次上的特征信息,以及无法提取长距离上下文相关特征的问题.该文针对中文文本,提出字符级联合网络特征融合的模型进行情感分析,在字符级的基础上采用BiGRU和CNN-BiGRU并行的联合网络提取特征,利用CNN的强学习能力提取深层次特征,再利用双向门限循环神经网络(BiGRU)进行深度学习,加强模型对特征的学习能力.另一方面,利用BiGRU提取上下文相关的特征,丰富特征信息.最后在单方面上引入注意力机制进行特征权重分配,降低噪声干扰.在数据集上进行多组对比实验,该方法取得92.36%的F1值,结果表明本文提出的模型能有效的提高文本分类的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号