首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
程广涛  巩家昌  李建 《计算机应用》2020,40(5):1465-1469
针对传统烟雾检测方法中提取的图像特征鲁棒性较差的问题,提出了基于稠密卷积神经网络(DenseNet)的烟雾识别方法。首先,利用卷积操作和特征图融合构建稠密网络块,在卷积层之间设计稠密连接机制,以增强稠密网络块结构内的信息流通和特征重利用;然后,将已构建的稠密网络块叠加成稠密卷积神经网络用于烟雾识别,节省计算资源的同时提升对烟雾图像特征的表达能力;最后,针对烟雾图像数据量较小的问题,采取数据增强技术进一步改善训练模型的识别能力。在公开烟雾数据集上对提出的方法进行实验验证,实验结果表明,所提方法的模型大小只有0.44 MB,在两个测试集上的准确率分别为96.20%和96.81%。  相似文献   

2.
端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式,在效果和效率两个方面具有一定的局限性。从特征提取模块的效果以及声学模型的训练效率角度,提出多时间频率分辨率卷积网络与带记忆模块的前馈神经网络相结合的端到端语音识别模型。实验结果表明,所提方法语音识别在真实录制数据集上较传统方法字错误率下降10%,训练时间减少80%。  相似文献   

3.
针对Word2Vec、GloVe等词嵌入技术对多义词只能产生单一语义向量的问题,提出一种融合基于语言模型的词嵌入(ELMo)和多尺度卷积神经网络(MSCNN)的情感分析模型。首先,该模型利用ELMo学习预训练语料,生成上下文相关的词向量;相较于传统词嵌入技术,ELMo利用双向长短程记忆(LSTM)网络融合词语本身特征和词语上下文特征,能够精确表示多义词的多个不同语义;此外,该模型使用预训练的中文字符向量初始化ELMo的嵌入层,相对于随机初始化,该方法可加快模型的训练速度,提高训练精度;然后,该模型利用多尺度卷积神经网络,对词向量的特征进行二次抽取,并进行特征融合,生成句子的整体语义表示;最后,经过softmax激励函数实现文本情感倾向的分类。实验在公开的酒店评论和NLPCC2014 task2两个数据集上进行,实验结果表明,在酒店评论数据集上与基于注意力的双向LSTM模型相比,该模型正确率提升了1.08个百分点,在NLPCC2014 task2数据集上与LSTM和卷积神经网络(CNN)的混合模型相比,该模型正确率提升了2.16个百分点,证明了所提方法的有效性。  相似文献   

4.
端到端双通道特征重标定DenseNet图像分类   总被引:1,自引:0,他引:1       下载免费PDF全文
目的 针对密集连接卷积神经网络(DenseNet)没有充分考虑通道特征相关性以及层间特征相关性的缺点,本文结合软注意力机制提出了端到端双通道特征重标定密集连接卷积神经网络。方法 提出的网络同时实现了DenseNet网络的通道特征重标定与层间特征重标定。给出了DenseNet网络通道特征重标定与层间特征重标定方法;构建了端到端双通道特征重标定密集连接卷积神经网络,该网络每个卷积层的输出特征图经过两个通道分别完成通道特征重标定以及层间特征重标定,再进行两种重标定后特征图的融合。结果 为了验证本文方法在不同图像分类数据集上的有效性和适应性,在图像分类数据集CIFAR-10/100以及人脸年龄数据集MORPH、Adience上进行了实验,提高了图像分类准确率,并分析了模型的参数量、训练及测试时长,验证了本文方法的实用性。与DenseNet网络相比,40层及64层双通道特征重标定密集连接卷积神经网络DFR-DenseNet(dual feature reweight DenseNet),在CIFAR-10数据集上,参数量仅分别增加1.87%、1.23%,错误率分别降低了12%、9.11%,在CIFAR-100数据集上,错误率分别降低了5.56%、5.41%;与121层DFR-DenseNet网络相比,在MORPH数据集上,平均绝对误差(MAE)值降低了7.33%,在Adience数据集上,年龄组估计准确率提高了2%;与多级特征重标定密集连接卷积神经网络MFR-DenseNet(multiple feature reweight DenseNet)相比,DFR-DenseNet网络参数量减少了一半,测试耗时约缩短为MFR-DenseNet的61%。结论 实验结果表明本文端到端双通道特征重标定密集连接卷积神经网络能够增强网络的学习能力,提高图像分类的准确率,并对不同图像分类数据集具有一定的适应性、实用性。  相似文献   

5.
针对纹身图像的特点和卷积神经网络(CNN)在全连接层对图像特征抽取能力的不足问题,提出一种三通道的卷积神经网络纹身图像检测算法,并进行了三方面的改进工作。首先,针对纹身图像的特点改进图像预处理方案;其次,设计了一个基于三通道全连接层的卷积神经网络进行特征提取,并对特征建立索引,有效地提高了网络对不同尺度下空间信息的提取能力,实现了对纹身图像的高效检测;最后,通过两个数据集验证了算法的泛化能力。实验结果表明,对NIST数据集所提预处理方案比Alex方案有总正确率提高0.17个百分点,纹身图像正确率提高0.29个百分点。在所提预处理方案下,提出的算法在标准的NIST纹身图像集上具有明显的优势,正确率从NIST公布的最优值96.3%提高到99.1%,提高了2.8个百分点;相对于传统的CNN算法,正确率从98.8%提高到99.1%,提高了0.3个百分点。在Flickr数据集上也有相应的性能提升。  相似文献   

6.
为了将知识有效地融入到对话推理,提出了一种基于双层记忆网络的多领域端到端任务型对话系统。首先,该模型用知识行的形式代替三元组的形式表示知识,提升了知识定位的性能;其次,采用了双层记忆网络结构将知识和对话历史进行分别建模,提高了模型的推理能力;最后,使用了动态编码器对多种领域的数据进行编码,提升模型的泛化能力。通过实验分析,该模型的F1和BLEU指标在InCar和CamRest数据集上相较于对比算法均有一定的提升,验证了该模型的有效性和先进性。  相似文献   

7.
针对日渐丰富的多语种文本数据,为了实现对同一类别体系下不同语种的文本分类,充分发挥多语种文本信息的价值,提出一种结合双向长短时记忆单元和卷积神经网络的多语种文本分类模型BiLSTM-CNN模型。针对每个语种,利用双向长短时记忆神经网络提取文本特征,并引入卷积神经网络进行特征优化,获得各语种更深层次的文本表示,最后将各语种的文本表示级联输入到softmax函数预测类别。在中英朝科技文献平行数据集上进行了实验验证,实验结果表明,该方法相比于基准方法分类正确率提高了4%,且对任一语种文本均能正确分类,具有良好的扩展性。  相似文献   

8.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。  相似文献   

9.
针对当前卷积神经网络(CNN)利用端层特征进行面部表情识别存在模型结构繁琐、训练参数过多、识别不够理想的问题,提出一种基于改进CNN与支持向量机(SVM)相结合的优化算法。首先,利用连续卷积的思想设计网络模型,以获取更多非线性激活;然后,采用自适应全局平均池化(GAP)层取代传统CNN中的全连接层,以减少网络参数量;最后,用SVM分类器代替传统Softmax函数实现表情识别,以提高模型泛化能力。实验结果表明,所提算法在Fer2013和CK+数据集上分别取得了73.4%和98.06%的识别准确率,与传统LeNet-5算法相比,在Fer2013数据集上提升了2.2个百分点,且该网络模型结构简单、参数量较少,具有良好的鲁棒性。  相似文献   

10.
文赛平  朱珍民  叶剑 《软件学报》2010,21(Z1):310-317
自适应模糊Petri 网兼具模糊Petri 网的模糊推理能力和神经网络的学习能力,是普适计算的模糊情境推理机制的重要的形式化规约工具.但该模型依赖于离线训练数据集,无法适应动态变化的普适智能环境.在自适应学习Petri 网模型中嵌入反馈机制,并对将模糊逻辑引入对上下文的表示,利用神经网络的反向传播学习方法对隶属度函数的参数进行学习,提高了模型的场景适配和个性化自学习能力.通过设计服务推荐系统,建立了模型仿真与验证实验环境.实验结果表明,该方法可以有效提高系统学习能力,进而提高推理正确率.  相似文献   

11.
Memory networks show promising context understanding and reasoning capabilities in Textual Question Answering (Textual QA). We improve the previous dynamic memory networks to do Textual QA by processing inputs to simultaneously extract global and hierarchical salient features. We then use them to construct multiple feature sets at each reasoning step. Experiments were conducted on a public Textual Question Answering dataset (Facebook bAbI dataset) in two ways: with and without supervision from labels of supporting facts. Compared to previous works such as Dynamic Memory Networks, our models show better accuracy and stability.  相似文献   

12.
针对传统行为识别依赖手工提取特征,智能化程度不高,识别精度低的问题,提出一种基于3D骨骼数据的卷积神经网络(CNN)与双向长短期记忆网络(Bi-LSTM)的混合模型。使用3D骨骼数据作为网络输入,CNN提取每个时间步的3D输入数据间的空间特征,Bi-LSTM更深层地提取3D数据序列的时间特征。该混合模型自动提取特征完成分类,实现骨骼数据到识别结果的端对端学习。在UTKinect-Action3D标准数据集上,模型的识别率达到97.5%,在自制Kinect数据集上的准确率达到98.6%,实验结果表明,该网络有效提高了分类准确率,具备可用性和有效性。  相似文献   

13.
基于注意力长短时记忆网络的中文词性标注模型   总被引:1,自引:0,他引:1  
针对传统的基于统计模型的词性标注存在人工特征依赖的问题,提出一种有效的基于注意力长短时记忆网络的中文词性标注模型。该模型以基本的分布式词向量作为单元输入,利用双向长短时记忆网络提取丰富的词语上下文特征表示。同时在网络中加入注意力隐层,利用注意力机制为不同时刻的隐状态分配概率权重,使隐层更加关注重要特征,从而优化和提升隐层向量的质量。在解码过程中引入状态转移概率矩阵,以进一步提升标注准确率。在《人民日报》和中文宾州树库CTB5语料上的实验结果表明,该模型能够有效地进行中文词性标注,其准确率高于条件随机场等传统词性标注方法,与当前较好的词性标注模型也十分接近。  相似文献   

14.
针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(multi-dimensional relationship enhancement model,MRE),用于提取潜层结构下图像各要素之间的空间关系信息,并推理出视觉—语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征,从而增强图像空间关系特征表示;并设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系,实现跨模态关系对齐。在MSCOCO数据集上的实验表明所提模型获得了更好的性能,其中BLEU-4和CIDEr分数分别提升了0.5%和1.3%。将这种方法应用到视觉问答任务中,在VQA 2.0数据集上性能得到了0.62%的提升,证明该方法在多模态任务方面的广泛适用性。  相似文献   

15.
目的 图表问答是计算机视觉多模态学习的一项重要研究任务,传统关系网络(relation network,RN)模型简单的两两配对方法可以包含所有像素之间的关系,因此取得了不错的结果,但此方法不仅包含冗余信息,而且平方式增长的关系配对的特征数量会给后续的推理网络在计算量和参数量上带来很大的负担。针对这个问题,提出了一种基于融合语义特征提取的引导性权重驱动的重定位关系网络模型来改善不足。方法 首先通过融合场景任务的低级和高级图像特征来提取更丰富的统计图语义信息,同时提出了一种基于注意力机制的文本编码器,实现融合语义的特征提取,然后对引导性权重进行排序进一步重构图像的位置,从而构建了重定位的关系网络模型。结果 在2个数据集上进行实验比较,在FigureQA(an annotated figure dataset for visual reasoning)数据集中,相较于IMG+QUES(image+questions)、RN和ARN(appearance and relation networks),本文方法的整体准确率分别提升了26.4%,8.1%,0.46%,在单一验证集上,相较于LEA...  相似文献   

16.
目的 现有大多数视觉问答模型均采用自上而下的视觉注意力机制,对图像内容无加权统一处理,无法更好地表征图像信息,且因为缺乏长期记忆模块,无法对信息进行长时间记忆存储,在推理答案过程中会造成有效信息丢失,从而预测出错误答案。为此,提出一种结合自底向上注意力机制和记忆网络的视觉问答模型,通过增强对图像内容的表示和记忆,提高视觉问答的准确率。方法 预训练一个目标检测模型提取图像中的目标和显著性区域作为图像特征,联合问题表示输入到记忆网络,记忆网络根据问题检索输入图像特征中的有用信息,并结合输入图像信息和问题表示进行多次迭代、更新,以生成最终的信息表示,最后融合记忆网络记忆的最终信息和问题表示,推测出正确答案。结果 在公开的大规模数据集VQA (visual question answering)v2.0上与现有主流算法进行比较实验和消融实验,结果表明,提出的模型在视觉问答任务中的准确率有显著提升,总体准确率为64.0%。与MCB(multimodal compact bilinear)算法相比,总体准确率提升了1.7%;与性能较好的VQA machine算法相比,总体准确率提升了1%,其中回答是/否、计数和其他类型问题的准确率分别提升了1.1%、3.4%和0.6%。整体性能优于其他对比算法,验证了提出算法的有效性。结论 本文提出的结合自底向上注意力机制和记忆网络的视觉问答模型,更符合人类的视觉注意力机制,并且在推理答案的过程中减少了信息丢失,有效提升了视觉问答的准确率。  相似文献   

17.
知识图谱可有效缓解传统协同过滤中的数据稀疏和冷启动问题,因此,近年来在推荐系统中融入知识图谱的方法成为重要的探索方向。然而现有的方法大多将知识图谱的网络结构划分为单独路径或仅利用了一阶邻居信息,造成无法建立整个图上的高阶连通性问题。为解决该问题,提出融合知识图谱和图注意力网络的KG-BGAT模型,并设计了双线性采集器。双线性采集器能够在信息采集阶段获取节点间的特征交互信息,丰富节点表示;图注意力网络通过递归嵌入传播算法将各个节点表示沿图进行传播,能够捕获图中的高阶连通性。在MovieLens-1M数据集上进行了Top-K推荐实验,在推荐列表长度为20时,精确率、召回率和归一化折损累计增益分别为29.4%、24.9%、67.4%,超过了目前主流的CKE、RippleNet、KGCN等融合知识图谱的推荐算法。实验证明提出的方法能够有效提高推荐结果的准确性。  相似文献   

18.
基于卷积神经网络与循环神经网络的混合文本分类模型通常使用单通道词嵌入。单通道词嵌入空间维度低,特征表示单一,导致一维卷积神经网络不能充分学习文本的空间特征,影响了模型的性能。因此,该文提出一种融合通道特征的混合神经网络文本分类模型。该模型使用了双通道词嵌入丰富文本表示,增加了空间维度,在卷积的过程中融合了通道特征,优化了空间特征与时序特征的结合方式,最终提高了混合模型的分类性能。在IMDB、20NewsGroups、复旦中文数据集、THUC数据集上进行实验,该模型的分类准确率相比于传统卷积神经网络平均提升了1%,在THUC数据集上准确率最高提升了1.3%。  相似文献   

19.
针对虚假评论识别任务中传统离散模型难以捕捉到整个评论文本的全局语义信息的问题,提出了一种基于层次注意力机制的神经网络模型。首先,采用不同的神经网络模型对评论文本的篇章结构进行建模,探讨哪种神经网络模型能够获得最好的篇章表示;然后,基于用户视图和产品视图的两种注意力机制对评论文本进行建模,用户视图关注评论文本中用户的偏好,而产品视图关注评论文本中产品的特征;最后,将两个视图学习的评论表示拼接以作为预测虚假评论的最终表示。以准确率作为评估指标,在Yelp数据集上进行了实验。实验结果表明,所提出的层次注意力机制的神经网络模型表现最好,其准确率超出了传统离散模型和现有的神经网络基准模型1至4个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号