首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 171 毫秒
1.
《Planning》2022,(2)
为了解决基于分词的渔业领域命名实体识别效果受分词准确度影响这一问题,采用一种基于深度学习的渔业领域命名实体识别方法。该方法使用神经网络训练得到字向量作为模型输入,避免了分词不准确对渔业领域命名实体识别效果造成的影响;针对渔业领域命名实体长度较长这一特点,使用LSTM单元保持较长时间记忆信息,并将标记信息融入到CRF模型中构建Character+LSTM+CRF实体识别模型。为验证方法的有效性,在渔业领域语料集上进行多组实验,结果表明,本研究中提出的Character+LSTM+CRF方法具有较好的效果,与LSTM模型相比较,在准确率、召回率、F值上分别提升了3.39%、2.99%、3.19%,对于渔业领域实体识别具有较好的效果。  相似文献   

2.
《Planning》2022,(2)
为了解决渔业标准文本中专有命名实体具有上下文敏感性、长序列存在语义稀释等问题,提出了基于E-BIO标注法和融合注意力机制的BiLSTM+CRF (BiLSTM+Attention+CRF)命名实体识别模型,E-BIO标注法引入渔业标准文本中的结构化信息,可以使模型有效学习上下文结构特征,而注意力机制输出不断变化的语义向量,可有效解决长序列语义稀释问题。为验证所提出方法的有效性,在采用E-BIO方法标注的语料上进行对比试验,结果显示,BiLSTM+Attention+CRF模型对不同类别的渔业标准命名实体识别的准确率均能达到90%以上,召回率均能达到85%以上。研究表明,本研究中提出的BiLSTM+Attention+CRF命名实体识别模型可以有效利用上下文结构特征,避免了语义稀释问题,对于渔业标准命名实体识别具有较好的识别性能。  相似文献   

3.
《Planning》2022,(4)
为解决渔业标准命名实体识别任务中部分实体语料分布稀疏导致的效果不佳问题,提出了基于多元组合数据增广(data augmentation method based on multiple combination, MCA)的渔业标准命名实体识别方法,该方法融合了基于领域词典的联合替换算法(joint replacement algorithm based on domain dictionary, DDR)、基于槽点保护的随机删除算法(random deletion algorithm based on slot protection, SPD)和基于槽点保护的随机插入算法(random insertion algorithm based on slot protection, SPI)进行语料库的数据增广,首先构建"水产品名称"同类词词典和领域同义词词典,通过两个词典分别对"水产品名称"类实体和随机词进行同类词替换和同义词替换,生成新的句子,以增加目标实体数量和句子的多样性,然后在基于槽点保护的情况下对原句子分别进行随机删除和随机插入操作,在保留实体及上下文特征的情况下进一步丰富语料的多样性,提高模型的泛化能力。结果表明,采用基于融合注意力机制的BERT+BiLSTM+CRF网络模型和多元组合数据增广方法进行渔业标准命名实体识别,准确率、召回率、F1值分别达到了91.73%、88.64%、90.16%,具有较好的效果。研究表明,基于多元组合数据增广的渔业标准命名实体识别方法有效解决了部分实体样本稀疏问题,提升了渔业标准命名实体识别的整体效果。  相似文献   

4.
《Planning》2022,(3)
为解决因外来海洋生物领域实体复杂且实体间存在嵌套导致命名实体识别效果较差等问题,提出基于融合注意力机制的卷积神经网络(CNN)-双向门控循环单元网络(BiGRU)-条件随机场(CRF)网络模型进行外来海洋生物命名实体识别,并构造词向量、词性特征向量等特征作为网络模型的联合输入,以提升网络模型识别效果。结果表明:使用融合多特征向量的CNN-BiGRU-CRF网络模型对外来海洋生物名称实体、时间实体、地名实体3类实体上的命名实体识别结果平均准确率达到了90.62%,平均召回率达到了89.50%,平均F1值达到了90.05%,较传统命名实体识别方法均有较大提高。研究表明,本研究中提出的网络模型可以充分提取文本特征,解决了文本的长距离依赖问题,对外来海洋生物领域的命名实体识别具有较好的识别效果。  相似文献   

5.
《Planning》2019,(21)
本文基于经典算法回溯法,对中文分词进行在研究与比对,发现我们的实验结果优于当下的双向LSTM模型、以及CRF条件随机场的数据,将中文分词难点问题未登录词和歧义词的识别提高了1%。  相似文献   

6.
《Planning》2022,(1)
中文文本实体识别,是自然语言处理的关键问题。传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果。提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列。实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%。  相似文献   

7.
《Planning》2021,(1):69-70
碳酸盐岩储层的储集空间类型多样、储层性质复杂,导致流体的测井响应受到强非均质性的影响,给流体识别工作带来极大困难。针对该问题,提出基于测井序列信息的双向长短期记忆网络(Bi-LSTM)流体识别模型,从测井响应特征差异性分析及相似性分析两方面出发,确定敏感曲线,结合Bi-LSTM网络的输入要求,建立流体识别样本库,并获得基于Bi-LSTM的流体识别模型。应用该方法对鄂尔多斯盆地马家沟组进行流体识别,与单向LSTM模型及其他3类机器学习算法预测结果进行对比。结果表明:基于Bi-LSTM的流体识别模型流体识别的符合率从82.7%提高到91.5%,取得较好的应用效果;该模型既能充分利用井下对应深度测井曲线的响应值,又能兼顾测井曲线随深度的变化趋势和前后关联,最大程度避免储层纵向非均质性带来的影响,提高流体识别能力。  相似文献   

8.
全断面隧道掘进机(TBM)施工过程可以采集大量丰富数据,这使得建立数据驱动的TBM掘进预测模型成为可能。为探究围岩等级信息对模型预测精度的影响,以TBM掘进循环上升段数据为主要输入,基于深度学习中的长短期记忆(LSTM)网络,建立两种考虑围岩等级信息的、一种不考虑围岩等级信息的TBM稳定段推力、扭矩预测模型。保持其他条件相同,对三种模型进行训练、测试。结果表明,在由于围岩等级分布不均匀而导致的训练样本数较少的情况下,可以通过精确的掘进循环参数提取与数据增强,使三种模型预测推力、扭矩时均能达到较高的精度(误差分别在8%、14%以内)。两种引入围岩等级信息作为输入参数的方法并不能明显提高模型的预测精度。三种模型中,以围岩等级信息作为LSTM网络初始状态的模型,其预测精度以不到1%的优势领先其他模型的预测精度。该优势主要由于该模型能够较好地预测V级围岩中的掘进循环稳定段参数。  相似文献   

9.
《Planning》2019,(9):1201-1207
提出基于双向长短期记忆网络(bidirectional long short-term memory,Bi LSTM)和前向神经网络的融合模型完成公共安全事件的触发词识别任务.首先通过Bi LSTM提取整段文本的高层语义特征,避免了以往机器学习方法需要人工提取特征的问题,其次采用特征拼接并在前向神经网络中识别并分类事件触发词.实验结果表明相较于基准模型,本文方法在中文突发事件语料库(Chinese emergency corpus,CEC)上取得了更为突出的性能,Micro-F1值为78. 47%.此外本文讨论了不同拼接特征在触发词识别任务中的重要性,对文本分析中3类特征(词性、句法、实体)的重要程度进行了比较和分析,得出句法特征对于事件触发词识别任务助益最大的结论.  相似文献   

10.
以寒冷地区某住户为研究对象,采用C4.5决策树算法,提出一种基于室内外环境参数的供暖期人员开窗行为识别模型,选取识别模型的特征变量。结合真实开窗情况,以正确率、准确率作为指标,评价识别模型的识别效果。识别模型的特征变量为室内温度、室内相对湿度、15min室内温度变化量、60 min室内相对湿度变化量、室外温度、室外相对湿度、壁面逐时太阳入射角。各测试房间识别模型的识别正确率均比较高,范围为89.6%~94.8%。识别模型在准确率方面也有较好表现,范围为84.9%~91.6%。各房间识别模型均具有一定的正确性、准确性。识别结果与真实开窗情况变化趋势基本一致,且吻合程度比较高。C4.5决策树算法在寒冷地区供暖期人员开窗行为识别方面表现良好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号