首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
针对传统模型在处理电子病历文本命名实体识别问题时,存在的无法表征字的多义性和分词错误传递最终识别效果等问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)的命名实体识别模型,该方法引入BERT预训练语言模型增强词向量的语义表示;使用...  相似文献   

2.
专业术语的自动抽取对于领域机器翻译、领域知识图谱等方面均具有重要作用.近年来,新能源领域专利文本的申请量逐年增加,我国科技文献走向世界有了更高需求,专业术语翻译质量直接影响专利文本的翻译质量.为了提高新能源领域专利文本术语抽取结果的准确率和召回率,构建新能源领域术语库以及提高新能源领域专利文本的翻译质量打下基础.本文提出了基于BERT-BiLSTM-CRF的新能源专利术语抽取方法,以自建的3002条新能源领域专利文本作为实验对象,在中文数据集上的实验结果达到了0.9211的精确率,0.9245的召回率以及0.9228的F1值.与其他经典深度学习术语抽取模型相比,基于BERT-BiLSTM-CRF的新能源专利术语抽取模型能有效地将新能源领域专利文本中字符较多的长序列术语识别出来,提高术语抽取在实际应用中的效果.  相似文献   

3.
针对案件判决相关人员办理诉讼案件案头杂、采集信息散、办案时间长等问题,提出一个基于条件随机场的交通肇事诉讼案件关键要素抽取模型.该模型借鉴信息抽取技术,通过构建关键要素标注集并建成语料库,设计不同的特征模板,充分结合交通肇事领域诉讼案件的文本特点,考虑窗口长度以及不同特征的选择和组合,基于PyCharm平台对交通肇事诉...  相似文献   

4.
为提高敏感数据抽取效果,提出了融合注意力机制的人机交互信息半监督敏感数据抽取方法。融合类卷积以及人机交互注意力机制构建融合交互注意力机制双向长短词记忆(Bi-LSTM-CRF)模型,通过模型的类卷积交互注意力机制将敏感词转化为字符矩阵,采用Bi-LSTM对该矩阵进行编码获得敏感词字符级特点的分布式排列,通过Bi-LSTM对该分布式排列的二次编码获得敏感词上下文信息的隐藏状态,基于该隐藏状态通过类卷积注意力层与交互注意力层进行注意力加权,获得类卷积注意力矩阵与交互注意力矩阵,拼接两个矩阵得到双层注意力矩阵,利用交互注意力层门控循环单元升级双层注意力矩阵成新的注意力矩阵,经全连接降维获取敏感词对应的预测标签,实现人机交互信息半监督敏感数据抽取。实验结果说明:该方法可有效降低敏感数据抽取复杂度,具有较高的敏感数据抽取查全率。  相似文献   

5.
为提供比单纯词汇信息更高效的概念特征信息和深层语义信息,并满足面向同一文本的多检索需求,在半自动化智能检索框架中引入本体视图,提出一种基于本体视图的特征项抽取方法。此方法首先针对文本特征建立本体视图;然后结合文本信息进行特征项抽取和类型映射,得到特征项集;最后基于特征项集完成检索过程。检索结果显示,基于本体视图特征项抽取方法能改善检索系统的性能,提高检索的准确率和效率。  相似文献   

6.
裁判文书中的命名实体识别是自动化审判的关键一步,如何能够有效的分辨出案件的关键命名实体是本文的研究重点.因此本文针对财产纠纷审判案件,提出了一种基于SVM-BiLSTM-CRF的神经网络模型.首先利用SVM筛选出包含关键命名实体的句子,然后将正确包含此类实体的句子转化为字符级向量作为输入,构建适合财产纠纷裁判文书命名实体识别的BiLSTM-CRF深层神经网络模型.通过构建训练数据进行验证和对比,该模型比其他相关模型表现出更高的召回率和准确率.  相似文献   

7.
准确的命名实体识别是结构化电子病历的基础,对于电子病历规范化编写有着重要的作用,而现今的分词工具对于专业的医疗术语无法做到完全正确的区分,使得结构化电子病历难以实现.针对医疗实体识别中出现的问题,本文提出了一种在命名实体识别领域中改进的BiLSTM-CRF深度学习模型.模型将文字和标签结合作为输入,在多头注意力机制中使模型关注更多的有用信息, BiLSTM对输入进行特征提取,得到每个文字在所有标签上的概率, CRF在训练过程中学习到数据集中的约束,进行解码时可以提高结果的准确率.实验使用人工标注的1 000份电子病历作为数据集,使用BIO标注方式.从测试集的结果来看,相对于传统的BiLSTM-CRF模型,该模型在实体类别上的F1值提升了3%–11%,验证了该模型在医疗命名实体识别中的有效性.  相似文献   

8.
在基于关系数据库的本体构建过程中,由数据表抽取的原始本体的质量直接影响到最终生成本体的质量,而传统的抽取方法中将单个数据表映射为单个本体概念的方法忽略了数据表中元组数据所提供的语义信息,造成抽取的原始本体质量不高的问题。本文提出一种了基于数据表的原始本体抽取方法。应用FCA(形式概念分析)方法对单个数据表的元组数据进行分析,形成概念格,进而产生原始本体。该方法使得数据表中的元组数据得到了有效的利用,提高了原始本体的抽取质量,有利于最终本体生成质量的提高。  相似文献   

9.
基于CRF算法的汉语比较句识别和关系抽取*   总被引:5,自引:2,他引:5  
比较句是表明事物之间关系的常见表达方式,对于文本挖掘,特别是情感分析,具有重要的价值。目前汉语比较句的研究还是一个新颖的课题,包括汉语比较句的识别和比较关系的抽取。对于汉语比较句的识别,在前人研究的基础上,以SVM为分类器,以特征词和CSR序列规则为特征,同时利用CRF算法抽取实体对象,并增加以实体对象的信息作为特征,显著提高了比较句识别的准确率、召回率和F-度量,最高分别达到96.55%、88.63%和92.43%。对于汉语比较关系的抽取,在CRF算法抽取实体对象的基础上,通过定义一些规则,抽取比较主体和比较基准,也取得了较好的效果,其中比较主体的抽取效果要好于比较基准。  相似文献   

10.
药名识别的直接目的是从生物医学文本中寻找药名。目前,药物相关研究不断出现,远远超出了维护人员更新药物信息数据库的速度,这就迫切需要一种自动提取药物信息的技术。该文采用了一种基于特征耦合泛化(FCG)的半监督学习方法生成药名词典,然后将药名词典和条件随机场结合进行药名实体识别。首先我们用模板的方法构造了一个药名词典,然后用FCG方法对词典去噪,最后将去噪后的词典用在测试集上进行药名实体识别,得到了76.73%的F值。  相似文献   

11.
丁锋  孙晓 《计算机科学》2022,49(2):223-230
基于方面情感分析(Aspect-Based Sentiment Analysis,ABSA)是自然语言处理的热门课题,其中意见目标抽取和意见目标情感极性分类是ABSA的基本子任务之一。而很少有研究直接抽取特定情感极性的意见目标,尤其是抽取更有潜在价值的消极情绪意见目标。文中提出了一种全新的ABSA子任务--抽取消极情绪意见目标(Negative-Emotion Opinion Target Extraction,NE-OTE),并提出了基于注意力机制和单词与字符混合嵌入的BiLSTM-CRF模型(Attention-based BiLSTM-CRF with Word Embedding and Character Embedding,AB-CE),在双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)学习文本语义信息和捕获长距离双向语义依赖关系的基础上,通过注意力机制使模型更好地关注输入序列中的关键部分和捕获与意见目标及其情感倾向相关的隐含特征,最终通过CRF层预测句子级别的全局最佳标签序列,实现对消极情绪意见目标的抽取。文中基于主流ABSA任务基准数据集构建了3个NE-OTE任务数据集,并在这些数据集上进行了广泛的实验,实验结果显示,所提模型能够有效识别消极情绪意见目标,且识别效果明显优于其他基线模型,验证了所提方法的有效性。  相似文献   

12.
在生物医学文本挖掘领域,生物医学的命名实体和关系抽取具有重要意义.然而目前中文生物医学实体关系标注语料十分稀缺,这给中文生物医学领域的信息抽取任务带来许多挑战.该文基于深度学习技术搭建了中文生物医学实体关系抽取系统.首先利用公开的英文生物医学标注语料,结合翻译技术和人工标注方法构建了中文生物医学实体关系语料.然后在结合...  相似文献   

13.
基于BERT-BiLSTM-CRF模型的中文实体识别   总被引:1,自引:0,他引:1  
命名实体识别是自然语言处理的一项关键技术.基于深度学习的方法已被广泛应用到中文实体识别研究中.大多数深度学习模型的预处理主要注重词和字符的特征抽取,却忽略词上下文的语义信息,使其无法表征一词多义,因而实体识别性能有待进一步提高.为解决该问题,本文提出了一种基于BERT-BiLSTM-CRF模型的研究方法.首先通过BERT模型预处理生成基于上下文信息的词向量,其次将训练出来的词向量输入BiLSTM-CRF模型做进一步训练处理.实验结果表明,该模型在MSRA语料和人民日报语料库上都达到相当不错的结果, F1值分别为94.65%和95.67%.  相似文献   

14.
基于知识图谱的网络安全动态预警方法,能够主动感知和应对网络安全攻击,增强感知的实时性和精准性。然而,在构建网络安全知识图谱的实体抽取过程中,传统的命名实体识别工具和方法无法识别网络安全领域中的特定类别实体,文本中的未登录和中英文混合的网络安全实体也难以被准确识别。网络安全文本中的网络安全命名实体存在中英文混合、单词缩写等问题,仅基于字的命名实体识别方法难以充分表征字或词的语义信息。因此,论文考虑中英文更细粒度的部件语义捕捉字或词的语义特征,提出一种基于部件CNN的网络安全命名实体识别方法(C C-NS-NER),利用部件CNN抽取词语部件特征中的关键语义特征,丰富字词级别的语义信息,并引入BiLSTM-CRF确保抽取字向量和部件特征中的抽象信息,同时获取标签之间的关联信息,识别文本中的网络安全命名实体。在人工标注的网络安全数据集上的实验结果表明,该方法相较于传统模型,能有效获取字或词的部件语义信息,显著提高网络安全命名实体识别的效果。  相似文献   

15.
论文提出了一种基于改进的自适应主元提取算法的人脸识别方法。采用改进的自适应主元提取算法将人脸图像由高维观测空间投影到低维特征空间,通过改进前馈网络权值更新方程,降低算法的复杂度和计算量。基于三维人脸形变模型,采用区域填充和曲面消隐算法根据一幅人脸图像生成多个虚拟样本,克服人脸识别中的小样本问题。在ORL和UMIST数据库上的实验结果表明,该文提出的算法在识别性能上明显高于传统的Eigenface和Fisherface方法。  相似文献   

16.
基于条件随机场的连续运动识别技术   总被引:1,自引:0,他引:1  
在体育运动识别中,过渡姿势的复杂多变性容易导致识别错误。针对此问题,本文提出一种基于条件随机场CRF和条件概率密度传播Condensation的连续运动识别算法。该算法采用"分段识别"的思想,首先利用Condensation估计动作边界,然后分割出片段输入到CRF对其进行识别。实验结果表明,本文算法能减少过渡姿势对识别正确性的不良影响,比传统单纯使用CRF算法具有更好的稳定性和识别正确率。  相似文献   

17.
基于词性探测的中文姓名识别算法   总被引:1,自引:0,他引:1  
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号