首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
介绍了使用机器学习方法进行生物医学文本命名实体识别的技术,包括Generalized Winnow算法、支持向量机方法和条件随机域模型。根据学习算法的特点,识别过程中使用了丰富的特征集,包括局部特征,全文特征及外部资源特征。各种类型特征的优化组合、识别结果的后处理包括缩写词识别和嵌套词识别以及边界校正等都提升了命名实体识别系统的性能。实验结果表明,通过上述策略的应用,系统取得了很好的识别结果。  相似文献   

2.
基于SVM的生物医学命名实体的识别   总被引:2,自引:0,他引:2  
命名实体识别是生物医学数据挖掘的基本任务.文章使用了基于支持向量机的方法对生物医学文本中的命名实体进行了识别,系统中结合了丰富的特征集,包括局部特征,全文特征和外部资源特征,对不同的特征和不同的特征组合对系统的贡献进行了评测和实验.为了进一步提高系统的性能,还引入了缩写词识别模块和过滤器模块.实验结果表明,该方法对生物医学文本中命名实体的识别取得到了较好的结果.  相似文献   

3.
针对互联网文本形式多样化造成的有效信息提取难度增加(尤其是命名实体识别方面)的问题,提出了一种统计和规则相结合的互联网文本命名实体识别方法。首先进行文本规范化,然后使用CRF模型,以词及词性作为特征进行训练,结合互联网文本的日常性、随意性和娱乐性等特点,以及若干匹配规则对文本进行命名实体识别。实验结果表明,该方法的准确率、召回率和F值分别达到了94.76%、85.34%、89.80%,能够有效地进行命名实体识别。  相似文献   

4.
论述了近年来国内外在常规命名实体识别方面研究工作的进展状况,针对其中最为关键的产品命名实体识别技术,考虑到领域本体对产品命名实体识别的支持,提出了将本体特征融入到统计模型中,结合词性特征、上下文特征,以及本体特征的多特征模型进行产品命名实体识别实验,实验结果证明,该方法能有效地提高产品命名实体识别的性能。  相似文献   

5.
随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题。针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法。首先,使用W2NER模型进行命名实体识别,通过词频、TF-IDF、词的合群性、词词相似度和词句相似度特征,提取关键的实体。其次,使用Pegasus模型进行文本摘要,通过BiLSTM融合关键实体特征与文本摘要特征,得到新闻文本的深层次语义特征。再次,使用交叉注意力机制对待匹配新闻进行特征交互,增进彼此的联系。最后,融合新闻文本的深层次语义特征和文本交互特征,共同参与文本话题匹配的判断。在来自于搜狐的真实数据上进行了不同算法的对比实验,结果表明:所提算法准确率和精确率均与其他算法效果相近,召回率和F1值均有所提升。  相似文献   

6.
微博文本语法不规范且多由短语组成,严重影响了现有针对规范、长句文本设计的命名实体识别算法的性能.针对上述问题,本文提出了一种融合词性信息的微博文本命名实体识别模型.该模型通过分词工具提取词性信息,将词性信息作为特征与单词嵌入向量结合后输入双向长短期记忆神经网络,最后使用条件随机场对神经网络输出进行解码,从而实现词性特征辅助命名实体识别.实验结果表明,融合词性信息的命名实体识别模型,显著提高了微博文本命名实体识别的准确率.相比于其它模型,该模型F1值提高了1. 88%.  相似文献   

7.
基于CRFs的多策略生物医学命名实体识别   总被引:1,自引:0,他引:1  
生物医学命名实体识别是生物医学文本挖掘的基本任务。机器学习方法是生物医学命名实体研究的主流方法,选取有效的机器学习算法和采取有效的识别策略是提高生物医学命名实体识别性能的关键,鉴于条件随机域算法在自然语言处理领域的优势,本文采用该算法并结合多种识别策略对生物医学命名实体识别进行研究。实验取得了良好的效果,F测度达到了70.52%,与其它相关系统比较,识别性能有了明显提高。  相似文献   

8.
利用少量具有类别信息的种子词,结合特征选择技术来提取每个类别的特征信息;再利用这些特征信息,结合文本分类等数据挖掘技术来提取特殊命名实体.过程中只有构造种子词的环节需要人工辅助,其他环节均实现自动处理.实验证明,该系统和方法能够从查询日志中挖掘出高质量的命名实体列表,6个类别上识别结果的平均P@500达到了77%.系统...  相似文献   

9.
基于医疗类别的电子病历命名实体识别研究   总被引:2,自引:2,他引:0  
基于电子病历命名实体识别对智慧医疗和医疗知识图谱的构建具有重要意义,提出一种基于医疗类别的命名实体识别方法。首先,针对电子病历语料中实体特点进行深度挖掘,将电子病历分为4类医疗类别;然后,对各医疗类别分别构建特征集,并使用条件随机场模型对身体部位、症状和体征、检查与检验、疾病与诊断、治疗等5类命名实体进行命名实体识别;最后,将基于医疗类别特征集识别效果和通用特征集的识别结果进行对比。实验结果表明,基于医疗类别的电子病历命名实体识别效果显著提升,可以满足应用需求。  相似文献   

10.
基于层叠条件随机场的中文病历命名实体识别   总被引:1,自引:0,他引:1  
提出了一种基于层叠条件随机场的中文病历命名实体识别新方法,该方法在第一层条件随机场模型中实现对病历中身体基本部位或组织和基本疾病名称的识别,将识别结果传递到第二层条件随机场模型(Conditional Random Field,CRF),同时定义一个由词性和实体特征结合而成的组合特征,与字符特征、词边界特征及上下文特征共同作为第二层CRF模型的特征集,为疾病名称和临床症状两类命名实体的识别提供决策支持。在利用CRF++进行的开放测试中,本文模型相比于无自定义组合特征的层叠CRF模型,F值提高了3%;相比于单层CRF模型,F值提高了7%,总体性能有显著提高。  相似文献   

11.
针对现有的局部特征提取算法,如尺度不变特征变换、加速稳健特征等对面积较小的篡改区域和平滑区域无法准确提取特征点进行复制粘贴篡改检测的问题,提出了一种基于色调、饱和度、明度(HSV)颜色空间和限制对比度自适应直方图均衡化(CLAHE)的2阶段篡改检测方法.第1阶段,将待检测图像从红、绿、蓝颜色空间转换到(HSV)颜色空间进行加速稳健特征提取;第2阶段,针对平滑区域的篡改,通过CLAHE算法对图像进行特征增强之后,再采用加速稳健特征进行特征提取;然后利用广义2近邻算法进行特征匹配,并利用随机抽样一致性算法剔除错误的匹配点;最后通过形态学操作实现篡改区域的标示定位.实验结果表明,该算法能抵抗小面积区域和具有非显著视觉特征的平滑区域复制粘贴篡改,并对旋转、缩放等后处理攻击具有一定的鲁棒性.  相似文献   

12.
13.
针对三维模型检索系统提高准确率、减少几何特征和人类语义丰富性之间的“语义鸿沟”等问题, 提出一种基于高斯过程的语义分类和检索新方法.该方法采用一种统计2个采样点相对质心向量夹角的AC2直方图新特征,与形状分布的D2特征组合成低层特征,使用高斯过程进行三维模型语义分类的监督学习,计算测试模型的语义类概率预测分布,建立低层特征和查询概念之间的联系;使用语义距离和不相似度计算方法进行检索排序.实验结果表明:与已有的某些监督学习的方法相比,多类的测试模型进行语义分类的准确率明显得到提升,检索中能体现语义概念,检索性能也得到提高.  相似文献   

14.
在利用因子隐马尔可夫模型(Factorial Hidden Markov Model, FHMM)进行分类识别的过程中,特征选择是影响其性能的主要因素.通过研究特征选择对FHMM性能的影响,提出了一种性能分析的方案,得出了选择FHMM特征的准则.将FHMM引入到步态识别中,提取4种步态特征,得到使用不同特征组合的FHMM的实验结果.使用McNemar检验的方法将其与单个特征的识别性能做比较,结合由正则典型相关分析得到的维数不同的特征间的相关性,分析得到以下结论: 基于FHMM的识别性能与特征间的相关性并没有必然联系,其性能更多地受到特征间的识别性能差异和单个特征的识别性能的影响.为发挥FHMM的优越性,应选择特征间识别性能差异小和单个特征识别性能好的特征组合,在此基础上特征间相关性越小越好.  相似文献   

15.
为对特定辐射源识别技术进行数学理论描述,引入了信息论对特定辐射源识别过程进行建模,设计了互信息计算算法以评估特定辐射源识别的理论极限性能,并采用信息论对特定辐射源识别的系统设计进行指导,提出依据互信息度量提取非参数特征实现特定辐射源识别.在实验和仿真中根据互信息描述对接收机畸变的影响和特征提取算法的性能进行了评估,表明了特定辐射源识别信息论描述的有效性和非参数特征的可行性.  相似文献   

16.
粘性流场中摆动尾鳍的水动力性能分析   总被引:3,自引:0,他引:3  
以高性能仿生推进系统在海洋开发中的广阔应用为研究背景,通过对商用计算流体力学软件FLUENT的二次开发,采用其先进的动网格技术以及强大的后处理系统,详细计算了做横移和摆动耦合运动的金枪鱼月牙形尾鳍在粘性流场中的水动力性能.通过研究发现了摆动尾鳍产生的独特表面压力分布以及尾涡变化方式是其产生较高推进效率的内在原因;并着重探讨了不同雷诺数和耦合运动的幅度、频率及其相位差对尾鳍推进性能的影响,对于不同种类的计算工况,推进效率始终对应存在1个最佳值.  相似文献   

17.
为准确识别坦克自动装弹机中的机电系统故障,提出了一种结合函数型数据分析(Functional data analysis,FDA)和多层核极限学习机(Multi-layer kernel extreme learning machine,ML-KELM)的故障识别方法。首先,以函数的视角对机电系统运行过程中具有平滑特性的时序数据进行特征信息挖掘,利用函数型主成分分析和主微分分析从不同空间将时序数据的变化特性表征为特征参数;其次,对提取的多传感器时序数据的特征进行Relief-F特征筛选,得到与分类强相关的特征;最后,采用ML-KELM对强相关特征进行深度特征学习,获取更抽象的特征表达,进而实现准确的故障识别。结果表明: 采用与某坦克自动装弹机中的链式输送机原理一致的实验装置进行故障识别实验,函数型主成分分析和主微分分析能够从不同的特征空间中提取时序数据中的有效故障特征,并且两种方法提取的特征具有互补性; 基于多传感器时序数据特征中的强相关特征,使用3层隐含层的ML-KELM能够实现较为准确的故障识别,所提方法具有可行性和有效性,为坦克自动装弹机中的机电系统故障识别的研究提供了一种参考。  相似文献   

18.
提出了一种基于运动连通性二维网格运动分析的视频对象时空分割算法。该算法首先利用特征检测算法获得视频帧图像的自适应二维网格表示,然后利用基于运动连通性的高阶统计方法对二维网格表示进行运动分析快速获得粗糙的运动轮廓区域并进行边缘精细化,接着对根据连通性标注出的最大连通区域进行后处理就能获得最终的分割模板从而有效提取出视频对象。实验结果表明,该算法综合了网格基分割算法和像素基分割算法的优点,具有理想的主客观性能,提高了分割速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号