排序方式: 共有27条查询结果,搜索用时 15 毫秒
11.
中文真词错误自动校对是自然语言理解的一项重要的基础研究课题,油田数字化过程中利用图像识别及人工录入产生的中文真词错误会直接影响后期数据综合分析准确度。对中文真词错误成因和统计语言模型进行分析,提出一种面向油田领域的中文真词错误自动校对方法。该方法首先构建通用领域和油田领域混淆集,再引入同义词集丰富知识库,对语料分词后,综合统计分析目标词与混淆词、周边词的同义词之间关系,自动校对真词错误。实验表明,提出的方法能有效校对油田领域的中文真词错误。 相似文献
12.
特征词的选取与文本表示是文本分类信息预处理的核心问题之一,鉴于此,论文提出一种改进的加权连续词袋模型(CBOW)与基于注意力机制的双向长短期记忆网络模型(BI-LASM-ATT)应用于文本分类研究.该模型以词频作为特征选择依据,改进了频次与反频次,利用加权CBOW模型得到词向量表示,作为BI-LSTM-ATT模型的词嵌入层,得到Soft-max分类器分类结果.论文在复旦大学提供的语料集的实验结果表明,该模型在文本分类的精确率、召回率、F_meature效果对比中,比传统机器学习和深度学习算法均有明显提高. 相似文献
13.
针对蛋白质交互作用关系(PPI)抽取研究中已标注语料有限而未标注生物医学自由文本易得的问题,进行了基于直推式支持向量机(TSVM)与主动学习融合的蛋白质交互作用关系抽取研究.通过自主选择最优的未标注样本加入到TSVM的训练过程中,最大程度地提高了系统的性能.实验结果表明,TSVM与主动学习融合的算法在少量已标注样本和大量未标注样本组成的混合样本集上取得了较好的学习效果,与传统的支持向量机(SVM)和TSVM算法相比,能有效地减少学习样本数,提高分类精度,在AImed语料上取得了F测度为64.12%的较好性能. 相似文献
14.
15.
16.
17.
生物医学命名实体识别是生物医学数据挖掘的基本任务.文中提出了一种将多Agent系统和元学习方法相结合的多Agent元学习框架,应用于生物医学命名实体识别.基层多个学习Agent分别识别不同类型的生物医学命名实体,并通过相关学习Agent之间的通信来交换有益信息以调节个体Agent的行为提高其学习性能,元层Agent综合决策基层学习Agent的学习结果以获得最终的识别结果.元层Agent和基层学习Agent通过局部特征选择法选择适合不同实体类别的敏感特征集合提高了总体识别性能尤其是小类别识别的性能.文中提出的方法有效改善了传统的单一学习模型和全局特征选择方法不能兼顾各类别命名实体识别性能的不足.实验结果表明,文中提出的全新方法在生物医学命名实体识别上取得了优越的性能,在JNLPBA2004测试语料上获得了77.5%的F测度值. 相似文献
18.
生物医学文本挖掘技术的研究与进展 总被引:1,自引:0,他引:1
生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了巨量的研究论文,已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识,是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技术就是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。这篇综述介绍了生物医学文本挖掘的主要研究方法和成果,即基于机器学习方法的生物医学命名实体识别、缩写词和同义词的识别、命名实体关系抽取,以及相关资源建设、相关评测会议和学术会议等。此外还简要介绍了国内研究现状,最后对该领域近期发展作了展望。 相似文献
19.
提出一种图像标注改善方法,利用数据集蕴含的语境相关信息进行标注改善。构建标签相关图和视觉内容相关图,利用正则化框架将标注改善问题描述为两个无向加权图上的损失函数最小化问题。采用数据分割,逐次优化和放松约束的策略,获得该问题的近似解。该方法充分利用标签的语境相关信息和图像内容相关信息,对数据集分割的粒度具有较好的鲁棒性,具备近似线性的时间复杂度。测试结果表明,该方法适用于大规模数据集,性能优于其它对比方法,可以较大幅度的提升图像标注性能。 相似文献
20.