排序方式: 共有26条查询结果,搜索用时 15 毫秒
1.
近年来随着深度学习技术的不断革新,预训练模型在自然语言处理中的应用也越来越广泛,关系抽取不再是单纯地依赖传统的流水线方法。预训练语言模型的发展已经极大地推动了关系抽取的相关研究,在很多领域已经超越了传统方法。首先简要介绍关系抽取的发展与经典预训练模型;其次总结当下常用的数据集与评测方法,并分析模型在各数据集上的表现;最后探讨关系抽取发展的挑战与未来研究趋势。 相似文献
2.
词语语义相似度计算在很多自然语言处理相关领域都有着广泛应用。基于知网的现有词语语义相似度计算方法未深入考虑同棵义原层次树的义原距离、义原深度、义原密度及主次关系的影响,致使相似度计算结果并不够精确。针对该问题,提出一种词语语义相似度改进算法,通过分析知网中的义项表达式和义原层次树,用集合的加权平均值代替了义项相似度最大值,在新的边权重函数中引入义原密度,进而通过调节权重因子限制义原深度与义原密度对相似度计算准确度的影响。实验结果表明,改进后的算法有效提高了词语语义相似度准确率,取得了比较满意的结果,比现有方法更合理。 相似文献
3.
目前如何对互联网上的海量数据进行文本分类已经成为一个重要的研究方向,随着云计算技术和Hadoop平台的逐步发展,文本分类的并行化方式将能够更有效的解决当前的问题.论文针对文本分类中特征选择阶段对文本分类性能有很大影响的缺点,提出了一种改进的特征选择算法——类别相关度算法(Class Correlation Algorithm,CCA),同时根据Hadoop平台在海量数据存储和处理方面所具有的优点,利用MapReduce的并行编程框架和HDFS分布式存储系统对文本分类的各个阶段实现了并行化编程.最后通过实验将Hadoop平台下的文本分类的优化算法与传统的单机运行环境下的文本分类算法进行了对比分析,实验结果表明对于相同的数据集,该算法在运算时间上有极大的提高. 相似文献
5.
在文本分类过程中,经典的最近邻分类算法(KNN)面对海量数据时的执行时间较长.对经典KNN算法进行改进,通过在训练阶段构造初级分类器以减少训练阶段的计算量,并在Hadoop平台MapReduce下予以实现.实验结果表明,改进后的算法可以在保证分类精度的情况下节省运行时间. 相似文献
6.
7.
8.
针对蛋白质交互作用关系(PPI)抽取研究中已标注语料有限而未标注生物医学自由文本易得的问题,进行了基于直推式支持向量机(TSVM)与主动学习融合的蛋白质交互作用关系抽取研究.通过自主选择最优的未标注样本加入到TSVM的训练过程中,最大程度地提高了系统的性能.实验结果表明,TSVM与主动学习融合的算法在少量已标注样本和大量未标注样本组成的混合样本集上取得了较好的学习效果,与传统的支持向量机(SVM)和TSVM算法相比,能有效地减少学习样本数,提高分类精度,在AImed语料上取得了F测度为64.12%的较好性能. 相似文献
9.
基于SVM的生物医学命名实体的识别 总被引:2,自引:0,他引:2
命名实体识别是生物医学数据挖掘的基本任务.文章使用了基于支持向量机的方法对生物医学文本中的命名实体进行了识别,系统中结合了丰富的特征集,包括局部特征,全文特征和外部资源特征,对不同的特征和不同的特征组合对系统的贡献进行了评测和实验.为了进一步提高系统的性能,还引入了缩写词识别模块和过滤器模块.实验结果表明,该方法对生物医学文本中命名实体的识别取得到了较好的结果. 相似文献
10.
介绍了使用机器学习方法进行生物医学文本命名实体识别的技术,包括Generalized Winnow算法、支持向量机方法和条件随机域模型。根据学习算法的特点,识别过程中使用了丰富的特征集,包括局部特征,全文特征及外部资源特征。各种类型特征的优化组合、识别结果的后处理包括缩写词识别和嵌套词识别以及边界校正等都提升了命名实体识别系统的性能。实验结果表明,通过上述策略的应用,系统取得了很好的识别结果。 相似文献