首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
[目的 /意义]将海量学术文本观点提取工作由人工转向机器,提高效率的同时又能够保证观点提取的准确性、客观性。[方法 /过程]使用UniLM统一语言预训练模型,训练过程中对模型进行精调,以人工标注数据集进行机器学习。将学术文摘作为长度为a的文本序列,经过机器学习,生成长度为b的句子序列(a≥b),并且作为学术论文观点句输出。[结果 /结论 ]研究结果表明:UniLM模型对于规范型文摘、半规范型文摘、非规范型文摘观点生成精准度分别为94.36%、77.27%、57.43%,规范型文摘生成效果最好。将机器学习模型应用于长文本观点生成,为学术论文观点生成提供一种新方法。不足之处在于本文模型依赖文摘的结构性,对非规范型文摘观点生成效果有所欠缺。  相似文献   

2.
将自动文本分类引入竞争情报系统,并结合民航客服业的实际应用场景展开研究。在对文本分类的理论基础进行研究与分析的基础上,设计一种自动分类策略,其核心是针对传统机器学习方法依赖历史数据的局限,优化特征选择和学习样本获取方法。选用SVM算法,详细描述分类词表构建、分类规则提取、分类模型训练等过程,最终取得较为理想的实际效果。  相似文献   

3.
随着互联网虚假信息日益泛滥,自动识别虚假信息成为互联网信息治理的迫切需求。互联网上虚假信息伴随新事件不断产生,导致识别虚假信息的有监督统计机器学习模型需要不断更新迭代。每次迭代更新都需要构建新的训练集,以便新的虚假信息能在训练集中得以体现。为此,本研究提出一种动态迭代更新训练集构筑机器学习模型的虚假信息识别方法,设计基于核密度估计的迭代聚类方法对虚假信息数据集进行迭代聚类。在每一个自动得到的聚类中,按比例分别选取训练集样本和测试集样本构造分类器的训练样本集和测试样本集,使新产生事件的样本能够在训练集中得到体现。研究结果显示,基于核密度估计的迭代聚类方法划分数据集训练得到的虚假信息分类器,与随机划分数据集策略相比,能够显著提升虚假信息分类准确度。  相似文献   

4.
余传明  李浩男  安璐 《情报学报》2020,39(5):521-533
随着大数据的迅速发展,知识网络在不同语言、不同领域和不同模态等情境下呈现高度多样性和复杂性,如何对齐与整合多源情境下的异构知识网络,成为研究者所面临的严峻挑战。本文在知识网络深度表示学习的基础上,提出一种由知识网络构建、跨语言网络表示学习和统计机器学习三个模块构成的知识网络对齐(knowledge network alignment,KNA)模型。为验证模型的有效性,在中英文双语知识网络数据集上开展实证研究,借助于网络表示学习算法将异构知识网络表征到同一空间,利用已知的对齐链接来训练统计机器学习模型,并通过模型来预测未知的节点对齐链接。KNA模型在跨语言共词网络对齐任务中取得Precision@1值为0.7731,高于基线方法 (0.6806),验证了KNA模型在跨语言知识网络对齐上的有效性。研究结果对于改进知识网络的节点对齐效果,促进多源情境下的异构知识网络融合具有重要意义。  相似文献   

5.
Web网页识别算法研究   总被引:7,自引:1,他引:6  
WWW上的文本信息挖掘工作是网络信息处理领域的新课题。本文研究了两种机器学习算法———Rocchio算法和Widrow Hoff算法在Web网页识别领域中的应用 ,并对几种网页识别算法进行了比较分析  相似文献   

6.
赵洪 《情报学报》2020,(3):330-344
自动文摘是文本挖掘的主要任务之一。相比于抽取式自动文摘,生成式自动文摘在思想上更接近人工摘要的过程,具有重要研究意义。近几年伴随着深度学习方法的发展,基于深层神经网络模型的生成式自动文摘也有了令人瞩目的发展。为了更全面地理解该类方法的思想和研究现状,本文从生成式自动文摘的任务描述入手,梳理了基于RNN (recurrent neural network,循环神经网络)的模型、基于CNN (convolutional neural network,卷积神经网络)的模型、基于RNN+CNN的模型、融合注意力机制的模型和融合强化学习的模型共五大类生成式自动文摘的深度学习方法。这类方法表明,在深层神经网络的训练下,特别是融合注意力机制和强化学习后,摘要效果得以明显提升。在生成式自动文摘研究的未来发展中,除深度学习方法本身的不断应用和改进外,还需关注如何有效实现篇章级语义理解下的摘要、面向不同文本对象特点的摘要和摘要结果自动评价等问题。此外,如何结合传统摘要研究中的成熟方法进一步提高摘要效果,也是一个很有价值的研究方向。  相似文献   

7.
杨建林 《情报学报》2001,20(4):460-463
本文提出了几个可以改善中文自动文摘系统的文摘效果的措施 :1 将字频统计方法和词频统计方法有机结合起来 ;2 进一步研究人工文摘中理解性文摘句的形成机理 ,完善仿人算法 ;3 将自动聚类的方法引入自动文摘研究。  相似文献   

8.
基于神经网络的Listwise排序学习方法的研究   总被引:1,自引:0,他引:1  
近年来排序学习方法以其优异的性能成为信息检索领域研究的一个热点.排序学习方法应用机器学习方法训练排序模型用于文档相关性排序,取得了良好的实验结果.在多种排序学习模型中又以Listwise方法的效果最为显著,特别是基于神经网络的排序学习算法以其良好的理论基础,灵活的损失函数构造形式,成为排序学习研究的重要手段.本文对基于神经网络的Listwise排序学习方法及其改进方法进行综述,并介绍该方面研究的最新进展.  相似文献   

9.
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究   总被引:2,自引:0,他引:2  
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。  相似文献   

10.
目录是组织与利用古籍资源的重要工具,也是图书情报学科的重点研究对象。互著与别裁作为古典目录学中的两种辅助方法,能在深入剖析文献内容特征的基础上,根据内容的多元性将文献准确、完整地记载于目录体系中,达到“类例既分,学术自明”的效果。将互著与别裁映射为文本挖掘中的文本分类问题,提出基于机器学习以实现互著与别裁的方法框架,为古籍在目录体系中的多类目记载提供方法。首先利用TextCNN与BERT两种机器学习模型对先秦诸子六家十部典籍文本进行分类训练,结果显示BERT优于TextCNN,可以达到9164%的分类准确率;之后用微调训练后的BERT模型对《荀子》与《管子》进行篇、章粒度的分类判断,最终得出这两部图书各篇章互著与别裁的结果。本研究展现了在数字人文视域下,数字技术对古典目录学、古典文献学以及学术史研究的应用价值。图5。表7。参考文献43。  相似文献   

11.
[目的/意义]在线问答社区成为互联网用户获取高质量知识的重要途径,探索中文问答社区答案质量对知识传播具有重要意义。[方法/过程]以规模最大的中文问答社区之一"知乎"为研究对象,采用数据挖掘和机器学习方法,选取逻辑回归、支持向量机和随机森林三种分类模型,进行三层递进式训练和检验。从结构化特征、文本特征以及用户社交属性三个维度构建答案质量的特征体系。[结果/结论]实验结果显示,随着特征体系的不断丰富,三种分类模型的性能逐步提升;而随机森林作为一种组合分类模型,在全量特征的情况下,取得出色的分类性能。对特征组合分析发现,包含用户社交属性的随机森林总是比同等级的其它模型更加出色,表明社会化网络在答案质量评价中的地位。研究结论表明从答案本身和答案编写者两个角度能够评价答案质量,构建的特征体系和模型可以较为全面地预测答案质量。  相似文献   

12.
Knowledge transfer for cross domain learning to rank   总被引:1,自引:1,他引:0  
Recently, learning to rank technology is attracting increasing attention from both academia and industry in the areas of machine learning and information retrieval. A number of algorithms have been proposed to rank documents according to the user-given query using a human-labeled training dataset. A basic assumption behind general learning to rank algorithms is that the training and test data are drawn from the same data distribution. However, this assumption does not always hold true in real world applications. For example, it can be violated when the labeled training data become outdated or originally come from another domain different from its counterpart of test data. Such situations bring a new problem, which we define as cross domain learning to rank. In this paper, we aim at improving the learning of a ranking model in target domain by leveraging knowledge from the outdated or out-of-domain data (both are referred to as source domain data). We first give a formal definition of the cross domain learning to rank problem. Following this, two novel methods are proposed to conduct knowledge transfer at feature level and instance level, respectively. These two methods both utilize Ranking SVM as the basic learner. In the experiments, we evaluate these two methods using data from benchmark datasets for document retrieval. The results show that the feature-level transfer method performs better with steady improvements over baseline approaches across different datasets, while the instance-level transfer method comes out with varying performance depending on the dataset used.  相似文献   

13.
梁爽  刘小平 《图书情报工作》2022,66(13):138-149
[目的/意义]梳理国内外基于文本挖掘的科技文献主题演化相关研究,对主题演化分析中使用的各种方法进行分类、归纳与总结,并提出现有研究存在的不足,为主题演化研究提供新的思路与借鉴意义。[方法/过程]依照国内外学者进行主题演化研究的一般流程,对数据集选取与对象分析、主题识别研究、主题演化研究(主题演化时序分析、主题强度演化分析、主题内容演化分析)3个分析层面中所使用的各类模型、指标与方法进行梳理比较与优缺点总结,提出现有研究的局限性并对未来发展做出展望。[结果/结论]当前研究已具有一定规模和较为成熟的分析体系,但仍存在以下不足:数据来源较为单一;LDA及相关扩展模型存在的弊端需进一步克服;缺乏对其他机器学习及深度学习算法的探索应用;演化分析方法需相互结合、互补互融。未来应针对以上问题做出相应改进与深入探究。  相似文献   

14.
新世纪国际人工智能研究领域可视化分析   总被引:1,自引:0,他引:1  
目的:全面了解新世纪国际人工智能领域的研究现状与研究热点。方法:运用TDA软件,利用文献统计分析、关键词共现分析的方法揭示研究热点。结果:国际人工智能领域文献量呈上升趋势,其中美国发文量排名第一,中国位居第六。人工智能的主研究领域包括计算机科学、工程学、自动化与控制系统3个学科。研究热点为遗传算法、神经网络和机器学习。结论:新世纪国际人工智能研究涉及多个学科,研究热点集中在知识获取、知识表示和问题求解3个宏观层面,神经网络、遗传算法和机器学习是研究者们关注的核心。  相似文献   

15.
本文通过实验比较了互信息、χ2统计算法和优势率三种算法在用于局部文本特征选取时对文本分类性能的影响.实验结果显示,在应用于局部特征选择的情况下,文本特征选取算法仍然可以将特征空间的维度降低90%以上,而不降低文本分类的性能.同时,我们发现在应用于局部文本特征选取时,优势率算法的性能不如互信息和χ2统计算法.另外,对于K最近邻分类算法,随着K值的增大,文本分类的查准率在增加,而查全率在降低.最后,本文详细分析了造成这三种算法性能差异的原因,并提出了一种改进算法,来提高优势率算法应用于局部文本特征选取时的性能.  相似文献   

16.
本文创新性构建学术论文被引影响因素特征空间,以我校SCI&SSCI学术论文为例,验证机器学习模型在预测学术论文被引频次研究中的有效性和准确性,本文的分析结论可以为高校图书馆开展决策支持服务提供参考。本文梳理学术论文被引频次影响因素及预测方法的相关研究,结合传统文献计量和Altmetrics指标构建学术论文影响因素的特征空间,并通过实验比较线性回归、神经网络、支持向量机三种机器学习模型在预测学术论文被引频次研究中的有效性和准确性。本文的分析结论证明基于Altmetrics视角构建的特征空间的预测准确率大幅度提高,并且支持向量机模型在对学术论文影响力预测的实证研究中表现出优异的性能。  相似文献   

17.
美国iSchool图书情报学人才培养模式的特点与启示   总被引:1,自引:0,他引:1  
[目的/意义]了解美国iSchool 图书情报学人才培养模式的现状,为国内图书情报学人才培养模式的改革提供借鉴。[方法/过程]对美国排名前15的iSchool院校进行网络调研,从培养目标、培养内容、培养方式以及人才培养评估4个方面对其图书情报学人才培养模式进行调查分析。[结果/结论]美国iSchool旨在培养学生掌握学科基础知识、基本技能、信息技术以及提升其学习与研究能力;其核心课程类别设置广泛,涉及基础课程、信息技术、研究方法及跨学科课程等方面;人才培养方式多样化,包括学位教育、认证、双学位、辅修等多种方式;认证协会、排名机构与学院重视对人才培养质量的评估。美国iSchool人才培养模式对我国的图书情报学人才培养具有重要启示。  相似文献   

18.
丁亮  李颖  何彦青 《情报工程》2016,2(4):080-088
统计机器翻译常常面临训练数据与待翻译文本领域不一的问题,从而影响了翻译的性能,因此领域自适应一直是研究者关注的课题。本文以传统自适应方法和现行的机器学习方法为框架,介绍了近年来统计机器翻译领域自适应研究的进展。分析了各类研究方法的优缺点并对未来研究做出展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号