首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

2.
[目的 /意义]探索融合引用和文本特征的专利技术创新路径识别分析方法,有助于规避技术创新风险、优化选择技术创新路径,对提升创新主体的创新能力,促进现代产业发展,布局科技前沿发展战略等具有重要的意义。[方法 /过程]首先基于Node2Vec模型和Doc2Vec模型将专利引用和文本数据表示学习为可计算的高维向量;然后利用LDA主题模型进行技术主题识别并结合T-SNE算法降维,添加时间维度构建初始技术创新路径;最后,在专利引用和文本特征向量表示结果基础上,开展向量融合拼接从而实现融合引用和文本特征的技术创新路径识别。[结果 /结论 ]通过对超级电容器领域的实证,验证提出的融合引用和文本特征的的技术创新路径识别方法能够从特定领域专利文献中高效、准确地识别专利技术创新路径,证明方法的可行性和有效性。  相似文献   

3.
[目的/意义]衍生性网络健康谣言生成门槛低,周期性强,危害影响深远,是网络健康谣言识别与治理中需要优先解决的重点问题之一,也是重要突破口。[方法/过程]借助深度语义表征和聚合方法,探索衍生性网络健康谣言文本内容的六要素特征;通过结合网络健康谣言的分布式语义特征预训练模型,构建包括六个类别、6287个词汇的网络健康谣言文本内容要素词库;在将健康谣言标题特征、内容文本六要素特征以及主体内容文本特征进行统一的向量空间表示与融合后,构建面向多源文本特征融合的网络健康谣言识别模型。[结果/结论]模型的实证研究表明:与已有的对照模型相比,本文所提出的文本特征融合模型使衍生性网络健康谣言识别的准确率有较好的提升,且丰富的可拓展健康谣言要素词库可为后续的研究提供较好的资源支持。  相似文献   

4.
[目的/意义]为识别并去除非理性投资者的网络评论,提升评论的专业程度与质量,促进理性投资,本文以识别股吧中的用户是否属于噪声投资者为研究任务,进行用户画像。[方法/过程]对股吧的用户发文内容进行深度用户表示学习(deep user representation learning),结合股吧用户的粉丝数量、影响力、关注量、自选股、吧龄、发帖量、评论量、访问量等行为特征,提出一种行为-内容融合模型(behaviour and content combined model,BCCM),并在标注数据集上进行实证与对比研究。[结果/结论]实验结果显示,该模型对噪声投资者识别的F1值为79.47%,优于决策树方法(69.90%)、SVM方法(75.61%)、KNN方法(73.21%)和ANN方法(74.83%)。在噪声投资者识别这一特定用户画像研究任务中,通过利用深度用户表示学习引入文本内容特征,能够显著提升用户画像的各种评价指标。  相似文献   

5.
[目的/意义] 在"新冠"疫情这类突发公共卫生事件中,网络社交媒体上迅速产生大量关于疫情的言论,其中包含不少蓄意传播的谣言,不仅危害公众心理健康,而且会影响应对公共卫生事件的方案实施。识别突发公共卫生事件的谣言能够使民众正确面对危机,为社会安定、网络治理起到积极的维护作用。[方法/过程] 首先对采集到的疫情期间已被证实的谣言进行深度分析,提取谣言文本的主要特征,包括上下文特征、话题类别特征、情感程度特征、关键词特征等;然后针对文本分类模型中的文本特征表达较为单一的问题,利用不同的模型对提取的谣言文本特征进行向量化,并对各类文本特征进行加强和融合。其中通过TF-IDF计算的词向量权重在捕获上下文特征的同时,能够加强词粒度的关键词特征信息。最后,使用BiLSTM+DNN模型对融合的特征向量进行分类判别。[结果/结论] 实验结果表明,话题类别、情感程度等特征对谣言识别均有贡献,特别是经过强化后的词向量与其他特征融合后对识别准确率有明显提升,召回率、F1值等指标均达到90%以上,效果超过其他的谣言识别模型,说明笔者所构建的方法能够很好地实现对突发公共卫生事件背景下的谣言识别。  相似文献   

6.
[目的/意义]面向专利文本进行更细粒度的技术实体识别和技术预测,利于更详细地把握专利技术布局与趋势。[方法/过程]首先利用深度学习方法自动识别专利技术术语类实体,通过实验对比多组深度学习算法的优劣。其次,提出新的半监督标注和自定义标注方案,提高人工标注效率。最后,执行训练得到的最优模型,结合链路预测方法,对合成生物技术进行细粒度的技术预测。[结果/结论]实证结果表明RoBERTa-BiLSTM-CRF模型更适用于语义复杂的专利技术实体识别,F1值可达到86.8%,技术识别结果比传统IPC分析方法更精细。同时,细粒度的技术预测结果表明,合成生物学的合成方法在不断改进创新,合成物研究向合成燃料发展。  相似文献   

7.
[目的/意义]作者身份识别是语言文体学的重要研究方向,利用文本特征的身份识别也是文本挖掘的重要任务。在开放和虚拟网络环境下海量信息的作者身份或发布者的识别难题和传统作者身份识别方法在处理效率和成本等方面存在的问题有待解决。[方法/过程]将复杂网络理论引入该研究领域,在利用传统文体学特征识别作者身份方法的基础上结合文本词共现网络模型及其指标特征改进相关算法,使用文本文体学特征和文本网络模型度量指标构建作者风格特征集合,通过计算文本间风格相似度进行作者识别。[结果/结论]基于复杂网络模型的作者身份识别方法可以有效的利用作者风格特征,提高识别的精度,与其他算法的对比试验表明其识别结果的准确性更高。  相似文献   

8.
[目的/意义] 从学术文本词汇功能的角度出发,考虑科研文献中词汇的语义功能,设计和实现一个基于词汇功能识别的科研文献分析系统,在一定程度上弥补现有科研文献分析系统的不足之处。[方法/过程] 首先阐述学术文本词汇功能的定义及其识别研究的现状进展;在此基础上,对系统思路、功能模块进行设计;最后,选取1994-2013年CNKI中计算机领域的文献作为数据来源,实现一个基于词汇功能识别的科研文献分析系统CS-LAS。[结果/结论] CS-LAS可以满足科研工作者更为细粒度的信息需求,对于传统学术数据库的检索结果有一定的优化,同时实现对某一学科的研究热点和研究趋势的合理把握和可视化呈现。  相似文献   

9.
[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取"关键词类"特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。  相似文献   

10.
[目的/意义]本文通过对2019年国际数字图书馆联合会议(Joint Conference on Digital Library,JCDL)的录用论文进行整体回顾,梳理了本届年会的最新研究成果与学科发展动态,以助国内图情领域学者更好地了解本届年会成果,把握国际数字图书馆领域研究的前沿热点问题。[研究设计/方法]采用文献综述的方法进行研究。[结论/发现]本届年会更加关注数字图书馆如何通过多源数据的融合、数字人文馆藏资源的利用等实现信息服务深度融合;数字图书馆如何通过海量大数据挖掘与利用、用户行为分析提升其服务水平;如何通过对学术文本资源深入挖掘,实现信息计量学在学术评审、学术评价等方面的创新应用。[创新/价值]本文揭示了国际数字图书馆领域的最新发展态势,展望了未来数字图书馆领域的学术前沿方向。  相似文献   

11.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

12.
[目的/意义]如何理解新手在与学术数据库交互过程中其心智模型的演进过程和学习模式是值得关注的问题,探究任务类型对学术数据库新手用户心智模型和学习模式的影响能够更好地帮助用户使用学术数据库。[研究设计/方法]本研究通过77位新手用户参与完成三种不同类型的任务(事实型搜索、探索型搜索和干涉型搜索)前后分别绘制的中国知网概念图的实验,对概念图的结构差异和内容差异进行分析,探讨不同任务情境下学术数据库新手心智模型的演进规律及学习模式。[结论/发现]研究表明用户信息搜索前后心智模型的演进模式受到任务类型的驱动,呈现出不同的概念图结构和维度内容;用户在不同任务的搜索前后均进行了学习行为,但学习模式存在差异,大多数新手用户在事实型任务和干涉型任务搜索后进行了有意义的学习,而在探索型任务搜索后用户进行了初步学习。[创新/价值]从任务类型的影响视角丰富了“搜索即学习”中的新手用户心智模型和学习模式的研究内容,有利于信息专业人员为新手开展信息检索技能培训和优化检索系统设计。  相似文献   

13.
[目的/意义] 对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型。[方法/过程] 以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对比文件的检索问题转化为判断其是否相关的分类问题。[结果/结论] 研究结果表明,不同字段数据对分类效果的贡献不同,其中说明书字段的准确率、召回率和F1值分别为79%、48%和59%,并且多特征集成后的分类效果显著优于单一文本相似度的结果,最后对实验错分情况进行分析,指出本研究下一步的研究方向。  相似文献   

14.
[目的/意义]学术社交网络所提供的问答服务已成为学者们快速获取学术信息、解决学术问题的重要途径,实现基于机器学习的问答质量智能评价和服务优化对学术社交网络中优质内容传播具有重要意义。[方法/过程]以ResearchGate问答服务为研究对象,从结构化特征、内容特征、其他特征以及回答者特征4个维度构建答案质量评价体系,利用机器学习方法和数据增强技术进行答案质量分类预测。[结果/结论]SMOTE算法在处理不平衡样本时具备有效性;支持向量机在单一模型预测中,取得出色的分类效果;组合模型使预测精度得到进一步提升,基于随机森林、支持向量机、BP神经网络构建的组合模型分类性能最佳,以此为基础可通过搭建问答质量智能评价系统实现学术社交网络问答服务优化。  相似文献   

15.
[目的/意义]从全文本内容分析的角度对算法的学术影响力进行分析。[方法/过程]以自然语言处理领域十大数据挖掘算法使用为例,分析不同算法在特定领域的影响力。通过对1965年-2006年间发表的自然语言处理领域10 922篇学术论文的调研,从其全文内容中抽取6 001条包含十大数据挖掘算法的句子(简称算法句);针对算法句从提及论文数、总提及次数、提及位置等3个方面,对不同算法的影响力进行比较分析。[结果/结论]以不同特征作为影响力衡量标准,十大数据挖掘算法在自然语言处理领域学术论文中的影响力有明显区别,在基于论文数、提及数和提及位置的评估标准中,SVM算法表现出较高的影响力,Apriori算法的影响力则明显低于其他算法。本研究为量化评估算法的影响力提供了新思路。  相似文献   

16.
[目的 /意义]将海量学术文本观点提取工作由人工转向机器,提高效率的同时又能够保证观点提取的准确性、客观性。[方法 /过程]使用UniLM统一语言预训练模型,训练过程中对模型进行精调,以人工标注数据集进行机器学习。将学术文摘作为长度为a的文本序列,经过机器学习,生成长度为b的句子序列(a≥b),并且作为学术论文观点句输出。[结果 /结论 ]研究结果表明:UniLM模型对于规范型文摘、半规范型文摘、非规范型文摘观点生成精准度分别为94.36%、77.27%、57.43%,规范型文摘生成效果最好。将机器学习模型应用于长文本观点生成,为学术论文观点生成提供一种新方法。不足之处在于本文模型依赖文摘的结构性,对非规范型文摘观点生成效果有所欠缺。  相似文献   

17.
数字时代高校图书馆原文查证服务调研与探索   总被引:1,自引:0,他引:1  
[目的/意义]近年频频出现因图书馆未能获取有效查证文献源而无法及时为读者提供原文证明的现象,探索研究数字时代图书馆原文查证服务改革创新,有利于与时俱进融合传统纸版及数字出版查证文献源,解决现代高层次读者学术成果认证的燃眉之急,提高读者需求满足率。[方法/过程]调研国内27家大型图书馆原文查证服务情况,结合华南理工大学图书馆相关业务现状,在传承正式纸本为原文查证文献源的基准上,研究数据库、馆际传递原文和在线原文等数字文献的查证策略,探讨数字时代高校图书馆原文查证制度与服务机制。[结果/结论]探索、实施和推广数字时代多类型文献的原文查证模式以及时满足读者学术成果认证的需求,应作为现代图书馆原文查证的基本制度。提出原文查证服务机制,如设立图书馆首问责任制,积极开展图书馆联盟之间、查证图书馆与学术管理机构等的协同联动业务,简化优化读者服务模式,以客观如实反映为原则,利用多层次原文核查规程,一站式提供现代学术新环境下的高校原文查证服务。  相似文献   

18.
[目的/意义]深入挖掘和准确理解中国大学生日常网络行为模式,不仅对促进用户行为和检索领域的发展具有巨大的理论意义,而且在提升面向大学生用户的企业个性化服务与信息推荐能力方面也具有潜在的社会价值和实践意义。[方法/过程]提出一种基于大规模日志分析的大学生用户行为模式识别新方法,该方法包括一种基于深度学习和文本分析技术的半监督学习算法"MaxMatching"以及混合两种特征熵(香农熵与真实熵)的聚类模型。[结果/结论]实证结果表明本方法不仅在算法和结果解释上具有一定的优势,而且能从网络使用能力、访问时序性和主题倾向性三方面归纳与呈现中国大学生网络行为全方位模式。该方法和结论有效地拓展了信息检索领域查询项的语义化理解方面的方法体系,也为企业提升面向大学生用户的个性化信息推荐服务提供一定的参考和可行性意见。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号