排序方式: 共有79条查询结果,搜索用时 15 毫秒
41.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法. 相似文献
42.
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。 相似文献
43.
[目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。[方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数据集。分别基于传统机器学习模型、神经网络分类工具以及预训练语言模型构建分类器识别研究流程段落,然后对不同模型的分类效果进行评估,确定性能最优的模型。为进一步提升研究流程段落识别效果,在最优模型的基础上,基于ChatGPT进行了数据增强。[结果/结论]实验结果表明,在所有分类器中,SciBERT具有最好的研究流程段落识别效果。基于ChatGPT的数据增强可使SciBERT模型的分类性能进一步提高,最终准确率(Acc)和F1值分别达到了0.9414和0.9409。 相似文献
44.
利用语料库、释义词典、用户检索日志作为识别相关词的语境,设计并实现相关词自动提取系统。实验结果表明,虽然面向相同的基本词汇集合,但是基于不同语境提取的相关词之间的重复率很低,各个结果间的互补性很强,说明结果整合非常有必要。在本系统中,通过直接整合途径构建最后的相关词词表。 相似文献
45.
首先分析相关应用案例,说明多语言领域本体在数字图书馆领域的潜在应用价值,然后阐述数字图书馆环境下多语言领域本体学习的特点,由此给出面向数字图书馆应用的多语言领域本体学习基本框架,接着说明其中涉及到的若干关键技术与本课题组的相关研究工作,最后对未来的研究提出展望. 相似文献
46.
海量的在线评论表达了用户对于图书整体及其内容、印刷等属性的观点与态度,能够反映图书的影响力。文章对图书在线评论进行多层次细粒度挖掘从而评价图书影响力。首先获取图书的在线评论数据,然后细粒度挖掘图书评论以获取评价指标,并且通过比较多个文本表示方法及构建领域情感词典提高指标挖掘的性能,最后整合评价指标获取图书影响力结果。实验结果表明,虽然存在学科差异,但是图书的在线评论可以作为图书影响力评价的有效资源。此外,在研究语料中,基于One-hot文本表示方法的评论情感判断性能优于基于主题模型与基于深度学习的方法,同时,考虑模糊情感词的情感词典能够有效提升情感判断的性能。 相似文献
47.
基于集成学习的自动标引方法研究 总被引:1,自引:0,他引:1
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果. 相似文献
48.
常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题.因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性.本文以图书情报档案学科为例,依据学科学术论文全文,从主题角度对学术论文集合进行全面分析,即:采用主题聚类方法,对包括时间信息的学科学术全文进行主题分析与主题聚类,归纳出某一特定学科的研究热点和这些热点的发展趋势.实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善. 相似文献
49.
文本聚类结果描述研究综述 总被引:1,自引:0,他引:1
章成志 《现代图书情报技术》2009,3(2):1-8
首先对文本聚类结果描述的研究背景和相关的研究情况进行说明,分析自动标引、自动文摘、概念聚类与文本聚类结果描述的关系,定位文本聚类结果描述的研究内容;然后根据文本聚类结果描述的具体要求,对该问题进行形式化;最后给出文本聚类结果描述的评价方法。 相似文献
50.
传统的文献计量学主要基于题录数据展开研究,随着开放获取运动的推进,基于全文数据的文献计量学分析悄然兴起,出现全文引文分析、知识实体抽取、语篇结构功能分析等研究热点。文章从数据基础、研究内容、流程方法3个角度系统阐述全文计量分析的范式和框架。在数据方面,通过回顾分析对象从题录数据到全文数据的变化,展现文献计量学由外在关联到内在本体的演化。在内容方面,选取语词、语句和语篇等不同层面的研究热点,对近年该领域的国内外研究进展和前沿问题进行综述。在方法方面,总结文本分析(包括计算语言学、社会语言学)和计量分析(包括加权分析、序列分析)两类主要的分析范式。 相似文献