首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
《计算机工程》2017,(7):217-222
传统人工抽取关键词耗时耗力,为了能自动从文档中抽取出高质量的关键词,提出一种关键词自动抽取方法。该方法基于文档和词语的主题信息并结合词语的统计特征为候选词语打分,最终选择TopK得分的候选词作为文档关键词。实验结果表明,该方法在准确率、召回率以及F值上均优于现有的基本关键词抽取方法,能有效从文档中抽取出关键词。  相似文献   

2.
为提高英语试题数字资源的检索效率,提出一项基于特征项权重评估模型的英语试题关键词抽取算法。该算法主要由词同现因子、词长因子、位置因子、词频因子和特征项权重调节系数所组成。为提高该算法的通用性水平,研究还通过遗传算法对该模型的权重调节系数进行训练,并将权值优化后的算法应用于全国大学生英语四级考试试题的关键词抽取实验中。实验研究发现,研究所提出的特征项权重评估模型算法在各类英语试题的关键词抽取中均取得了良好的应用效果,平均准确率、平均召回率和平均F-measure三个方面的指标均高于TF-IDF算法和KEA算法,具有一定的应用价值。  相似文献   

3.
针对LDA主题模型用于产品特征抽取中存在的问题,提出将句法分析和主题模型相结合的SA-LDA方法。首先基于句法分析对产品所在类别下的所有产品评论进行分析抽取显式特征,并聚类产生特征集和观点集,据此构建语料库。接着对待分析产品的每条评论,提取主观句并利用改进LDA模型对其主题进行学习,根据语料库构建must-link和cannot-link约束条件,在主题更新时对其进行约束和引导,每个主题对应一个特征类。实验表明,本文方法对显式特征和隐式特征都具有很好的实验效果,且相比传统的方法和其他改进方法在保证召回率的同时对准确率也有一定程度的提高。   相似文献   

4.
关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特征来全面考查关键词,有效地避免了传统关键词提取方法产生的偏差。实验结果表明,与传统方法相比,该方法在不同测试集上关键词提取的平均召回率均得到明显提升。  相似文献   

5.
针对TextRank算法在抽取篇章关键词时忽略句法信息、主题信息等问题,提出基于句法分析与主题分布的篇章关键词抽取模型(S-TAKE)。模型分为段落和篇章两阶段递进抽取篇章关键词,首先以段落为单位,结合词共现、语法及语义信息抽取段落关键词;然后根据段落主题对段落聚类,形成段落主题集;最后根据段落主题分布特征抽取篇章关键词。在公开的新闻数据集上,模型的抽取效果较原始TextRank提升了约10%。实验结果表明,S-TAKE的抽取效果有了明显提升,证明了语法信息及主题信息的重要性。  相似文献   

6.
自动关键词抽取研究综述   总被引:3,自引:1,他引:3  
赵京胜  朱巧明  周国栋  张丽 《软件学报》2017,28(9):2431-2449
自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多个方面研究了自动关键词抽取的理论基础.从宏观、中观和微观角度,回顾和分析了自动关键词抽取的发展、技术和方法.针对目前广泛应用的自动关键词抽取方法,包括统计法、基于主题的方法、基于网络图的方法等,总结了其关键技术和研究进展.对自动关键词抽取的评价方式进行了分析,对自动关键词抽取面临的挑战和研究趋势进行了预测.  相似文献   

7.
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法.该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略.首次提出了用支持向量机对最后的抽取结果进行优化.实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率.  相似文献   

8.
9.
一种基于复杂网络特征的中文文档关键词抽取算法   总被引:5,自引:0,他引:5  
关键词抽取是自然语言理解领域中的重要技术之一.本文研究汉语语言所组成的自然语言网络中的复杂网络特性,并根据语言网络中的"小世界"特性和近两年复杂网络研究中部分新的理论成果,提出基于复杂网络特征的中文文档关键词抽取算法.该算法根据文档语言网络中单词结点的复杂网络特征值进行关键词抽取.实验结果表明,本文算法抽取关键词所获得的平均准确率要高于TFIDF关键词抽取算法所获得的平均准确率.  相似文献   

10.
Tag-TextRank:一种基于Tag的网页关键词抽取方法   总被引:5,自引:0,他引:5  
关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题上相关的网页使用同样的标签词,一个特定的文档可以通过其标注信息找到相关文档.在此基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank.该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的推广性.  相似文献   

11.
尹红  陈雁  李平 《中文信息学报》2019,33(11):107-114
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。  相似文献   

12.
在领域主题爬虫中,为提高网页爬取的效率和准确性,将扩展主题特征库(extended topic feature library,ETFL)引入进爬虫的网页过滤算法中。将网页抽象为标签块节点集,通过主题特征库扩展算法对静态特征项进行扩充生成扩展主题特征库,利用网页主题特征项提取算法从页面中抽取出特征项,在爬虫抓取网页的过程中,通过基于扩展主题特征库的网页相关性判断方法对页面进行过滤。该算法弥补了传统的基于静态关键词项的网页过滤算法对页面语义层次处理的缺失。实际项目运行结果表明,在领域主题爬虫中引入扩展主题库能够有效提高网页抓取精度,具有较高可用性。  相似文献   

13.
面向文本的关键词自动提取一直以来是自然语言处理领域的一个关键基础问题和研究热点.特别是,随着当前对文本数据应用需求的不断增加,使得关键词提取技术进一步得到研究者的广泛关注.尽管近年来关键词提取技术得到长足的发展,但提取结果目前还远未取得令人满意的效果.为了促进关键词提取问题的解决,本文对近年来国内、外学者在该研究领域取得的成果进行了系统总结,具体包括候选关键词生成、特征工程和关键词提取三个主要步骤,并对未来可能的研究方向进行了探讨和展望.不同于围绕提取方法进行总结的综述文献,本文主要围绕着各种方法使用的特征信息归纳总结现有成果,这种从特征驱动的视角考察现有研究成果的方式有助于综合利用现有特征或提出新特征,进而提出更有效的关键词提取方法.  相似文献   

14.
相对位姿测量是空间非合作目标态势感知的主要内容,在位姿测量中,需要先对目标图像进行特征提取,而特征提取的精度和鲁棒性直接影响位姿测量性能。为了提高空间非合作目标特征提取的鲁棒性,本文给出一种基于线段融合的特征提取算法。该算法首先采用基于梯度的滤波器来消除空间目标图像的背景干扰,然后采用LSD直线检测算法、Hough Lines直线检测算法和Shi-Tomasi角点检测算法提取三组特征点,再用K-D空间划分树以及K最近邻搜索算法融合这三组特征点,保留包含显著特征的较少数量特征点,进一步组合成线段结构,并对线段进行融合,以此来提取反映目标整体几何框架的信息,从而提升稳健性。仿真实验和半物理仿真实验测试结果表明,本文提出的基于线段融合的特征提取方法在空间目标特征提取中具有更好的稳健性。  相似文献   

15.
束珏  成卫青  邓聪 《计算机应用》2016,36(2):460-464
针对微博聚类正确率不高的问题,在研究微博数据特点的基础上,利用微博hashtag来增强向量空间模型,使用微博之间的转发关系提升聚类的准确性,并利用微博的转发、评论数以及微博发布者信息来提取聚类中的主题词。在新浪微博数据集上进行实验发现,与k-means算法和基于加权语义和贝叶斯的中文短文本增量聚类算法(ICST-WSNB)相比,基于话题标签和转发关系的微博聚类算法的准确率比k-means算法提高了18.5%,比ICST-WSNB提高了6.48%,召回率以及F-值也有了一定的提高。实验结果表明基于话题标签和转发关系的微博聚类算法能够有效地提高微博聚类的正确率,进而获取更加合适的主题词。  相似文献   

16.
刘忠宝 《计算机应用》2013,33(5):1432-1455
当前主流特征提取方法主要从全局特征或局部特征出发实现降维。为了能充分反映样本的全局特征和局部特征,提出基于图的人脸特征提取方法。该方法首先通过对训练样本进行学习得到最佳投影方向,该方向保证投影后的样本类内紧密而类间松散;然后将测试样本映射到最佳投影方向上并利用最近邻分类器进行样本类属判定。标准人脸库上的比较实验结果证明了所提方法的有效性。  相似文献   

17.
18.
基于机器学习的网页主题词自动抽取   总被引:2,自引:0,他引:2  
主题词在信息处理和信息检索过程中有广泛的用途,然而大量网页没有主题词,手工抽取主题词是一个繁重的过程,可以将主题词自动抽取看作是分类问题,充分利用网页的结构信息并且使用有监督的机器学习方法来自动地抽取网页中的主题词,试验结果表明该算法具有实用的价值。  相似文献   

19.
针对现有的基于图的关键词提取方法未能有效整合文本序列中词与词之间的潜在语义关系的问题,提出了一个融合词向量与位置信息的基于图的关键词提取算法EPRank。通过词向量表示模型学得目标文档中每个词的表示向量;将该反映词与词之间的潜在语义关系的词向量与位置特征相结合融合到PageRank评分模型中;选择几个排名靠前的单词或短语作为目标文档的关键词。实验结果表明,提出的EPRank方法在KDD和SIGIR两个数据集上的各项评估指标均高于5个现有的关键词提取方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号