首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综合TF-IDF、TextRank、统计学知识抽取关键短语的方法和利用候选关键短语逆向文档频率排序的方法。该方法在TextRank基础上,通过TF-IDF引入词的文本集合信息计算词之间权重得到词的得分。然后利用统计学知识从上一步选出词组成的短语筛选出候选关键短语。最后利用逆向文档频率的思想对候选关键短语排序。实验证明,该模型相比于经典TextRank模型准确率提高了2%,召回率提高了4.5%,F-measure提高了3.4%。  相似文献   

2.
针对词汇语义的差异性对TextRank算法的影响进行了研究,提出一种基于词向量与TextRank的关键词抽取方法。利用FastText将文档集进行词向量表征,基于隐含主题分布思想和利用词汇间语义性的差异,构建TextRank的转移概率矩阵,最后进行词图的迭代计算和关键词抽取。实验结果表明,该方法的抽取效果相比于传统方法有明显提升,同时证明利用词向量能简单而有效地改善TextRank算法的性能。  相似文献   

3.
《计算机工程》2017,(8):219-224
为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句。实验结果表明,该方法的抽取效果优于基于词频-逆文档概率和新闻标题的主题句抽取方法。  相似文献   

4.
杨玥  张德生 《计算机科学》2017,44(Z11):432-436
在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,每天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在传统关键词提取算法中,通常忽略了两个重要的方面:词语长度和文本主题。针对以上两方面问题,提出了提取中文文本的主题关键短语技术。将LDA主题模型与频繁短语发现算法相结合,生成不同长度的频繁候选短语;然后,利用所提的完整性筛选和排序函数对候选短语进行筛选和排序;最后,根据排序结果选择最终的主题关键短语。  相似文献   

5.
针对从自然标注大数据中抽取历史沿革主题信息的问题,提出了一种融合PAM主题模型与主题偏好TextRank的方法。该方法利用PAM主题模型获取历史沿革主题基于其它相关主题的分布,和不同主题基于词的分布;主题偏好TextRank算法则根据PAM所获得的主题和词的分布,在随机游走的过程中更加偏好于与历史沿革主题相关度大的结点,从而更有利于抽取历史沿革主题信息。因历史沿革主题特征复杂,与其它主题关联度大,词项本身是否表达历史沿革主题信息也并不明确,因此PAM即可以获取基于词空间的分布,又可以获取基于主题分布,对解决这类问题有很大的帮助。利用已获取的主题信息,主题偏好TextRank算法偏向于与历史沿革主题相关的结点进行随机游走,使得抽取结果趋向于历史沿革主题,从而提高了抽取的准确性。实验结果表明,该方法在抽取历史沿革主题信息上更有效。  相似文献   

6.
尹红  陈雁  李平 《中文信息学报》2019,33(11):107-114
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。  相似文献   

7.
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。  相似文献   

8.
在文本特征选择中,由于词语概率空间和词义概率空间的差异,完全基于词语概率的主题特征往往不能很好地表达文章的思想,也不利于文本的分类。为达到主题特征更能反映文章思想这一目的,提取出一种基于词义降维的主题特征选择算法。该算法通过在词林基础上构建"同义词表",作为词到词义的映射矩阵,构造一个基于词义之上的概率分布,通过LDA提取文本特征用于分类,分类准确率得到了明显提高。实验表明,基于此种方法所建立的主题模型将有更强的主题表示维度,通过该算法基本解决文本特征提取中词语概率和词义概率之间差异的问题。  相似文献   

9.
关键词提取在自然语言处理领域有着广泛的应用,如何准确、快速地从文本中获取关键词信息已经成为文本处理的关键性问题。现有的关键词提取方法很多,但是这些关键词提取方法的准确率和通用性有待提高。因此,提出了一种改进的TextRank关键词提取方法,该方法使用TF-IDF方法与平均信息熵方法计算文本中词语的重要性,然后根据计算结果得到词语的综合权重。利用词语的综合权重改进TextRank算法的节点初始值以及节点概率转移矩阵,通过迭代的方式计算各个节点的权重,直至收敛,从而得到词语的权重信息,选择top N个词语作为关键词输出,实现关键词的提取功能。实验结果表明,相较于传统的TF-IDF方法和TextRank方法,提出的改进后的TextRank关键词提取方法有更好的通用性,提取的关键词的准确率更高。  相似文献   

10.
为提升基于TextRank算法的关键词抽取效果,分析中文语义结构和分词算法的特点,提出一种融合语义依存和外部知识库的方法。使用语义依存图代替共现窗口构建词图,增强词图中各节点间的语义联系;在此基础上引入规范化谷歌距离和领域词典这两个外部知识库特征,结合文档内外部信息对词图中的边进行加权计算,对提取出的文档关键词应用前后向匹配算法做进一步处理,使提取的关键词更具语义完整性。实验结果表明,该方法在数据集上的关键词抽取效果有了显著提升,可读性更强,验证了所提方法的有效性。  相似文献   

11.
Systems and cybernetic methodology have traditionally drawn upon the concepts of analogy and metaphor. These are, however, contentious on both philosophical and practical grounds. The work we present in this paper mostly aims to overcome the philosophical difficulties by uncovering the basic principles of analogic modeling and by showing how these can complement inductive and deductive reasoning. Analogy and metaphor are then shown to be complementary and can be considered to be on one spectrum, from creative metaphor to the more formal approach of analogy. Contention on practical grounds is allayed as the role of analogy and metaphor in systems and cybernetic methodology is outlined.  相似文献   

12.
联系的概念,实现及其应用   总被引:2,自引:0,他引:2  
联系表示对象间的关系,对数据库及客观世界而言,是一种有很用的建模结构。  相似文献   

13.
用户和计算机间的人机交互(HCI)不再仅仅局限于通过键盘和屏幕实现,而是在被虚拟现实VR(Virtual Reality)所逐步取代。VR的影响跨越HCI,使得整个计算机系统发生了变化。但是,众多词汇和概念困扰着大家,诸如虚拟环境、虚拟世界、虚拟现实VR、增强现实AR(Augmented Reality)和混合现实MR(Mixed Reality)等。因此急需辨清,以便促进虚拟现实的发展与应用。分析虚拟现实的由来和内涵,对VR/AR/MR给以清晰的定义和界定。对VR/AR/MR的特点和用途、关键技术支持、相关的建模技术、软件设计与工程及若干应用等进行深入的剖析,并对虚拟现实的发展趋势、挑战与机遇进行了分析和探讨。  相似文献   

14.
超线程技术和双核技术是CPU发展历程中的重要技术。超线程技术把一个物理处理器模拟成两个虚拟的处理器,减少执行单元和一些资源的闲置时间,提高CPU的利用率。双核技术是将两个物理处理核心封装在一个CPU中,提高程序的执行效率。介绍CPU的基本模型,分析超线程和双核的技术原理,并从系统架构、并行程度和提升的效率三个方面比较它们的异同点。  相似文献   

15.
电力设备状态检修及计算机辅助分析预测   总被引:1,自引:0,他引:1  
以近年来我国电力企业设备检修实践为基础,从状态检修管理体制、人员素质和技术检测手段等几个方面阐述了在向状态检修模式迈进的历程中所采取的措施、设想和面临的困难及解决的思路,并论述了计算机技术在其中的应用。  相似文献   

16.
曲线曲面的形态算法及应用   总被引:3,自引:0,他引:3  
从积分几何中的概念出发,证明了凸体形态和运算的一个重要性质: F( S,u)= F( A,u) F( B,u),从而将两物体的形态和归结为法矢相同的点集的形态和,并提出法矢球的概念,将物体表面各点的法矢顺序对应至球,即得到该物体的唯一法矢球表示,通过对法矢球的合并,则得到两物体的形态运算结果,在理论上统一了二维、三维实体的形态运算,并给出二维、三维曲线、曲面的具体形态算法.此外还给出曲线、曲面形态算法的具体应用,如扫成曲面造型、字型合成、非刚体运动的广义内插等.  相似文献   

17.
介绍了一种数字认证签名算法,用该算法设计实现的系统可用于对抗信息的冒充、篡改、重发等攻击。  相似文献   

18.
需求分析与获取的方法学与技术   总被引:3,自引:0,他引:3  
本文给出需求工程的一般框架,在对需求分类的基础上主要讨论非功能性(即非行为性)需求,提出对软件需求规范和分析技术的要求,并强调对现有相关工作评价的其中两个方面。  相似文献   

19.
A step can be regarded as an elementary ordering of two objects (or operators). A step is a distinction combined with an action that crosses the boundary of that distinction. The elementary step can be seen as a reference, as a division of space or as a tick of a clock. By looking at the structure of a step, we provide a context that unifies specific aspects of special relativity, Laws of Form, topology, discrete physics and logic design.  相似文献   

20.
RLD演绎及子句蕴含与子句包含关系的非等价性   总被引:1,自引:1,他引:1  
软件复用的一个主要任务是可复用软件构件的表示与检索,由于一阶逻辑能够描述软件构件的计算语义,因此用一阶逻辑表示构件及用基于归结原理的自动定量证明技术检索构件的研究在软件工程领域得到了足够的重视,为了简化基于演绎的构件检索技术的程序设计结构及提高演绎效率,提出了最右线性演绎RLD(rightmost linear deduction),并证明了它的完备性,同时,指出了子句蕴含与子句包含关系的非等价性,并给出了由子句蕴含关系推出子句包含关系成立的一个充分条件。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号