共查询到19条相似文献,搜索用时 359 毫秒
1.
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。 相似文献
2.
3.
书面汉语自动分词的“生成——测试”方法 总被引:6,自引:0,他引:6
词链现象是书面汉语自动分词的困难所在, 本文针对词链现象的复杂性, 提出了一种“生成—测试”分词法。这种方法以知识为基袖, 它通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现了词链的有效切分和汉语句子切分与理解(生成格结构)的并行。“生成—测试”方法反映了人的分词和理解过程。 相似文献
4.
针对直线生成算法在直线斜率大于0.5时的低效率问题,提出一种基于像素链排序的直线绘制算法。将直线看做是由许多条平行像素链或对角像素链拼接而成,利用逆向生成直线的类Bresenham算法求得各像素链的长度,通过Bresenham算法生成相应直线的位移码对各像素链进行排序,一次判断生成一条像素链。仿真实验表明,基于像素链排序的直线绘制算法生成的直线与Bresenham算法生成的直线精度一致,且计算量显著减少。该算法只有加法和乘法两种整数运算,适合硬件实现,其绘制速度是Bresenham算法的4倍。 相似文献
5.
基于粗糙集合理论的决策树生成 总被引:4,自引:1,他引:3
决策树算法是一种采用发治策略的自顶向下的归纳算法,传统的决策树算法往往是基于信息论度量的。文章以粗糙集合理论中的区分观点为基础,提出了两种新型的属性选择判据:区分度和区分价值。实验结果表明,采用区分价值的属性选择策略所生成的决策树要明显优于基于熵的属性选择策略。 相似文献
6.
本文针对缓冲区生成过程复杂,结果不稳定的特点,提出了以线段缓冲区为基础逐扩展到各类要素的算法,在增加缓冲生成可靠程度和筒化算法方面进行了初步探讨。 相似文献
7.
基于人工免疫原理的NIDS系统和有关算法设计 总被引:7,自引:0,他引:7
给出一种基于人工免疫原理的网络入侵检测系统(NIDS)模型.它以频繁序列模式为基础建立自体模式集和异己模式集,随后给出了一种有效的模式编码算法.在这种编码基础上文章提出一种用于检测器生成的集否定选择和克隆选择为一体的算法.最后给出算法复杂性分析。 相似文献
8.
9.
10.
基于像素链的直线绘制算法 总被引:1,自引:0,他引:1
针对直线生成算法在直线斜率大于0.5时的低效率问题,提出一种基于像素链的直线绘制算法。将直线看做是由许多条平行像素链或对角像素链拼接而成,提出并利用逆向生成直线的类Bresenham算法,将斜率在0.5~1的直线绘制转换为斜率在0~0.5的直线绘制,一次判断生成一条像素链。仿真实验表明,基于像素链的算法生成的直线与Bresenham算法生成直线一致,且计算量显著减少。该算法只有加法和乘法两种整数运算,适合硬件实现,其绘制速度是Bresenham算法的4倍。 相似文献
11.
文本聚类算法面临着文本向量高维和极度稀疏的问题,传统降维方法多数是在假设关键词相互独立的前提下,通过统计的方法进行特征提取,这种方法往往忽略了文本在上下文语境中的语义关系,导致文本语义大量丢失。利用《知网》知识库,通过计算语义类相似度,构建了带权值的多条词汇链,根据权值大小,从中选取权值最大和次大的前两个词汇链组成代表文本的关键词序列,在此基础上提出了基于主题词汇链的文本聚类算法—TCABTLC,不但可以解决文本向量高维和稀疏导致的聚类算法运行效率低的问题,而且得到了较好的聚类效果。实验表明,在保持较好准确率下,该聚类算法的时间效率得到了大幅度提高。 相似文献
12.
基于词汇链的中文短信主题语句抽取方法 总被引:1,自引:0,他引:1
提出一种基于词汇链的中文短信文本主题的抽取方法。该方法首先通过构造多条词汇链来表达短信文本的叙事线索,并从多条词汇链中抽取出富含主题信息的词汇链,将其作为构造短信文本主题语句的关键词序列。实验表明该方法抽取的短信文本主题能够更全面地覆盖短信文本的信息,并能消除多个关键词序列表达同一主题信息的冗余。其效果明显优于采用统计信息进行短信文本主题抽取的方法。 相似文献
13.
14.
提出一种基于词汇链的判断变异垃圾短信方法。该方法通过构造多条词汇链来表达短信文本的叙事线索,再从多条词汇链中抽取出富含内容信息的词汇链,同时消除了多个关键词序列表达同一内容信息的冗余;将构造的词汇链作为短信文本的信息相互进行比较,以对变异的垃圾短信信息进行识别。实验结果表明,该方法能较准确地识别垃圾短信的变异信息。 相似文献
15.
一种基于词汇链的关键词抽取方法 总被引:26,自引:6,他引:26
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。 相似文献
16.
IDO DAGAN JOHN JUSTESON SHALOM LAPPIN HERBERT LEASS AMNON RIBAK 《Applied Artificial Intelligence》2013,27(6):633-644
We describe a syntactically based salience algorithm for pronominal anaphora resolution and a procedure for reevaluating the decisions of the algorithm on the basis of statistically modeled lexical semantic/pragmatic preferences. We report the results of an extensive blind test of both systems on computer manual text. We discuss the implications of these results for the comparative roles of syntactically defined salience and statistically measured lexical preference in determining the references of pronouns in text. 相似文献
17.
基于词汇链的中文新闻网页关键词抽取方法 总被引:1,自引:0,他引:1
词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索。文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法。该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词。对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量。 相似文献
18.