首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 359 毫秒
1.
蒋效宇 《计算机工程》2012,38(3):183-186
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。  相似文献   

2.
现有的表格识别算法速度较慢,且仅能容忍表格线的微小断线,文章给出了基于顶点链编码的表格单元格矩形识别算法,利用边界标定自动机,标定表格单元格内环边界并生成顶点链编码,利用顶点链编码特性,有效地去除表格框线上的锯齿,修复断裂的框线,通过搜索单元格矩形4个角的顶点链编码来获得表格单元格的矩形区域。实验证明本算法具有速度快、鲁棒性高、抗表格框线断裂等优点。  相似文献   

3.
书面汉语自动分词的“生成——测试”方法   总被引:6,自引:0,他引:6  
词链现象是书面汉语自动分词的困难所在, 本文针对词链现象的复杂性, 提出了一种“生成—测试”分词法。这种方法以知识为基袖, 它通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现了词链的有效切分和汉语句子切分与理解(生成格结构)的并行。“生成—测试”方法反映了人的分词和理解过程。  相似文献   

4.
针对直线生成算法在直线斜率大于0.5时的低效率问题,提出一种基于像素链排序的直线绘制算法。将直线看做是由许多条平行像素链或对角像素链拼接而成,利用逆向生成直线的类Bresenham算法求得各像素链的长度,通过Bresenham算法生成相应直线的位移码对各像素链进行排序,一次判断生成一条像素链。仿真实验表明,基于像素链排序的直线绘制算法生成的直线与Bresenham算法生成的直线精度一致,且计算量显著减少。该算法只有加法和乘法两种整数运算,适合硬件实现,其绘制速度是Bresenham算法的4倍。  相似文献   

5.
基于粗糙集合理论的决策树生成   总被引:4,自引:1,他引:3  
决策树算法是一种采用发治策略的自顶向下的归纳算法,传统的决策树算法往往是基于信息论度量的。文章以粗糙集合理论中的区分观点为基础,提出了两种新型的属性选择判据:区分度和区分价值。实验结果表明,采用区分价值的属性选择策略所生成的决策树要明显优于基于熵的属性选择策略。  相似文献   

6.
王亮 《遥感信息》1998,(A00):26-29
本文针对缓冲区生成过程复杂,结果不稳定的特点,提出了以线段缓冲区为基础逐扩展到各类要素的算法,在增加缓冲生成可靠程度和筒化算法方面进行了初步探讨。  相似文献   

7.
基于人工免疫原理的NIDS系统和有关算法设计   总被引:7,自引:0,他引:7  
给出一种基于人工免疫原理的网络入侵检测系统(NIDS)模型.它以频繁序列模式为基础建立自体模式集和异己模式集,随后给出了一种有效的模式编码算法.在这种编码基础上文章提出一种用于检测器生成的集否定选择和克隆选择为一体的算法.最后给出算法复杂性分析。  相似文献   

8.
组合测试数据生成的交叉熵与粒子群算法及比较   总被引:4,自引:0,他引:4  
测试数据生成是组合测试的一个关键问题.文中提出以数理统计为基础的交叉熵方法和以仿生学为基础的粒子群优化算法来生成两两组合测试数据,交叉熵方法采用最优选择概率产生测试数据,而粒子群算法则在可行解空间中搜索具有最优适应值的测试数据.文章给出了交叉熵方法最优选择概率的理论推导,并对两种算法所生成的测试数据集进行约简.将两种算法和现有的贪心方法、代数方法及其它启发式搜索方法进行比较,实验表明交叉熵方法和粒子群算法具有一定的优势和特点.  相似文献   

9.
针对无线传感器网络的特点,在研究LEACH协议的基础上,提出了一种新的优化的分簇多跳算法。该算法使用能量因子修正了LEACH协议中的的阈值,产生簇头。再将选好的簇头以距离最短为原则生成一条基站到各簇头的链,采集的数据在簇头融合后按生成的链以多跳的方式提交给基站。MATLAB仿真结果显示,该协议能有效地延长网络的稳定期。  相似文献   

10.
基于像素链的直线绘制算法   总被引:1,自引:0,他引:1  
朱晓林  蔡勇  张建生 《计算机应用》2011,31(4):1057-1061
针对直线生成算法在直线斜率大于0.5时的低效率问题,提出一种基于像素链的直线绘制算法。将直线看做是由许多条平行像素链或对角像素链拼接而成,提出并利用逆向生成直线的类Bresenham算法,将斜率在0.5~1的直线绘制转换为斜率在0~0.5的直线绘制,一次判断生成一条像素链。仿真实验表明,基于像素链的算法生成的直线与Bresenham算法生成直线一致,且计算量显著减少。该算法只有加法和乘法两种整数运算,适合硬件实现,其绘制速度是Bresenham算法的4倍。  相似文献   

11.
文本聚类算法面临着文本向量高维和极度稀疏的问题,传统降维方法多数是在假设关键词相互独立的前提下,通过统计的方法进行特征提取,这种方法往往忽略了文本在上下文语境中的语义关系,导致文本语义大量丢失。利用《知网》知识库,通过计算语义类相似度,构建了带权值的多条词汇链,根据权值大小,从中选取权值最大和次大的前两个词汇链组成代表文本的关键词序列,在此基础上提出了基于主题词汇链的文本聚类算法—TCABTLC,不但可以解决文本向量高维和稀疏导致的聚类算法运行效率低的问题,而且得到了较好的聚类效果。实验表明,在保持较好准确率下,该聚类算法的时间效率得到了大幅度提高。  相似文献   

12.
基于词汇链的中文短信主题语句抽取方法   总被引:1,自引:0,他引:1  
提出一种基于词汇链的中文短信文本主题的抽取方法。该方法首先通过构造多条词汇链来表达短信文本的叙事线索,并从多条词汇链中抽取出富含主题信息的词汇链,将其作为构造短信文本主题语句的关键词序列。实验表明该方法抽取的短信文本主题能够更全面地覆盖短信文本的信息,并能消除多个关键词序列表达同一主题信息的冗余。其效果明显优于采用统计信息进行短信文本主题抽取的方法。  相似文献   

13.
刘金岭  刘丹  周泓 《计算机工程》2012,38(10):67-69
提出一种基于知网的中文短信文本词汇链抽取方法。根据知网的语义关系,利用相同语义类给出上下文词汇项信息,构造多条词汇链,表达短信文本的多条叙事线索,从中抽取富含短信文本信息的词汇链,表达短信文本的语义信息,采用词汇链的关键词集合进行文本分类。实验结果证明,该方法的抽取准确率较高,文本分类速度较快。  相似文献   

14.
提出一种基于词汇链的判断变异垃圾短信方法。该方法通过构造多条词汇链来表达短信文本的叙事线索,再从多条词汇链中抽取出富含内容信息的词汇链,同时消除了多个关键词序列表达同一内容信息的冗余;将构造的词汇链作为短信文本的信息相互进行比较,以对变异的垃圾短信信息进行识别。实验结果表明,该方法能较准确地识别垃圾短信的变异信息。  相似文献   

15.
一种基于词汇链的关键词抽取方法   总被引:26,自引:6,他引:26  
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。  相似文献   

16.
We describe a syntactically based salience algorithm for pronominal anaphora resolution and a procedure for reevaluating the decisions of the algorithm on the basis of statistically modeled lexical semantic/pragmatic preferences. We report the results of an extensive blind test of both systems on computer manual text. We discuss the implications of these results for the comparative roles of syntactically defined salience and statistically measured lexical preference in determining the references of pronouns in text.  相似文献   

17.
基于词汇链的中文新闻网页关键词抽取方法   总被引:1,自引:0,他引:1  
词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索。文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法。该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词。对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量。  相似文献   

18.
李婧  房鼎益  何路 《计算机应用》2012,32(9):2603-2605
为了解决传统的密写分析技术对文本零水印失效的问题,提出一种基于词法的主动攻击算法。该算法将目前鲁棒性较好的混沌文本零水印作为攻击对象,采用同义词替换技术,定义了同步攻击和生日攻击两种方法,通过将这两种方法相结合,在词这一级别上实现了对文本零水印的主动攻击。实验结果表明,该算法无需大量改写载体文本即可有效地破坏零水印。  相似文献   

19.
为解决文本聚类时文本的高维稀疏性问题,提出一种语义和统计特征相结合的短文本聚类算法。该算法通过语义词典对词汇的语义相关性分析实现一次降维,结合统计方法进行特征选择实现二次降维,并融合二次降维特征实现短文本聚类。实验结果表明,该算法具有较好的短文本聚类效果和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号