首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
基于邻接矩阵的全文索引模型   总被引:5,自引:0,他引:5  
周水庚  胡运发  关佶红 《软件学报》2002,13(10):1933-1942
文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不同的方式实现文本串邻接矩阵,导出了两种基于邻接矩阵的新型全文索引模型,即基于邻接矩阵的倒排文件和基于邻接矩阵的PAT数组.给出了基于新模型的文本查询算法;分析了新模型的存储空间和查询时间的开销,并分别与两种传统索引模型进行了比较.对实际文本库进行了测试以证实新模型的效能.新模型能够以相对于原文较小的空间代价获得较大幅度的查询效率的提高,因此适合于在大规模文本检索系统中应用.  相似文献   

2.
针对电压传感器信号实时处理计算量大,提出了一种基于压缩感知的数字信号处理方法.该方法通过自适应随机测量矩阵对原始电压传感器数据进行压缩采样,然后用二次最优对压缩信号进行重构,恢复原始信号.该方法具有计算量小,重构精度高等优点.在电压传感器上的实验表明,该算法的重构平均精度能达到92.34%.  相似文献   

3.
提出了一种基于K近邻(KNN)原理的快速文本分类算法。该算法不仅具有原始K近邻算法分类效果好的优点,还通过对训练样本进行压缩,消除相似度之间的比较,提高了分类效率。实验表明,该算法用于邮件过滤系统时,分类效果要优于基于朴素贝叶斯分类器的二项独立模型和多项式模型,而分类的时间复杂度与其相当,完全可以应用于实时邮件过滤。  相似文献   

4.
针对传统全文索引技术空间浪费过大等问题,介绍压缩的全文自索引技术。该技术仅利用索引数据即可完成子串搜索,并且可以从索引数据无损地还原出原始的文本信息,是一种无需存储原始文本信息的"自索引"技术,从而大大节省存储空间。综述现有的十几种典型的压缩的全文自索引算法的基本思想及其实现,并在多种数据集上对这些算法进行综合的测试评估。实验结果表明,压缩的全文自索引技术有效地节省了空间开销,实用价值较高。  相似文献   

5.
医学文本相似性问题是医学文本挖掘中的重要内容,如何能够快速计算出大数据量下的医学文本的相似性情况是医学文本相似性计算的重点.针对基于传统余弦公式医学文本相似性分析算法在性能上的缺陷,提出了一种基于全文索引技术与余弦公式医学文本相似性分析算法,对医学文本相似性进行分析.采用全文索引技术对医学文本数据相关关键词进行索引,并根据若干关键词在索引中检索出部分数据,从而减少计算复杂度,提高效率.实验表明,该方法比基于传统余弦公式医学文本相似性分析算法具有更优的性能.  相似文献   

6.
传统贝叶斯压缩感知方法所存在的局部优化问题导致了重构图像存在着较大的误差。本文提出一种基于小波自适应最优方向选择和压缩感知的图像编码方法,该方法依据图像小波变换的低频子带与高频子带所存在的相关性差异,对低频系数进行基于小波最优方向选择的编解码,以保证图像主要信息的重构质量;而针对高频子带的稀疏特性进行基于压缩感知的随机测量,以保证图像的编码效率。实验结果表明,与传统的压缩感知算法相比,本文所提出算法的解码图像具有更好的主观质量,同时在相同码率下解码图像的PSNR平均提高1~2dB。  相似文献   

7.
全文索引技术时空效率分析   总被引:3,自引:0,他引:3  
刘小珠  彭智勇 《软件学报》2009,20(7):1768-1784
全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从上述分类角度综述了全文索引时空效率方法中具有代表性的一些方法和技术:倒排文件、签名文件、后缀树与后缀数组、基于这3 种索引的压缩技术、基于倒排文件的自索引与基于后缀数组的自索引的基本原理、所面临的问题及进展,并对这些技术的时空性能进行了详细的分析和比较,分析了各种技术的适应环境及优劣.最后总结了上述技术的特点,指出了存在的问题以及未来的研究方向.  相似文献   

8.
关联规则挖掘AprioriTid算法优化研究   总被引:19,自引:0,他引:19  
提出了一种基于事务压缩和项目压缩的AprioriTid优化算法。该算法的特点是:项目集采用关键字识别,同时对事务数据进行事务和项目压缩。从而省去了Apriori算法和AprioriTid算法中的剪枝和模式匹配步骤,减小了扫描事务数据库的大小,提高了发现规则的效率。通过实验表明,优化的算法执行效率明显优于AprioriTid算法。  相似文献   

9.
针对压缩跟踪算法分类器更新比较盲目导致跟踪准确性下降的问题,提出一种基于最优特征更新分类器的压缩跟踪算法。在原始算法基础上引入确定性测量矩阵,提高压缩感知性能;为了避免被污染样本影响分类器参数更新,不使用所有压缩特征更新分类器,而是在线筛选出最优的压缩特征更新分类器。同时,利用相邻两帧目标仿射变换使跟踪窗口可随目标变化实时更新,实现多尺度跟踪。实验结果表明,算法可有效抵抗光线、遮挡、尺度等因素对跟踪的影响,具有更高的稳定性和更好的鲁棒性,且满足实时性要求。  相似文献   

10.
李鸣鹏  高宏  邹兆年 《软件学报》2014,25(4):797-812
研究了基于图压缩的k可达查询处理,提出了一种支持k可达查询的图压缩算法k-RPC及无需解压缩的查询处理算法,k-RPC算法在所有基于等价类的支持k-reach查询的图压缩算法中是最优的.由于k-RPC算法是基于严格的等价关系,因此进一步又提出了线性时间的近似图压缩算法k-GRPC.k-GRPC算法允许从原始图中删除部分边,然后使用k-RPC获得更好的压缩比.提出了线性时间的无需解压缩的查询处理算法.真实数据上的实验结果表明,对于稀疏的原始图,两种压缩算法的压缩比分别可以达到45%,对于稠密的原始图,两种压缩算法的压缩比分别可以达到75%和67%;与在原始图上直接进行查询处理相比,两种基于压缩图的查询处理算法效率更好,在稀疏图上的查询效率可以提高2.5倍.  相似文献   

11.
面向信息检索的自适应中文分词系统   总被引:16,自引:0,他引:16  
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.  相似文献   

12.
13.
针对中文文本结构的特点以及传统压缩算法对中文文本压缩的不足,提出并实现了一个基于PDC编码的中文文本压缩算法。该算法采用的是字典压缩方式。根据单个汉字在中文文本出现的概率,采用Huffman编码方式进行前缀变长编码;定义由某个汉字为前缀的词组和短语的深度;对具有相同前缀和相同深度的词组和短语进行局部的定长编码,构成一部压缩编码字典。通过对相同文本分别使用该算法和传统的LZW和LZSS编码算法压缩后得到的数据结果对比,压缩率有2.53%~40.48%的提高,表明该压缩算法有较好的压缩效果。  相似文献   

14.
基于统计和规则的未登录词识别方法研究   总被引:8,自引:0,他引:8       下载免费PDF全文
周蕾  朱巧明 《计算机工程》2007,33(8):196-198
介绍了一种基于统计和规则的未登录词识别方法.该方法分为2个步骤:(1)对文本进行分词,对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,利用贪心算法获得每个碎片的最长路径,从而提取未登录词;(2)在上一步骤的基础上,建立二元模型,并结合互信息来提取由若干个词组合而成的未登录词(组).实验证明该方法开放测试的准确率达到81.25%,召回率达到82.38%.  相似文献   

15.
一种改进的快速分词算法   总被引:38,自引:0,他引:38  
首先介绍了一种高效的中电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度;然后提出了一种改进的快速分词算法,在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率.理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。  相似文献   

16.
基于无指导学习策略的无词表条件下的汉语自动分词   总被引:16,自引:0,他引:16  
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法,以期对研制开放环境下健壮的分词系统有所裨益,全部分词知识源自从生语料库中自动获得的汉字Bigram.在字间互信息和t-测试差的基础上,提出了一种将两者线性叠加的新的统计量md,并引入了峰和谷的概念,进而设计了相应的分词算法,大规模开放测试结果显示,该算法关于字间位置的分词正确率为85.88%,较单独使用互信息或t-测试差分别提高了2.47%和5.66%。  相似文献   

17.
关键词抽取技术是自然语言处理领域的一个研究热点。在目前的关键词抽取算法中,深度学习方法较少考虑到中文的特点,汉字粒度的信息利用不充分,中文短文本关键词的提取效果仍有较大的提升空间。为了改进短文本的关键词提取效果,针对论文摘要关键词自动抽取任务,提出了一种将双向长短时记忆神经网络(Bidirectional Long Shot-Term Memory,BiLSTM)与注意力机制(Attention)相结合的基于序列标注(Sequence Tagging)的关键词提取模型(Bidirectional Long Short-term Memory and Attention Mechanism Based on Sequence Tagging,BAST)。首先使用基于词语粒度的词向量和基于字粒度的字向量分别表示输入文本信息;然后,训练BAST模型,利用BiLSTM和注意力机制提取文本特征,并对每个单词的标签进行分类预测;最后使用字向量模型校正词向量模型的关键词抽取结果。实验结果表明,在8159条论文摘要数据上,BAST模型的F1值达到66.93%,比BiLSTM-CRF(Bidirectional Long Shoft-Term Memory and Conditional Random Field)算法提升了2.08%,较其他传统关键词抽取算法也有进一步的提高。该模型的创新之处在于结合了字向量和词向量模型的抽取结果,充分利用了中文文本信息的特征,可以有效提取短文本的关键词,提取效果得到了进一步的改进。  相似文献   

18.
汉语词语边界自动划分的模型与算法   总被引:10,自引:1,他引:9  
在引入词形和汉字结合点等概念基础上,文中分别描述了一个基于字串构词能力的词形模型和一个基于词语内部、外部汉字结合度的汉字结合点模型,并采用线性插值方法 两种模型融合于一体进行汉词语边界划分。在分析汉语切分候选择空间的基础上,文中还给出了相应的优化搜索算法。与一般的统计方法相比,文中方法的参数可直接从未经加工粗语料中得到,具有较强的适应能力,初步试验表明该方法是有效和可靠的。  相似文献   

19.
LZW无损压缩算法的实现与研究   总被引:27,自引:2,他引:27  
王平 《计算机工程》2002,28(7):98-99,150
通过程序设计实现了LZW文本压缩算法,并对其进行了改进以适合于中文压缩,改进后的压缩程序的测试结果证明改进是有一定效果的,相比于标准LZW压缩算不,压缩率有了一定程度的降低,对于中长文件,其压缩效果更好,对于英文文本的压缩效果也要好于普通LZW算法,有一定的实用价值。  相似文献   

20.
基于N元汉字串模型的文本表示和实时分类的研究与实现   总被引:4,自引:0,他引:4  
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项。实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的。该文的研究表明N元汉字串特征和词特征的表示能力在分类问题上基本是相同的,但是N元汉字串特征的分类系统可以比分词系统的性能高出好几倍。该文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号