首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
根据本向量的维分布的稀疏性,提出了基于倒排索引的本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。  相似文献   

2.
近年来文本相似度计算在文本聚类、智能检索、网页问答、结果去重等其他许多自然语言处理领域具有举足轻重的地位,尤其是在搜索引擎中。该文简单论述了文本相似度计算的常用方法,以及本系统如何利用文本相似度计算判断多文本的同一性。更重要的是提出了迭代搜索的概念,进一步细化信息检索工作,尽可能确保信息检索的正确性,提高效率,解放人工。  相似文献   

3.
近年来文本相似度计算在文本聚类、智能检索、网页问答、结果去重等其他许多自然语言处理领域具有举足轻重的地位,尤其是在搜索引擎中。该文简单论述了文本相似度计算的常用方法,以及本系统如何利用文本相似度计算判断多文本的同一性。更重要的是提出了迭代搜索的概念,进一步细化信息检索工作,尽可能确保信息检索的正确性,提高效率,解放人工。  相似文献   

4.
基于部件的文本相似度计算   总被引:1,自引:0,他引:1  
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,以汉字数学表达式理论为基础,提出了一种新的文本部件粒度表示方法,根据部件频次建立文本特征向量空间模型,并在此模型基础上给出了相应的文本相似度计算公式及算法,用于计算两文本之间的相似度.实验结果表明,该算法与现有典型的相似度计算方法相比,具有实现精度高、计算简便等优点.  相似文献   

5.
智能文本搜索新技术   总被引:1,自引:0,他引:1  
面对当今互联网上海量的信息,以及搜索信息准确、高效、个性化等需求,提出了一套包括信息检索、信息抽取和信息过滤在内的智能文本搜索新技术.首先举荐了与信息检索新技术相关的企业检索、实体检索、博客检索、相关反馈子任务.然后介绍了与信息抽取技术相关的实体关联和实体填充子任务,以及与信息过滤技术相关的垃圾邮件过滤子任务.这些关键技术融合在一起,在多个著名的国际评测中得到应用,如美国主办的文本检索会议评测和文本分析会议评测,并且在互联网舆情、短信舆情和校园网对象搜索引擎等实际系统中得到了检验.  相似文献   

6.
时序数据库中快速相似搜索的算法研究   总被引:1,自引:0,他引:1  
针对时间序列,本文提出了一种新的数据表示方法.该方法通过将时间序列分成若干段,并从每个分段中提取一个特征向量,从而用一个特征向量集作为该时间序列的逻辑表示.在此基础上,采用时间弯曲距离作为相似模型,提出了一种改进的KMP算法作为检索方法.此算法能够快速挖掘出时序数据库中与给定查询序列相似的所有(子)序列.该算法具有较高的效率.  相似文献   

7.
基于边界可信度相似的快速文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
类别的中心和边界是类别的重要特征.利用训练样本的中心和边界作为分类准则,提出了一种基于边界可信度相似的快速文本分类算法。通过类别边界可信度调整文本与类别的相似性,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高了分类性能。实验结果表明该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。  相似文献   

8.
【目的】整合多种教学资源,并在此场景下设计和实现一种高效准确的搜索策略,帮助用户获取丰富的教学内容。【应用背景】教学资源类型众多,数量庞大,用户对于准确检索的需求日益增长,仅基于ElasticSearch进行搜索的效果不尽人意。【方法】在对用户输入的Query进行预处理和分词后,通过ER-BERT语义相似度模型在Query库中匹配出n条近似结果,将其输入到ElasticSearch并构建相关度计算公式,最后按照综合评估的最终得分将匹配结果进行排序。【结果】利用知识图谱技术整合复杂的教学资源,并在此基础上实现了一种基于ElasticSearch和语义相似度匹配的教学资源搜索策略,在保证检索速度的同时可以根据用户检索Query的语义信息进行检索。【结论】实验结果表明使用该教学资源搜索策略增加了检索结果的数量,并在保证检索速度的同时提升了结果的准确性,显著改善了用户的搜索体验。  相似文献   

9.
高效时序相似搜索技术   总被引:6,自引:0,他引:6  
时序相似搜索被认为是将来最有前途的技术之一.然而,时序数据是典型的高维海量数据,如何开发高效算法非常关键.文中概述了时序相似搜索技术的研究现状和进展以及研究的主要内容,讨论了该技术的几个重要应用范例,并对一些典型算法进行了定量分析;然后晕点论述了高效时序相似搜索的关键技术,包括边界过滤、三角不等式修剪、多辨析率检索方法、过滤精炼方案等.最后讨论并分析了时序的近似相似搜索技术.上述所有技术通过对比,其正面和反面都被深入分析.最后指出了存在的问题和未来的研究热点和方向.  相似文献   

10.
相似图片搜索是当前搜索技术研究的一大热点。利用相似图片搜索的原理结合Java语言的技术特点,对要进行搜索的图片首先进行图像变换缩小尺寸,然后进行灰度化和二值化的处理计算出对应的哈希值形成图片的指纹,最后计算出图片指纹的海明距离得出图片的相似度,实现了一个简单快速的相似图片搜索模型。  相似文献   

11.
张延玲  刘金鹏 《软件》2011,32(2):109-111
为了分析移动对象行为特征,需要一种度量轨迹间相似性的方法,虽然在欧氏空间检索移动对象相似轨迹的研究较多,但在路网空间这种研究还不多见。在实际应用方面,大多数移动对象位于路网空间而不是欧氏空间。本文研究了路网空间相似轨迹的特性,并提出了一种在路网空间搜索相似轨迹的度量方法。实验结果表明该方法不仅是搜索相似轨迹的实用技术,也是一种较好的轨迹聚类方法  相似文献   

12.
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,获得上下文向量,充分挖掘文本的语义特征及重要性关系.然后在SinglePass算法基础上,根据提取到的热点主题特征词,划分子话题,并设置时间阈值,来确认类簇中心的时效性,将挖掘的语义特征和任务相结合,动态更新类簇中心.最后以时间特性为辅,更新话题质心向量,提高文本相似度计算的准确性.结果表明,所提方法的F值最高可达89.3%,且在保证聚类精度的前提下,在漏检率和误检率上较传统算法有明显改善,能够有效提高话题检测的准确性.  相似文献   

13.
对于图文不符的低质量网页,现有基于文本关键词的图片搜索引擎得到的结果相关性较差。针对该问题,将图片的相似性聚类信息和网页质量因素融入文本分析过程,提出一种基于相似图片聚类的Web文本特征算法。根据网页Page Rank值、关键词HTML标签类别和关键词词性类别的不同,分别赋予其不同的权重并代入计算公式,综合计算得到整个聚类中全部关键词的文本特征值,并通过设置阈值提取高相关文本。对随机选取的15个图片聚类进行实验分析,结果表明,与百度和谷歌目前所用图片搜索算法相比,该算法能够准确地找到反映图片内容的真实文本,提高图片检索的精度。  相似文献   

14.
一种基于Fibonacci数的有序线性表查找算法   总被引:1,自引:0,他引:1  
在设计F ibonacci(菲波那契)查找算法的基础上定义了F ibonacci查找判定树,并利用F ibonacci数的封闭型表达式推导出此种判定树的高度计算公式;证明了在查找成功时,F ibonacci查找的一个优点是总查找长度优于折半查找,F ibonacci查找的另一优点在于访问存放在外存储器上大量的有序表数据时,只需对有序表进行加减运算分割。  相似文献   

15.
基于分辨相似矩阵的相似粗糙集的属性约简算法   总被引:4,自引:2,他引:2  
针对现实中数据局限导致等价关系弱化为相似关系,用相似关系代替等价关系建立了相似粗糙集的理论,定义了新的分辨相似矩阵,并给出了基于分辨相似矩阵的求核和属性约简算法,该算法可以有效地减少属性约简的计算量,最后通过实例验证了该算法是适用和有效的。  相似文献   

16.
复制检测就是检测文档之间是否存在雷同现象,并将检测结果报告给用户。文章算法将复制检测技术指纹比对法和词频统计法结合起来,首先对文本进行预处理如滤除介词、冠词等,采用指纹比对法判断自然段落之间的相似性;然后将一个自然段视为一个小的整体来构成整个文档,采用基于词频的加权统计法判断全文的相似性。  相似文献   

17.
随着音频数据的不断增加,说话人识别已经变得越来越困难。本文提出了一种新颖的方法,在已有的说话人识别系统(GMM-UBM系统)的基础上,综合利用Index和Simulation,以很小的代价,极大地提高了说话人识别的速度,从而使说话人搜索成为可能。具体而言,就是采用两遍搜索策略,首先通过建立索引,在索引空间,比较索引间的欧氏距离,粗略地筛选出一定量的候选说话人目标;然后在此基础上,通过更精细的Simulation模型匹配,找出最佳的识别结果。实验结果显示我们的方法能以很小的代价,显著地提高说话人识别的速度。  相似文献   

18.
利用CHI值特征选取和前向神经网络的覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。该方法利用CHI值进行特征选取即特征降维,应用覆盖算法进行文本分类。该方法将CHI值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度。应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法、朴素贝叶斯方法的实验结果进行了比较。结果表明,与SVM算法和朴素贝叶斯方法相比较,覆盖算法在准确度上更好。并且,维数的选择对分类的精确度影响很大。  相似文献   

19.
随着智能电网建设的推进,ISO7498—2、PPDR等现有安全模型不能很好地指导智能电网体系进行安全防护建设.提出一种新的适用于电网的基于主动立体防御体系的安全模型。该模型有三个维度:安全技术维、安全策略维和安全保障维。三个维度有效地将安全技术、安全策略和安全管理有机结合在一起,充分考虑人、技术、操作三个方面,相互补充、配合,形成一个完整、统一的体系,共同保障电网的安全。  相似文献   

20.
研究了图像定位的问题,由于存在污渍干扰等影响图像定位,针对以往单一特征进行图像文字定位及识别的系统中容易受到各种环境因素干扰的缺陷,提出了一种利用轴对称窗口进行边缘检测的图像文字检测算法。首先将利用轴对称滑动窗口提取水平和竖直方向上的边缘特征,利用连通域确定初始的图像文字位置;通过对可能的图像文字区域进行颜色色调验证,区域内垂直方向直方图投影,从而确定最终的图像文字位置。由于利用多种特征综合检测图像文字进行仿真。仿真结果表明改进方法能准确检测出复杂场景下图像文字所在区域。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号