首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
草图检索是图像处理领域中的重要研究内容。提出了一种将高斯金字塔和局部HOG特征融合的特征提取改进方法,并将其用于草图检索。采用高斯金字塔将图像分解到多尺度空间,在所有尺度上进行兴趣点提取,获得基于兴趣点的多尺度HOG特征。利用图像的多尺度HOG特征集生成视觉词典,最终形成与视觉词典相关的特征描述向量,通过相似度匹配实现草图检索。将该算法与单一尺度下的HOG算法及其他几种算法比较,实验结果表明了其可行性和有效性。  相似文献   

2.
使用二级索引的中文分词词典   总被引:3,自引:0,他引:3       下载免费PDF全文
中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。  相似文献   

3.
K-Means聚类是视觉词典构造的常用方法,其聚类结果直接影响后续的特征量化效果和检索精度,而现有的K-Means聚类算法难以获得高质量的视觉词典。针对这种情况,提出局部化K-Means聚类算法。算法首先根据启发式原则将特征集划分成若干个独立的子集,并对各子集进行传统K-Means聚类,然后以各子集的聚类中心为对象进行加权K-Means聚类。上述过程不断迭代直至形成特定规模的视觉词典。实验结果表明,与现有算法相比,该算法提高了聚类质量。在SIFT特征集和标准数据集上进行的多组对比实验证明了该算法的有效性。  相似文献   

4.
基于Web数据的特定领域双语词典抽取   总被引:1,自引:1,他引:1  
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。  相似文献   

5.
提出并实现一种有限状态机算法,该方法结合二分查找树算法将整个词典构造成一个有限状态机,从而使词典中的每个不同的汉字以不同弧权值的形式存在于有限状态机中.当要判断某个字符串是不是词时,只要从这个有限状态机的第一个状态结点依次进行查找即可.实验显示,通过这个有限状态机词典可以实现对字符串的快速查找.  相似文献   

6.
允许错误的(汉字)字符串快速检索技术   总被引:3,自引:1,他引:2       下载免费PDF全文
在计算机应用的诸多领域中都会遇到字符串似检索问题。本提出了一种技术。它通过应用搜索状态向量及字符-模式匹配向量,将字符串匹配比较转化简单的整数字位运算,有效地解决了字符/汉字串的相似匹配问题,中也给出了实现算法并分析了算法的复杂性。  相似文献   

7.
一种有效的并行汉字/字符串相似检索技术   总被引:1,自引:0,他引:1  
王素琴  邹旭楷 《软件学报》1995,6(8):463-467
本文提出了一种有效的并行汉字/字符串相似检索技术.通过引入搜索状态向量及字符一模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对汉字/字符串的并行相似检索.文中也给出了并行实现算法,同时分析了算法的复杂性.  相似文献   

8.
近似字符串匹配是模式匹配研究领域中的一个重要研究方向。压缩后缀数组是字符串匹配、数据压缩等领域广泛使用的索引结构,具有检索速度快和适用广泛的优点。利用压缩后缀数组,提出了适合近似字符串匹配搜索算法的数据结构,并在此基础上提出了一种匹配搜索算法。实验结果表明,相对于现有的算法,提出的算法在小字母表的情况下具有计算优势。  相似文献   

9.
李刚  于磊  孙回回  张兴隆  侯韶凡 《计算机科学》2016,43(11):252-256, 279
基于搜索的算法在以路径覆盖为目标的测试数据生成中应用广泛。然而对于字符串型测试数据的生成,现有方法效率不高。为了高效地生成字符串型测试数据,提出了一种基于变异粒子群算法的字符串型测试数据自动生成方法。在随机生成初始种群后,采用粒子群算法使种群在趋近最优个体的过程中实现进化,并以一定的概率对种群中的个体进行变异操作,以避免进化过程陷入局部最优。为了有效地指导种群进化过程,对经典适应度函数中分支距离的计算方法进行改进,使其适用于含有字符串型参数的程序。实验结果表明,该方法具有较高的成功率和稳定性,且能明显提升测试数据生成效率。  相似文献   

10.
基于多重索引模型的大规模词典近似匹配算法   总被引:1,自引:0,他引:1  
编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法.传统单索引模式很难在高性能的前提下保证高召回率.词典越大问题越严重.提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立unigram,bigram,trigram,quadgram中的一种或若干种索引,当查找用户模式P的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R.实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度.  相似文献   

11.
Chinese word segmentation is a difficult and challenging job because Chinese has no white space to mark word boundaries. Its result largely depends on the quality of the segmentation dictionary. Many domain phrases are cut into single words for they are not contained in the general dictionary. This paper demonstrates a Chinese domain phrase identification algorithm based on atomic word formation. First, atomic word formation algorithm is used to extract candidate strings from corpus after pretreatment. These extracted strings are stored as the candidate domain phrase set. Second, a lot of strategies such as repeated substring screening, part of speech (POS) combination filtering, and prefix and suffix filtering and so on are used to filter the candidate domain phrases. Third, a domain phrase refining method is used to determine whether a string is a domain phrase or not by calculating the domain relevance of this string. Finally, sort all the identified strings and then export them to users. With the help of morphological rules, this method uses the combination of statistical information and rules instead of corpus machine learning. Experiments proved that this method can obtain better results than traditional n-gram methods.  相似文献   

12.
基于字典的DNA序列压缩算法研究及应用*   总被引:1,自引:0,他引:1  
在现有DNA序列数据压缩算法的基础上,以DNA序列数据的存储效率及生物学解释综合考虑,设计并实现了基于字典的DNA序列压缩算法DNADCompress.算法核心包括重复子串字典建立、字典项筛选、字串压缩编码三方面.实验数据表明,数据压缩算法压缩效果达到常用DNA序列压缩算法水平,并为序列生物学解释提供了基础.  相似文献   

13.
具有概念联想功能的特定领域分词词典的自动构建   总被引:3,自引:0,他引:3  
张彦  邵志清 《计算机工程》2004,30(20):148-150
提出了一种基于PAT树型结构的高频字串提取的改进算法。并以此用来获得特定领域网页中的未登录词集合,利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了用于特定领域搜索引擎的语义词典完整的自动构建方法。将生成的语义词典用于搜索引擎FlyingScnder中。实验结果证明新的词典比原有的手工构建的词典分词效果要理想得多。而且提供了概念联想的功能。  相似文献   

14.
目的 针对现有的跨场景服装检索框架在服装躯干部分检索问题上,因服装款式识别优化存在服装信息丢失和跨场景款式识别的问题,提出一种新的服装分割方法和基于跨域字典学习的服装款式识别。方法 首先,提出基于超像素融合和姿态估计相结合的方法分割出完整的服装,用完整的服装进行检索可以最大限度地保留服装信息。然后,在服装款式识别时,通过学习服装商品数据集与日常服装图像数据的中间数据集字典,使其逐渐适应日常服装图像数据的方式,调节字典的适应性,进而提高不同场景下的服装款式识别的准确性。另外,由于目前国际缺少细粒度标注的大型服装数据库,本文构建了2个细粒度标注的服装数据库。结果 在公认的Fashionista服装数据集及本文构建的数据库上验证本文方法并与目前国际上流行的方法进行对比,本文方法在上下装检索中精度达到62.1%和63.4%,本文方法在服装分割、款式识别,检索方面的准确度要优于当前前沿的方法。结论 针对现有的跨场景服装检索框架分割服装不准确的问题,提出一种新的层次服装过分割融合方法及域自适应跨域服装款式识别方法,保证了服装的完整性,提高了跨场景服装检索及款式识别的精度,适用于日常服装检索。  相似文献   

15.
基于统计的纠错建议给出算法及其实现   总被引:7,自引:0,他引:7  
张仰森  曹元大  徐波 《计算机工程》2004,30(11):106-109
介绍了为自动校对系统检测出的错误字串提供有效纠错建议的算法。该算法针对音同、音近、形似或编码键位相近的错误产生特点,构造了字驱动的双向词典和近似字词典,并利用模糊匹配算法为错误字串提供纠错建议,然后对所有建议根据上下文信息和统计频率进行排序。通过在Windows环境下所实现的系统试验,表明正确建议的召回率达到91.8%,而前5选建议的正确率为76.4%。  相似文献   

16.
许静芳  李星  李粤 《计算机工程》2005,31(21):143-145
提出了一种基于用户查询日志的主题式词典的构建方法,用于中文信息检索中分词。利用互信息从用户查询日志中提取短语并与通用词典相结合构建主题式词典。该词典能提高信息检索的准确率和效率,并有助于解决未登录词问题。  相似文献   

17.
目的 针对大型图像检索领域中,复杂图像中SIFT特征描述子的冗余和高维问题,提出了一种基于字典重建和空间分布关系约束的特征选择的方法,来消除冗余特征并保留最具表现力的、保留原始空间结构性的SIFT特征描述子。方法 首先,实验发现了特征选择和字典学习方法在稀疏表示方面的内在联系,将特征选择问题转化为字典重构任务;其次,在SIFT特征选择问题中,为了保证特征空间中特征的鲁棒性,设计了新型的字典学习模型,并采用模拟退火算法进行迭代求解;最后,在字典学习的过程中,加入熵理论来约束特征的空间分布,使学习到的特征描述子能最大限度保持原始SIFT特征空间的空间拓扑关系。结果 在公开数据集Holiday大型场景图片检索数据库上,通过与国际公认的特征选择方法进行实验对比,本文提出的特征选择方法在节省内存空间和提高时间效率(30%~ 50%)的同时,还能保证所筛选的特征描述子的检索准确率比同类特征提高8%~ 14.1%;在国际通用的大型场景图片拼接数据库IPM上,验证本文方法在图像拼接应用中特征提取和特征匹配上的有效性,实验表明本文方法能节省(50% ~70%)图像拼接时间。结论 与已有的方法比较,本文的特征选择方法既不依赖训练数据集,也不丢失重要的空间结构和纹理信息,在大型图像检索、图像拼接领域和3D检索领域中,能够精简特征,提高特征匹配效率和准确率。  相似文献   

18.
A new algorithm for string edit distance computation is given. The algorithm assumes that one of the two strings to be compared is a dictionary entry that is known a priori. This dictionary word is converted in an off-line phase into a deterministic finite state automaton. Given an input string and the automaton derived from the dictionary word, the computation of the edit distance between the two strings corresponds to a traversal of the states of the automaton. This procedure needs time which is only linear in the length of the input string. It is independent of the length of the dictionary word. Given not only one butN different dictionary words, their corresponding automata can be combined into a single deterministic finite state automaton. Thus the computation of the edit distance between the input word and each dictionary entry, and the determination of the nearest neighbor in the dictionary need time that is only linear in the length of the input string. However, the number os states of the automation is exponential.  相似文献   

19.
In the dynamic dictionary matching problem, a dictionary D contains a set of patterns that can change over time by insertion and deletion of individual patterns. The user also presents text strings and asks for all occurrences of any patterns in the text. The two main contributions of this paper are: (1) a faster algorithm for dynamic string dictionary matching with bounded alphabets, and (2) a dynamic dictionary matching algorithm for two-dimensional texts and patterns. The first contribution is based on an algorithm that solves the general problem of maintaining a sequence of well-balanced parentheses under the operations insert, delete, and find nearest enclosing parenthesis pair. The main new idea behind the second contribution is a novel method to efficiently manipulate failure links for two-dimensional patterns.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号