首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
提出一种英文文本检索算法,从文本中提取奇异值向量作为复特征向量,利用向量间的余弦相似度作为文本检索的相似度度量.实验结果表明,该算法在检索准确率和运算效率上都优于传统的LSA算法.  相似文献   

2.
分析了查询似然模型,针对传统查询似然检索模型没有考虑文本间相关性的缺点,将链接模型引入到文本检索中,提出一个计算文本间相关性的DocRank算法。该算法通过计算两两文本间的相关性,构建一个文本矩阵,利用幂迭代法得到每个文本的优先度值,将其融合到查询似然检索模型中以准确定位所检索文本,实验结果验证了改进算法在文本检索中的有效性。  相似文献   

3.
董苑  钱丽萍 《计算机科学》2017,44(Z11):422-427
为了克服传统的文本相似算法缺乏综合考虑语义理解和词语出现频率的缺点,在基于语义词典的词语相似度计算的基础上,提出了一种基于语义词典和词频信息的文本相似度(TSSDWFI)算法。通过计算两文本词语间的扩展相似度,找出文本词语间最大的相似度配对,从而计算出文本间的相似度。这种相似度计算方法利用语义词典,既考虑了不同文本间词语的相似度关系,又考虑了词语在各自文本中的词频高低。实验结果表明,与传统的语义算法和基于空间向量的文本相似度计算方法相比,TSSDWFI算法计算的文本相似度的准确度有了进一步提高。  相似文献   

4.
研究比较了文本检索与安全过滤的异同,以文本过滤为手段,借鉴文本检索的一些方法,在安全过滤环境中,正例文本和反例文本的特征向量非常相似的情况下,提出了一种有效的算法,过滤掉会对社会造成危害的非法网页。  相似文献   

5.
提出了一种基于小波变换和奇异值分解的盲检测算法来识别图像的复制粘贴伪造。该算法用小波变换降低计算量,用奇异值表示图像特征。图像经过小波变换,提取出低频分量和高频分量。因低频部分保留图像的纹理信息,高频部分保留图像的轮廓信息,该算法分别从低频部分和高频部分提取图像奇异值,并把提取出的奇异值进行加权处理,以加权值作为图像块的特征。图像块之间做两两比较,根据图像块的特征相似度,判断是否存在图像复制粘贴伪造区域。在丰富层次和清晰细节轮廓的图像中,该算法能达到比较理想的检测效果,准确率较高。  相似文献   

6.
文本相似度计算的一种新方法   总被引:1,自引:0,他引:1  
1 引言目前信息检索技术已应用于许多领域,尤其广泛应用在Internet网络、图书馆等领域,为快速查阅文本信息提供极大便利。文本信息检索利用文本相似度描述文本与查询式之间的匹配程度。计算文本相似度的传统方法有向量空间模型,它把文本和查询式表示成以词为元素单位的向量,根据词频tf以及逆文本频率idf,赋予该向量各个分量的权值,与欧氏空间的向量1-1对应,用向量夹角的余弦值定量表示文本和查询式之间的相似度,即  相似文献   

7.
现有文本复制检测技术均基于相似度计算,针对其模型特征表示高维稀疏、算法设计复杂低效等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测算法。其基本原理是根据汉字的数学表达式理论将文本中的所有汉字进行部件拆分,对部件频率进行统计,构造文本汉字部件直方图,以其作为文本的特征表示并将其间的相似度距离值作为复制检测评估依据。通过实验确定了巴氏距离为直方图相似度距离的计算公式。对比实验结果表明本算法查准率、召回率、F1值方面具有可取性。  相似文献   

8.
针对经典的协同过滤推荐算法的一系列不足,如用户冷启动、商品评分稀疏性以及推荐精度不高,文章提出基于截断奇异值分解(TSVD)的协同过滤推荐算法.使用TSVD技术对稀疏矩阵进行降维处理,利用Jaccard相似度算法计算用户间相似度,提高推荐精度.实验结果显示,基于截断奇异值分解(TSVD)的协同过滤算法体现良好的推荐质量...  相似文献   

9.
一种改进的基于向量空间文本相似度算法的研究与实现   总被引:1,自引:0,他引:1  
通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间相同特征词对文本相似度的影响,有效减少了相似度低的文本干扰。仿真实验和系统运行结果验证了改进算法的有效性和准确性。  相似文献   

10.
论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果.  相似文献   

11.
随着互联网的扩展,网络上出现了越来越多的含有观点信息的主观性评论文本。挖掘这些文本中的情感词语并进行极性判别具有重要的现实意义和商业价值。为此,提出一种基于翻译方法的情感词提取方法,使用汉英机器翻译系统翻译汉语种子情感词典生成候选英语词语,根据WordNet提取候选英语词语的上下位词、同义词或反义词并将这些词语翻译成汉语,进而提取汉语情感词语。另外,依据SentiWordNet判别候选英语词语极性,并将候选英语词语极性映射到目标汉语情感词语上,进而达到判别汉语情感词语极性的目的。实验结果表明上述方法可以有效提高情感词的识别效率以及极性判别的准确率。  相似文献   

12.
This paper considers the application of the skewed structured singular value to the robust stability of systems subject to strictly real parametric uncertainty. Three state‐space formulations that counteract the discontinuous nature of this problem are detailed. It is shown that the calculation of the supremum of the structured singular value over a frequency range using these formulations transforms into a single skewed structured singular value calculation. Similar to the structured singular value, the exact calculation of the skewed structured singular value is an NP‐hard problem. In this work, two efficient algorithms that determine upper and lower bounds on the skewed structured singular value are presented. These algorithms are critically assessed using a series of robustness analysis tests on a safety‐critical experimental drive‐by‐wire vehicle. Copyright © 2008 John Wiley & Sons, Ltd.  相似文献   

13.
为了对数字音频的版权进行有效的保护,结合人类听觉系统和奇异值分解的重要特性,提出了一种小波域数字音频零水印算法。用混沌序列对水印图像进行加密,根据音频信号的时域局部特征选择最适合于构造零水印的音频段,对选取的音频段进行离散小波变换,提取小波域的低频分量作奇异值分解,利用低频系数的最大奇异值构造零水印,实现数字音频的版权保护。实验结果表明,水印的安全性和不可感知性很好;对于不同风格的音频信号,算法均具有良好的鲁棒性,能够有效抵抗高斯噪声、低通滤波、重采样、重量化、剪切以及压缩等攻击。  相似文献   

14.
彩色图像四元数频域奇异值分解水印算法   总被引:1,自引:0,他引:1  
将四元数傅里叶变换与四元数奇异值分解技术相结合并引入到对彩色图像的水印处理,提出一种基于四元数频域奇异值分解的彩色图像盲水印算法.首先对彩色载体图像进行分块并采用四元数傅里叶变换(quaternion Fourier transform,QFT)得到其频域矩阵,然后对频域矩阵中的单位小块进行四元数奇异值分解(quaternion singular value decomposition,QSVD),得到实系数奇异值,使用奇偶量化调制法将水印信号嵌入到单位小块的最大奇异值中.仿真实验结果表明,嵌入的水印分布在空域图像各彩色分量中,在不可见性以及鲁棒性的比较中优于传统的彩色图像亮度域以及独立多通道处理方法.  相似文献   

15.
Text processing is an important computer application. Due to its importance, a number of text manipulation programming languages have been devised (e.g. Icon). These programming languages are very useful for applications such as natural language processing, text analysis, text editing, document formatting, text generation, etc. However, they were mainly designed to handle English texts, and are ineffective for Chinese. This is because English and Chinese texts are represented very differently in a computer. An English character is mainly represented in 7-bit ASCII, and its Chinese counterpart commonly in 16-bit GB or BIG-5. This difference makes direct application of English-based text manipulation programming languages to Chinese erroneous, e.g. application of Icon to reverse a string of Chinese characters. In this paper, a new dialect of Icon, referred to as Chicon (i.e. Chinese Icon), is proposed. In the design of Chicon, new data types were introduced to differentiate pure English and English/Chinese mixed texts. In addition, existing Icon text manipulation functions were modified to account for Chinese texts. Experiments have shown that Chicon not only could overcome the problems of Chinese processing in Icon, but its execution speed was actually superior to Icon in handling Chinese. Furthermore, application of Chicon to a real sized problem, namely word segmentation, has proved that the language is practical. © 1998 John Wiley & Sons, Ltd.  相似文献   

16.
陈伟鹤  刘云 《计算机科学》2016,43(12):50-57
中文文本的关键词提取是自然语言处理研究中的难点。国内外大部分关键词提取的研究都是基于英文文本的, 但其并不适用于中文文本的关键词提取。已有的针对中文文本的关键词提取算法大多适用于长文本,如何从一段短中文文本中准确地提取出具有实际意义且与此段中文文本的主题密切相关的词或词组是研究的重点。 提出了面向中文文本的基于词或词组长度和频数的关键词提取算法,此算法首先提取文本中出现频数较高的词或词组,再根据这些词或词组的长度以及在文本中出现的频数计算权重,从而筛选出关键词或词组。该算法可以准确地从中文文本中提取出相对重要的词或词组,从而快速、准确地提取此段中文文本的主题。实验结果表明,基于词或词组长度和频数的中文文本关键词提取算法与已有的其他算法相比,可用于处理中文文本,且具有更高的准确性。  相似文献   

17.
基于小波变换和奇异值分解的剪纸纹样识别   总被引:1,自引:1,他引:0  
针对民间传统剪纸艺术的计算机创作问题,在分析剪纸艺术特点的基础上,提出一种基于小波变换和奇异值分解的剪纸纹样识别方法.首先对剪纸纹样图像进行归一化和二值化处理,然后应用小波变换提取剪纸纹样图像的低频分量并进行奇异值分解,最后通过对奇异值进行归一化和降维处理作为最终的特征向量,利用最近邻分类器进行模式识别.实验结果表明,该方法能够有效地去除噪声干扰,较好的识别有一定艺术夸张变形的剪纸纹样.  相似文献   

18.
Due to the increase in globalization, communication between different countries has become more and more frequent. Language barriers are the most important issues in communication. Machine translation is limited to texts, and cannot be an adequate substitute for oral communication. In this study, a speech recognition and translation system based on embedded technology was developed for the purpose of English speech recognition and translation. The system adopted the Hidden Markov Model (HMM) and Windows CE operating system. Experiments involving English speech recognition and EnglishChinese translation found that the accuracy of the system in identifying English speech was about 88%, and the accuracy rate of the system in translating English to Chinese was over 85%. The embedded technology-based English speech recognition and translation system demonstrated a level of high accuracy in speech identification and translation, demonstrating its value as a practical application. Therefore, it merits further research and development.  相似文献   

19.
A new type of documents called a “wiki page” is winning the Internet. This is expressed not only in an increase of the number of Internet pages of this type, but also in the popularity of Wiki projects (in particular, Wikipedia); therefore the problem of parsing in Wiki texts is becoming more and more topical. A new method for indexing Wikipedia texts in three languages: Russian, English, and German, is proposed and implemented. The architecture of the indexing system, including the software components GATE and Lemmatizer, is considered. The rules of converting Wiki texts into texts in a natural language are described. Index bases for the Russian Wikipedia and Simple English Wikipedia are constructed. The validity of Zipf’s laws is tested for the Russian Wikipedia and Simple English Wikipedia.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号