基于全文检索的文本相似度算法应用研究 |
| |
引用本文: | 王格,吴钊,李向.基于全文检索的文本相似度算法应用研究[J].计算机与数字工程,2016(4):567-571,614. |
| |
作者姓名: | 王格 吴钊 李向 |
| |
作者单位: | 湖北文理学院数学与计算机科学学院;中国地质大学(武汉)计算机学院 |
| |
基金项目: | 国家自然科学基金项目“高可靠服务组合快速优化方法研究”(编号:61172084)资助 |
| |
摘 要: | 在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,首先采用传统的VSM余弦算法和Simhash算法,按照余弦公式通过内积最终计算出文本间的相似度大小n(0
|
关 键 词: | 文本相似度 余弦VSM Simhash |
本文献已被 CNKI 等数据库收录! |
|