首页 | 官方网站   微博 | 高级检索  
     

一种结合TF-IDF和Simhash的科技项目文本相似性度量方法
引用本文:孙北宁,吕维新,曾俊,肖衡.一种结合TF-IDF和Simhash的科技项目文本相似性度量方法[J].电子技术应用,2023(6):89-93.
作者姓名:孙北宁  吕维新  曾俊  肖衡
作者单位:1. 云南电网有限责任公司科数部;2. 西南林业大学大数据与智能工程学院;3. 云南电网有限责任公司昆明供电局;4. 云南云电同方科技有限公司
基金项目:国家自然科学基金项目(61702442);
摘    要:为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高权重值的重要词项;其次,使用Simhash把重要词项映射为固定长度的二进制串,并求和得到文本的Simhash签名;最后,使用汉明距离计算两个Simhash签名间的相似性。实验结果表明,所提方法在查准率、召回率和F度量值方面优于传统的Simhash算法和TF-IDF方法。

关 键 词:科技项目文本  文本相似度  TF-IDF  Simhash算法
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号