一种结合TF-IDF和Simhash的科技项目文本相似性度量方法 |
| |
引用本文: | 孙北宁,吕维新,曾俊,肖衡.一种结合TF-IDF和Simhash的科技项目文本相似性度量方法[J].电子技术应用,2023(6):89-93. |
| |
作者姓名: | 孙北宁 吕维新 曾俊 肖衡 |
| |
作者单位: | 1. 云南电网有限责任公司科数部;2. 西南林业大学大数据与智能工程学院;3. 云南电网有限责任公司昆明供电局;4. 云南云电同方科技有限公司 |
| |
基金项目: | 国家自然科学基金项目(61702442); |
| |
摘 要: | 为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高权重值的重要词项;其次,使用Simhash把重要词项映射为固定长度的二进制串,并求和得到文本的Simhash签名;最后,使用汉明距离计算两个Simhash签名间的相似性。实验结果表明,所提方法在查准率、召回率和F度量值方面优于传统的Simhash算法和TF-IDF方法。
|
关 键 词: | 科技项目文本 文本相似度 TF-IDF Simhash算法 |
|