基于模式识别算法的网页重复信息抽取仿真 |
| |
引用本文: | 李玉琦,李龙.基于模式识别算法的网页重复信息抽取仿真[J].计算机仿真,2022(3):439-443. |
| |
作者姓名: | 李玉琦 李龙 |
| |
摘 要: | 当前的网页重复信息抽取方法缺少信息分类步骤,导致传统方法存在抽取全面率低、重复信息比例高以及整体性能差的问题.于是提出基于模式识别算法的网页重复信息抽取方法.利用类间平衡因子和词频获取网页信息的互信息特征.在关联规则的基础上根据网页置信度向量化互信息特征,完成网页信息特征的提取.利用模式识别中的支持向量机对网页信息分类...
|
关 键 词: | 模式识别算法 网页重复信息 特征提取 支持向量机 信息抽取 |
|
|