面向段落逻辑标签判断的VSM改进算法 |
| |
引用本文: | 彭欣,李宁.面向段落逻辑标签判断的VSM改进算法[J].北京机械工业学院学报,2014(6). |
| |
作者姓名: | 彭欣 李宁 |
| |
作者单位: | 北京信息科技大学计算机学院; |
| |
基金项目: | 北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519) |
| |
摘 要: | 针对基于VSM的文档排版格式检查算法中,段落无法同时与多个逻辑标签对比,段落逻辑标签判断正确率召回率较低的问题。在原VSM算法的基础之上,根据模糊模式识别中的隶属度原理为定性分量的量化设计了隶属度表,分析去量纲化后各分量的变化范围和差异程度的变化,找到适用于格式向量的去量纲化方法,分析去量纲化方法和相似度度量方法结合之后的逻辑标签判断效果,找到与去量纲化方法匹配的相似度度量方法。实验表明,较以往算法,改进算法可以将段落与任意逻辑标签对比,减少去量纲化与相似度度量中信息的丢失,有效提高逻辑标签判断的准确率及召回率,适合于含有多种类型变量的向量相似度问题的求解。
|
关 键 词: | 文档排版格式检查 向量空间模型 去量纲化 向量相似度度量 文档理解 |
本文献已被 CNKI 等数据库收录! |
|