首页 | 官方网站   微博 | 高级检索  
     

基于层级类别信息的标题自动分类研究
引用本文:葛文镇,刘柏嵩,王洋洋,赵福青.基于层级类别信息的标题自动分类研究[J].计算机应用研究,2016,33(7).
作者姓名:葛文镇  刘柏嵩  王洋洋  赵福青
作者单位:宁波大学 信息科学与工程学院,宁波大学 信息科学与工程学院,宁波大学 信息科学与工程学院,宁波大学 信息科学与工程学院
基金项目:数字图书馆知识组织与标引标准规范研究
摘    要:针对标题文本特征少、特征维度高和分布不均匀导致分类性能不佳的问题,该文提出了一种利用分类体系结构信息的双向特征选择算法,并在该方法基础上实现标题分类。该方法以具有严格层级关系的分类体系为应用前提,利用类别与词的同现和分布关系进行特征词和候选类别的双向选择,构建类别向量空间;通过分析标题文本特征词在层级类别向量空间的分布所表现出的类别语义信息,确定文本所在层级以及所在层级的候选类别;之后利用分类器对未能成功分类的标题进行分类。在人工标引数据集上的实验结果表明,该方法在不进行语料扩展和外部知识库添加的基础上仍可有效地确定文本所在层级,实现多级学科的分类;并可在识别类别语义信息的基础上,降低候选类别数目,提高分类效率。

关 键 词:特征选择  标题分类  层级结构分类体系  同现分析  向量空间
收稿时间:3/5/2015 12:00:00 AM
修稿时间:2015/4/26 0:00:00

The headlines automatic classification method based on hierarchical category information research
Affiliation:Ningbo University,Ningbo University,Ningbo University,Ningbo University
Abstract:
Keywords:feature selection  headlines classification  hierarchical classification system  co-occurrence analysis  vector space
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号