首页 | 官方网站   微博 | 高级检索  
     

对科技论文的分类研究
引用本文:李森,马军,赵嫣,雷景生.对科技论文的分类研究[J].山东大学学报(理学版),2006,41(3):14-16,123.
作者姓名:李森  马军  赵嫣  雷景生
作者单位:[1]山东大学计算机科学与技术学院,山东济南250061 [2]海南大学计算机学院,海南海口570228
基金项目:教育部骨干教师基金资助项目(教技司[2000]65)
摘    要:针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生的分类法。先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文数要远远小于全体论文数,故在分类类别数目较多且分类文本分布较为平均的情况下,可极大地缩短分类的时间.

关 键 词:科技论文  文本分类  层次结构  分类精度  分类效率
文章编号:1671-9352(2006)03-0014-03
收稿时间:2006-03-30
修稿时间:2006-03-30

The study on the classification of scientific papers
LI Sen , MA Jun , ZHAO Yah, LEI Jing-sheng.The study on the classification of scientific papers[J].Journal of Shandong University,2006,41(3):14-16,123.
Authors:LI Sen  MA Jun  ZHAO Yah  LEI Jing-sheng
Affiliation:1. School of Computer Scienee and Technology, Shandong Univ., Jinan 250061, Shandong, China; 2. School of Computer Science and Technology, Hainan Univ., Haikou 570228, Hainan, China
Abstract:
Keywords:technical literature  text categorization  hierarchy  accuracy  efficiency
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号