首页 | 官方网站   微博 | 高级检索  
     

基于PCA的XML文档特征提取方法
引用本文:郭丽红,王箭.基于PCA的XML文档特征提取方法[J].计算机工程与设计,2011,32(11):3894-3896,3911.
作者姓名:郭丽红  王箭
作者单位:1. 南京航空航天大学计算机科学与技术学院,江苏南京210016;南京工程学院通信工程学院,江苏南京211167
2. 南京航空航天大学计算机科学与技术学院,江苏南京,210016
基金项目:国家863高技术研究发展计划基金项目,南京工程学院科研基金项目
摘    要:为了更好地对XML文档进行分类或聚类分析,以主成分分析的理论基础为指导,在研究了文本表示的各种模型的基础上,提出了两种对XML文档进行向量化表示并进行特征提取的方法,同时也实现了对XML文档的有效降维。实验结果表明,两种方法都能有效地表示XML文档的主体特征,但全路径特征向量抽取方法能更好地描述XML信息,为下一步有效处理XML文档做了良好铺垫,具有一定的研究价值。

关 键 词:XML文档  向量空间模型  特征提取  主成分分析  降维

Feature extraction methods for XML documents based on PCA
GUO Li-hong,WANG Jian.Feature extraction methods for XML documents based on PCA[J].Computer Engineering and Design,2011,32(11):3894-3896,3911.
Authors:GUO Li-hong  WANG Jian
Affiliation:GUO Li-hong1,2,WANG Jian2(1.College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China,2.College of Communications Engineering,Nanjing Institute of Technology,Nanjing 211167,China)
Abstract:To classify or analyze XML documents better,based on the theoretical analysis of principal component analysis and the study of text representation model,the effective methods aiming to form the feature vector and extract the feature of xml documents is presented,at the same time it can reduce the dimensions of XML documents.The experiment result shows that two methods both can represent the main feature of XML document effectively,but the method of all path feature extraction for XML document is better than...
Keywords:xml document  vector space model  feature extraction  principal component analysis  reducing dimensions  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号