首页 | 官方网站   微博 | 高级检索  
     

潜在语义索引中特征优化技术的研究
引用本文:季铎,郑伟,蔡东风.潜在语义索引中特征优化技术的研究[J].中文信息学报,2009,23(2):69-76.
作者姓名:季铎  郑伟  蔡东风
作者单位:沈阳航空工业学院 知识工程中心,辽宁 沈阳 110034
基金项目:国家高技术研究发展计划(863计划),教育部科学技术研究重点项目 
摘    要:潜在语义索引被广泛应用于信息检索、文本分类、自动问答等领域中。潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上。在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的特征传递关系获得。该文认为这种特征传递关系会引入一些不存在的共现特征,从而降低潜在语义索引的性能,应该对这种特征传递关系进行一些选择,削除不存在的共现特征信息。该文采用文档频率对文档集合进行特征选择,用Complete-Link聚类算法在两个公开语料上进行三个实验,实验结果显示,保留文档频度的10%~15%时,其F1值分别提高了6.577 0%,1.992 8%和3.361 4%。

关 键 词:计算机应用  中文信息处理  潜在语义索引  共现特征  奇异值分解  特征选择
  

Research on Feature Optimization in Latent Semantic Indexing
JI Duo,ZHENG Wei,CAI Dong-feng.Research on Feature Optimization in Latent Semantic Indexing[J].Journal of Chinese Information Processing,2009,23(2):69-76.
Authors:JI Duo  ZHENG Wei  CAI Dong-feng
Affiliation:Knowledge Engineering Center, Shenyang Institute of Aeronautical Engineering,
Shenyang, Liaoning 110034, China
Abstract:Latent Semantic Indexing(LSI) has been applied to many fields,such as information retrieval,text classification,automatic question answering and so on.Basically,LSI is a dimensionality reducing method by projecting term co-occurrences into the same space.Therefore,in the semantic space of LSI,term co-occurrences are obtained by the term transfer relation both in single document and between different documents.This paper suggests that this term transfer relation causes some nonexisted term co-occurrences,whi...
Keywords:computer application  Chinese information processing  latent semantic indexing  term co-occurrence  singular value decomposition  feature selection  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号