首页 | 官方网站   微博 | 高级检索  
     

中心修正增量主成分分析及其在文本分类中的应用
引用本文:陈素芬,曾雪强.中心修正增量主成分分析及其在文本分类中的应用[J].中文信息学报,2016,30(1):108-115.
作者姓名:陈素芬  曾雪强
作者单位:1. 南昌工程学院 信息工程学院,江西 南昌 330099;
2. 南昌大学 计算中心,江西 南昌 330031)
基金项目:国家自然科学基金(61463033);江西省自然科学基金(20151BAB207028)
摘    要:增量式学习模型是挖掘大规模文本流数据的一种有效的数据处理技术。无偏协方差无关增量主成分分析(Candid Covariance-free Incremental Principal Component Analysis, CCIPCA)是一种增量主成分分析模型,具有收敛速度快和降维效果好的特点。但是,CCIPCA模型要求训练数据是已经中心化或中心向量固定的。在实际的应用中,CCIPCA往往采用一种近似的中心化算法对新样本进行处理,而不会对历史数据进行中心化修正。针对这一问题,该文提出了一种中心修正增量主成分分析模型(Centred Incremental Principal Component Analysis, CIPCA)。CIPCA算法不仅对新样本进行中心化处理,而且会对历史数据进行准确的中心化修正。在文本流数据上的实验结果表明,CIPCA算法的收敛速度和分类性能明显优于CCIPCA算法,特别是在原始数据的内在模型不稳定的情况下,新算法的优势更为明显。

关 键 词:主成分分析  中心化修正  流数据  维数约减  增量学习  />  

Centred Incremental Principal Component Analysis and Its Application in Text Classification
CHEN Sufen,ZENG Xueqiang.Centred Incremental Principal Component Analysis and Its Application in Text Classification[J].Journal of Chinese Information Processing,2016,30(1):108-115.
Authors:CHEN Sufen  ZENG Xueqiang
Affiliation:1. School of Information Engineering, Nanchang Institute of Technology, Nanchang, Jiangxi 330099, China;
2. Computing Center of Nanchang University, Nanchang, Jiangxi 330031,China
Abstract:For the data mining of large-scale and streaming text data, incremental dimension reduction is an essential technique. As a state-of-the-art solution, Candid Covariance-free Incremental Principal Component Analysis (CCIPCA) applies an approximate centric alignment on the input data, where only the current sample is centred but all historical data are not updated properly. In this paper, we propose a Centred Incremental Principal Component Analysis (CIPCA) algorithm with exact historical mean update. Compared to CCIPCA, the proposed method not only correctly centered the current sample, but also correctly update all historical data by the current mean. The experiments on text streaming dataset show that CIPCA converges more quickly with the data flows in, and the performance improvement is especially obvious when the datas inherent covariance is not stable.
Keywords:principal component analysis  exact mean update  streaming data  dimension reduction  incremental learning  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号