首页 | 官方网站   微博 | 高级检索  
     

基于Bootstrapping的文本分类模型
引用本文:陈文亮,朱慕华,朱靖波,姚天顺.基于Bootstrapping的文本分类模型[J].中文信息学报,2005,19(2):87-93.
作者姓名:陈文亮  朱慕华  朱靖波  姚天顺
作者单位:东北大学自然语言处理实验室,辽宁沈阳 110004
基金项目:国家自然科学基金委员会-微软亚洲研究院联合资助项目,教育部科学技术基金,国家自然科学基金
摘    要:本文提出一种基于Bootstrapping 的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping 的文本分类模型具有明显优势,仅使用每类100 篇种子训练集,分类结果的F1 值为70156 % ,比传统模型高出4170 %。该模型通过使用适当的权重因子可以更好改善分类器的训练效果。

关 键 词:计算机应用  中文信息处理  文本分类  最大熵模型  权重因子  
文章编号:1003-0077(2005)02-0086-07
修稿时间:2004年6月15日

Semi-Supervised Text Categorization Using Bootstrapping
CHEN Wen-liang,ZHU Mu-hua,ZHU Jing-bo,YAO Tian-shun.Semi-Supervised Text Categorization Using Bootstrapping[J].Journal of Chinese Information Processing,2005,19(2):87-93.
Authors:CHEN Wen-liang  ZHU Mu-hua  ZHU Jing-bo  YAO Tian-shun
Affiliation:Natural Language Processing Lab , Northeastern University , Shenyang , Liaoning 110004 ,China
Abstract:This paper proposes a semi supervised text categorization using bootstrapping. The System uses the Maximum Entropy Model as the text classifier. It learns more automatic labeled samples as new seed training samples from unlabeled samples using a small size of seed training samples. In this paper, we use a weighted factor to adjust the weight of new seed samples during the following training process. The experimental results show that the proposed system performs better than the conventional system with the same labeled documents. And it yields 70 56% F1 using only 100 labeled documents for each category, 4 7% over the conventional system does. And it can provide the same performance as the conventional system using 50% or less training samples. The results also show that the weighted factor can improve the performance.
Keywords:computer application  Chinese information processing  text categorization  maximum entropy  weight factor
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号