首页 | 官方网站   微博 | 高级检索  
     

MSDL-IEW:面向文本分类的密集度感知主动学习算法
引用本文:TRAN Baphan,马菲菲,明晶晶,余秦勇,杨辉,李全兵,王永利.MSDL-IEW:面向文本分类的密集度感知主动学习算法[J].数据采集与处理,2021,36(2):240-247.
作者姓名:TRAN Baphan  马菲菲  明晶晶  余秦勇  杨辉  李全兵  王永利
作者单位:1.南京理工大学计算机科学与工程学院, 南京 210094;2.中电科大数据研究院有限公司, 贵阳 550022;3.提升政府治理能力大数据应用技术国家工程实验室, 贵阳 550022;4.南京供电公司, 南京 210000;5.中国电子科技网络信息安全有限公司, 成都 610041
基金项目:国家自然科学基金(61941113)资助项目;中央高校基本科研业务费专项(30916011328, 30918015103)资助项目;南京市科技计划(201805036)资助项目;提升政府治理能力大数据应用技术国家工程实验室开放基金资助项目。
摘    要:为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法。提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,在密集度高的样本区域选取初始训练集样本,从而使初始训练集更具代表性;从未标注样本中选取更具不确定性的样本加入到训练集中,并基于信息熵对样本进行加权训练,迭代更新分类器模型,直至达到预期终止条件。实验结果表明,在文本分类任务中,该方法相较于其他传统主动学习算法性能更优。

关 键 词:文本分类  主动学习  隐含狄利克雷分布  不确定性  密集度
收稿时间:2020/6/4 0:00:00
修稿时间:2020/11/29 0:00:00

MSDL-IEW: Active Learning Algorithm for Text Classification Based on Density Perception
TRAN Baphan,MA Feifei,MING Jingjing,YU Qinyong,YANG Hui,LI Quanbing,WANG Yongli.MSDL-IEW: Active Learning Algorithm for Text Classification Based on Density Perception[J].Journal of Data Acquisition & Processing,2021,36(2):240-247.
Authors:TRAN Baphan  MA Feifei  MING Jingjing  YU Qinyong  YANG Hui  LI Quanbing  WANG Yongli
Affiliation:1.School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China;2.CETC Big Data Research Institute Co Ltd, Guiyang 550022,China;3.Big Data Application on Improving Government Governance Capabilities National Engineering Laboratory, Guiyang 550022, China;4.Nanjing Power Supply Company, Nanjing 210000, China;5.China Electronics Technology Cyber Security Co Ltd, Chengdu 610041, China
Abstract:
Keywords:text classification  active learning  Latent Dirichlet allocation (LDA)  uncertainty  density
点击此处可从《数据采集与处理》浏览原始摘要信息
点击此处可从《数据采集与处理》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号