首页 | 官方网站   微博 | 高级检索  
     

中文短文本分类技术研究综述
引用本文:刘硕,王庚润,李英乐,郭程远.中文短文本分类技术研究综述[J].信息工程大学学报,2021,22(3):304-312.
作者姓名:刘硕  王庚润  李英乐  郭程远
作者单位:信息工程大学,河南 郑州 450001
基金项目:国家自然科学基金资助项目(61803384)
摘    要:随着信息技术的迅速发展,网络上产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。中文短文本相较于长文本,存在字数少、歧义多、特征稀疏和信息不规范等特点,导致使用传统文本分类技术效果不佳。首先介绍中文短文本分类技术的研究现状;其次围绕中文短文本分类的基本流程和关键技术进行阐述,并对文本预处理、文本表示、特征扩展和分类算法做出详细介绍;最后对中文短文本分类技术未来发展的趋势进行展望。

关 键 词:短文本分类  特征扩展  文本表示  分类器
收稿时间:2020/12/29 0:00:00
修稿时间:2021/1/19 0:00:00

Survey on Chinese Short Text Classification Technology
LIU Shuo,WANG Gengrun,LI Yingle,GUO Chengyuan.Survey on Chinese Short Text Classification Technology[J].Journal of Information Engineering University,2021,22(3):304-312.
Authors:LIU Shuo  WANG Gengrun  LI Yingle  GUO Chengyuan
Abstract:With the rapid development of information technology, massive amounts of Chinese shorttext data have been generated on the Intermet. Using Chinese short text classification technology todig oul valuable information from low-information data is a current research hotspot. Compared withlong texts, Chinese short texts have the characteristics of fewer words, more ambiguities, sparse fea-tures, and irregular information, which leads to poor results using traditional text classification tech-esearch status of Chinese short text classification technology is first introduced in thispaper. Then, the basic process and key technologies of Chinese short text classification are elabora-ted. Further, it gives a detailed introduction to text preprocessing, text representation, feature expansion and classification algorithms. Finally, the future development trend of Chinese short textclassification technology is prospected.
Keywords:
点击此处可从《信息工程大学学报》浏览原始摘要信息
点击此处可从《信息工程大学学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号