首页 | 官方网站   微博 | 高级检索  
     

基于栏目的藏文网页文本自动分类方法
引用本文:胥桂仙,向春丞,翁彧,赵小兵,杨国胜.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4):20-24.
作者姓名:胥桂仙  向春丞  翁彧  赵小兵  杨国胜
作者单位:1. 中央民族大学 信息工程学院,北京 100081; 2. 国家语言资源监测与研究中心 少数民族语言分中心,北京 100081
基金项目:国家科技支撑计划资助项目(2009BAH41B00)
摘    要:该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。

关 键 词:藏文信息处理  文本分类  藏文网页分类  

Automatic Text Classification of Tibetan Web Pages Based on Column
XU Guixian,XIANG Chuncheng,WENG Yu,ZHAO Xiaobing,YANG Guosheng.Automatic Text Classification of Tibetan Web Pages Based on Column[J].Journal of Chinese Information Processing,2011,25(4):20-24.
Authors:XU Guixian  XIANG Chuncheng  WENG Yu  ZHAO Xiaobing  YANG Guosheng
Affiliation:1. College of Information Engineering,Minzu University of China, Beijing 100081, China ;
2. Minority Languages Branch, National Language Resource Monitoring & Research Center, Beijing 100081, China
Abstract:In this paper,we present a simple and fast classification approach for Tibetan web pages.It takes advantage of the class characteristics of term in the web page columns and combines the text extraction technology of web pages to classify the Tibetan web pages into the predefined classes.The experiments show that the approach has high classification accuracy for Tibetan web pages classification.It has helpful for the construction of high quality and multi-classes corpus of Tibetan.
Keywords:Tibetan information processing  text classification  classification of Tibetan pages  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号