首页 | 官方网站   微博 | 高级检索  
     

基于N元模型的维吾尔文文本分类技术研究
引用本文:买买提依明·哈斯木,吾守尔·斯拉木,维尼拉·木沙江,努尔麦麦提·尤鲁瓦斯.基于N元模型的维吾尔文文本分类技术研究[J].计算机应用研究,2015,32(7).
作者姓名:买买提依明·哈斯木  吾守尔·斯拉木  维尼拉·木沙江  努尔麦麦提·尤鲁瓦斯
作者单位:1. 新疆大学信息科学与工程学院新疆多语种重点实验室,乌鲁木齐830046;和田师范专科学校计算机科学系,新疆和田848000
2. 新疆大学信息科学与工程学院新疆多语种重点实验室,乌鲁木齐,830046
基金项目:国家“973”重点基础研究计划基金资助项目,国家自然科学基金资助项目
摘    要:考虑到维吾尔文词干提取、词性标注等工具不够成熟和相关的开源资源很少的实际情况,提出了基于N元模型的维吾尔文文本分类技术.其特点是不需要任何自然语言处理工具,拼写错误率对分类结果的影响很低.在训练阶段分别提取字符级别的三元和四元模型构造不同规模的N元词典,在分类测试阶段分别用曼哈顿距离计算和骰子测量对文本进行分类.实验结果表明,当四元模型词典的规模为500时,使用骰子测量分类时性能最佳,平准准确率达到86.56%.

关 键 词:N元  文本分类  维吾尔文  N元词典  相似度  曼哈顿距离  骰子测量

Research N-gram based Uyghur text classification technique
Maimaitiyiming Hasimu,Wushouer Silamu,Weinila Mushajiang,Nuermaimaiti Youluwasi.Research N-gram based Uyghur text classification technique[J].Application Research of Computers,2015,32(7).
Authors:Maimaitiyiming Hasimu  Wushouer Silamu  Weinila Mushajiang  Nuermaimaiti Youluwasi
Abstract:
Keywords:N-gram  text classification  Uyghur text  N-gram profile  similarity  Manhattan distance  dice measure
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号