基于N元模型的维吾尔文文本分类技术研究 Research N-gram based Uyghur text classification technique期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于N元模型的维吾尔文文本分类技术研究

引用本文：	买买提依明·哈斯木,吾守尔·斯拉木,维尼拉·木沙江,努尔麦麦提·尤鲁瓦斯.基于N元模型的维吾尔文文本分类技术研究[J].计算机应用研究,2015,32(7).

作者姓名：	买买提依明·哈斯木吾守尔·斯拉木维尼拉·木沙江努尔麦麦提·尤鲁瓦斯

作者单位：	1. 新疆大学信息科学与工程学院新疆多语种重点实验室,乌鲁木齐830046;和田师范专科学校计算机科学系,新疆和田848000 2. 新疆大学信息科学与工程学院新疆多语种重点实验室,乌鲁木齐,830046

基金项目：	国家“973”重点基础研究计划基金资助项目，国家自然科学基金资助项目

摘要：	考虑到维吾尔文词干提取、词性标注等工具不够成熟和相关的开源资源很少的实际情况,提出了基于N元模型的维吾尔文文本分类技术.其特点是不需要任何自然语言处理工具,拼写错误率对分类结果的影响很低.在训练阶段分别提取字符级别的三元和四元模型构造不同规模的N元词典,在分类测试阶段分别用曼哈顿距离计算和骰子测量对文本进行分类.实验结果表明,当四元模型词典的规模为500时,使用骰子测量分类时性能最佳,平准准确率达到86.56％.
关键词：	N元文本分类维吾尔文 N元词典相似度曼哈顿距离骰子测量
Research N-gram based Uyghur text classification technique

Maimaitiyiming Hasimu,Wushouer Silamu,Weinila Mushajiang,Nuermaimaiti Youluwasi.Research N-gram based Uyghur text classification technique[J].Application Research of Computers,2015,32(7).

Authors:	Maimaitiyiming Hasimu Wushouer Silamu Weinila Mushajiang Nuermaimaiti Youluwasi

Abstract:

Keywords:	N-gram text classification Uyghur text N-gram profile similarity Manhattan distance dice measure
本文献已被万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏