首页 | 官方网站   微博 | 高级检索  
     

基于多策略的维吾尔文网页识别方法
引用本文:阿力木·木拉提,艾孜尔古丽,杨雅婷,李 晓. 基于多策略的维吾尔文网页识别方法[J]. 中文信息学报, 2017, 31(1): 133-139
作者姓名:阿力木·木拉提  艾孜尔古丽  杨雅婷  李 晓
作者单位:1. 中国科学院 新疆理化技术研究所,新疆 乌鲁木齐 830011;
2. 新疆民族语音语言信息处理重点实验室,新疆 乌鲁木齐 830011;
3. 中国科学院大学, 北京 100049;
4. 新疆师范大学 计算机科学技术学院, 新疆 乌鲁木齐 830054
基金项目:国家自然科学基金(61662081);新疆维吾尔自治区青年科技创新人才培养工程项目—面向维汉机器翻译的维吾尔语命名实体识别研究(2014711006);新疆维吾尔自治区青年科技创新人才培养工程项目—维汉机器翻译模型关键技术研究(2014721032);新疆维吾尔自治区自然科学基金—基于多特征融合的复杂形态语言建模研究(2015211B034);中科院战略性先导科技专项—新疆少数民族信息处理(XDA06030400)
摘    要:经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。

关 键 词:维吾尔文  网页识别  N-Gram方法  常用词  向量空间模型  

An Approach to Uyghur Webpage Recognition Based on Multi-strategy
Alim Murat,Azragul,YANG Yating,LI Xiao. An Approach to Uyghur Webpage Recognition Based on Multi-strategy[J]. Journal of Chinese Information Processing, 2017, 31(1): 133-139
Authors:Alim Murat  Azragul  YANG Yating  LI Xiao
Affiliation:1. Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Science,
Xinjiang,Urumqi 830011, China;
2. Xinjiang Key Laboratory of Minority Speech and Language Information Processing,
Xinjiang,Urumqi 830011, China;
3. University of Chinese Academy of Science, Beijing 100049, China;
4. School of Computer Science and Technology,Xinjiang Normal University, Xinjiang, Urumqi 830054, China
Abstract:This paper studies the web-page identification task for Uyghur. It first develops the the character encoding conversion rules for non-standard Uyghur characters in the webpages. Then, two identification approaches are described: one is the modified N-Gram method (MNG) method and the other is that a feature vector method (utilizing the frequent Uyghur words via an VSM ). The experimental datasets constitute of three different types of Uyghur web-pages. The results show that N-Gram based approach performs better in identifying web-pages with long texts as in news site and forum, while the feature vector approach out-performes in web-pages of short text. Combining these two methods yields above 90% F1 score in the experiment.
Keywords:Uyghur  Web-page Identification  N-Gram method  common word  vector space model  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号