基于排序集成的哈萨克语固定短语抽取 Rank aggregation-based Kazakh fixed phrases extraction期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于排序集成的哈萨克语固定短语抽取

引用本文：	桑海岩,古丽拉·阿东别克,孙瑞娜,陈莉.基于排序集成的哈萨克语固定短语抽取[J].计算机工程与应用,2014(21):205-209,223.

作者姓名：	桑海岩古丽拉·阿东别克孙瑞娜陈莉

作者单位：	1. 新疆大学信息科学与工程学院，乌鲁木齐 830046; 国家语言资源监测与研究中心少数民族语言中心哈萨克和柯尔克孜语文基地，乌鲁木齐 830046 2. 新疆财经大学统计信息学院,乌鲁木齐,830046

基金项目：	国家自然科学基金(No.61063025)；新疆多语种信息技术重点实验室开放项目(No.049807)。

摘要：	短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。
关键词：	自然语言处理固定短语排序集成互信息似然比 C-value算法
Rank aggregation-based Kazakh fixed phrases extraction

SANG Haiyan,GuliaALTENBEK , SUN Ruina,CHEN Li.Rank aggregation-based Kazakh fixed phrases extraction[J].Computer Engineering and Applications,2014(21):205-209,223.

Authors:	SANG Haiyan GuliaALTENBEK SUN Ruina CHEN Li

Abstract:

Keywords:	natural language processing fixed phrases rank aggregation mutual information log-likelihood C-value
本文献已被 CNKI 万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏