首页 | 官方网站   微博 | 高级检索  
     

乌兹别克语命名实体数据集构建研究
引用本文:艾孜海尔江·玉素甫,姬东鸿,李霏,滕冲,艾孜尔古丽.乌兹别克语命名实体数据集构建研究[J].中文信息学报,2023(9):83-91.
作者姓名:艾孜海尔江·玉素甫  姬东鸿  李霏  滕冲  艾孜尔古丽
作者单位:1. 武汉大学国家网络安全学院空天信息安全与可信计算教育部重点实验室;2. 新疆师范大学计算机科学技术学院
基金项目:国家自然科学基金(62176187,61662081);;国家重点研究与发展计划(2017YFC1200500);
摘    要:命名实体识别(NER)是自然语言处理领域的一个重要任务,用于在文本中识别实体并将其分类为预定义的类型。乌兹别克语(简称乌语)命名实体识别在国内外相关研究中处于初级阶段,目前为止尚没有公开、通用的乌语命名实体识别数据集,导致了乌语命名实体识别的进展受到了限制。该文旨在构建一个基于乌兹别克语新闻文本的NER数据集,收集了500篇乌兹别克语新闻文章,并人工标注了其中的人名、地名和组织机构名。随后,利用实体命名识别的主流深度学习模型在该数据集上进行了实验与比较分析。实验结果表明,主流深度学习模型的F1值均在90%以上,证明了该文构建的数据集的有效性和可用性。该文旨在推动乌语命名实体识别领域的研究发展,为该领域提供数据集和基线模型,以扩展相关研究。

关 键 词:自然语言处理  乌兹别克语  实体命名识别
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号