首页 | 官方网站   微博 | 高级检索  
     

基于维基百科的冬奥会概念下的低频词条双语迭代扩展
引用本文:王星,陶明阳,侯磊,于济凡,单力秋,张馨如,陈吉.基于维基百科的冬奥会概念下的低频词条双语迭代扩展[J].中文信息学报,2021,35(2):33.
作者姓名:王星  陶明阳  侯磊  于济凡  单力秋  张馨如  陈吉
作者单位:1.辽宁工程技术大学 电子与信息工程学院,辽宁 葫芦岛 125105;
2.清华大学 计算机科学与技术系,北京 100084;
3.清华大学 人工智能研究院知识智能研究中心,北京 100084;
4.清华大学 北京信息科学与技术国家研究中心,北京 100084
基金项目:国家自然科学基金(61402212);国家“十三五”重点研发计划(2017YFB1002101);NSFC-通用技术基础研究联合基金(U1736204);国家自然科学基金(61533018);辽宁省高等学校杰出青年学者成长计划(LJQ2015045);中国博士后基金(2016M591452);辽宁省自然科学基金(2015020098);辽宁工程技术大学青年教师提升计划(拔尖人才)。
摘    要:随着2022年北京冬奥会的临近,有必要构建一个与冬奥会相关的垂直领域知识图谱,但目前网络上没有较完整的冬奥会相关术语集,因此,需要用集合扩展的方法对冬奥会术语集进行补充。近年来,集合扩展的方法主要基于Word2Vec进行研究,但扩展平均词频较低的冬奥会中文领域时效果并不理想。该文提出了中英文双语迭代扩展的方法,利用数量多、词频较高的英文语料库和中英文跨语言同义词数据集解决中文数据集平均质量较低的问题。该文使用维基百科中冬奥会领域相关的词条组成的数据集进行实验。实验结果表明,与其他集合扩展方法相比,该文提出的扩展方法扩展出的新词质量提升了12%以上。

关 键 词:集合扩展  低频词  迭代扩展  
收稿时间:2019-12-13

Bilingual Iterative Extension of Low Frequency Terms via Winter Olympics Entry in Wikipedia
WANG Xing,TAO Mingyang,HOU Lei,YU Jifan,SHAN Liqiu,ZHANG Xinru,CHEN Ji.Bilingual Iterative Extension of Low Frequency Terms via Winter Olympics Entry in Wikipedia[J].Journal of Chinese Information Processing,2021,35(2):33.
Authors:WANG Xing  TAO Mingyang  HOU Lei  YU Jifan  SHAN Liqiu  ZHANG Xinru  CHEN Ji
Affiliation:1. School of Electronic and Information Engineering, Liaoning Technical University, Huludao, Liaoning 125105,China;2. Department of Computer Science and Technology, Tsinghua University,Beijing 100084,China;3. Knowledge Intelligence Research Center, Institute for Artificial Intelligence, Tsinghua University,Beijing 100084,China;4. Beijing National Research Center for Information Science and Technology, Tsinghua University,Beijing 100084,China
Abstract:It is of practical significance to develop a knowledge graph for the Beijing Winter Olympics 2022. To capture the complete glossary related to the Winter Olympics, this paper proposes a method of Chinese low frequency term expansion via bilingual iterative extension by exploiting the English corpus. Specifically, this paper uses a data set consisting of entries related to the Winter Olympics field in Wikipedia. This approach avoids the defects of existing Word2Vec approach which demanding large scale Chinese corpus with abundant target terms, which is not available. The experimental results show that compared with other set expansion methods, the proposed method has improved the quality of new extended words by more than 12%.
Keywords:set extension  low frequency word  iterative extension  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号