首页 | 官方网站   微博 | 高级检索  
     

结合字形特征与迭代学习的金融领域命名实体识别
引用本文:刘宇瀚,刘常健,徐睿峰,骆旺达,陈奕,吉忠晟,应能涛.结合字形特征与迭代学习的金融领域命名实体识别[J].中文信息学报,2021,34(11):74-83.
作者姓名:刘宇瀚  刘常健  徐睿峰  骆旺达  陈奕  吉忠晟  应能涛
作者单位:哈尔滨工业大学(深圳) 计算机科学与技术学院,广东 深圳 518055
基金项目:国家自然科学基金(61632011,61876053);深圳市基础研究项目(JCYJ20180507183527919,JCYJ20180507183608379);深圳市技术攻关项目(JSGG20170817140856618)
摘    要:针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31 210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。

关 键 词:金融领域命名实体识别  中文语料库  深度学习  

Utilizing Glyph Feature and Iterative Learning for Named Entity Recognition in Finance Text
LIU Yuhan,LIU Changjian,XU Ruifeng,LUO Wangda,CHEN Yi,JI Zhongsheng,YING Nengtao.Utilizing Glyph Feature and Iterative Learning for Named Entity Recognition in Finance Text[J].Journal of Chinese Information Processing,2021,34(11):74-83.
Authors:LIU Yuhan  LIU Changjian  XU Ruifeng  LUO Wangda  CHEN Yi  JI Zhongsheng  YING Nengtao
Affiliation:School of Computer Science, Harbin Institute of Technology (Shenzhen), Shenzhen, Guangdong 518055, China
Abstract:To deal with Chinese named entity recognition in finance domain, this paper presents a novel neural network model combining glyph feature and iterative learning, Based on the framework of bidirectional long-short term memory networks and conditional random fields, this model encodes wubi input code of Chinese characters for information enhancement and use iterative learning to continuously update predict results. We manually annotate a large-scale financial named entity corpus named HITSZ-Finance, including 31210 sentences and 4 types of entities. Experiment results on HITSZ-Finance corpus demonstrate the effectiveness of the model.
Keywords:named entity recognition in financial field  Chinese corpus  deep learning  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号