面向专业领域的多头注意力中文分词模型——以西藏畜牧业为例 |
| |
引用本文: | 崔志远,赵尔平,雒伟群,王伟,孙浩.面向专业领域的多头注意力中文分词模型——以西藏畜牧业为例[J].中文信息学报,2021,35(7):72-80. |
| |
作者姓名: | 崔志远 赵尔平 雒伟群 王伟 孙浩 |
| |
作者单位: | 西藏民族大学 信息工程学院,陕西 咸阳 712082 |
| |
基金项目: | 国家自然科学基金(61762082);西藏自治区自然科学基金(XZ2018ZRG-66);西藏自治区科技计划项目(XZ202001ZY0055G) |
| |
摘 要: | 专业领域语料往往比通用领域语料涵盖更多未登录词,如西藏畜牧业领域语料包含大量直接音译或者合成的人名、地名、牲畜名、牧草名等未登录词,是造成分词准确率低的最主要原因。针对该问题,该文提出面向专业领域的多头注意力机制中文分词模型,该模型把字向量表示的语句作为输入,利用双向门控循环神经网络与多头注意力机制学习字向量的上下文语义特征及它们之间的关系特征;为了让模型关注重点字向量之间的依赖关系及切分点信息,引入多头注意力机制,在不考虑字向量之间距离的前提下并行计算重要字向量与其它字向量的相关度,关注重要字对模型的贡献度;然后使用条件随机场学习词位标签,输出最优分词序列;最后构建领域词典进一步提高分词效果。在西藏畜牧业领域语料库进行实验,结果证明,该模型与BiLSTM-CRF等经典模型比较,精确率、召回率、F1值分别提高了3.93%、5.3%、3.63%,有效改善了西藏畜牧业领域语料的分词效果。
|
关 键 词: | 中文分词 多头注意力机制 双向门控循环神经网络 西藏畜牧业语料 |
收稿时间: | 2020-01-04 |
|
| 点击此处可从《中文信息学报》浏览原始摘要信息 |
|
点击此处可从《中文信息学报》下载全文 |
|