首页 | 官方网站   微博 | 高级检索  
     

基于中心化相似度矩阵的词向量方法
引用本文:徐帆,王裴岩,蔡东风.基于中心化相似度矩阵的词向量方法[J].计算机应用研究,2019,36(2).
作者姓名:徐帆  王裴岩  蔡东风
作者单位:沈阳航空航天大学人机智能研究中心,沈阳,110136;沈阳航空航天大学人机智能研究中心,沈阳,110136;沈阳航空航天大学人机智能研究中心,沈阳,110136
基金项目:辽宁省自然科学基金计划重点项目(20170540705);国家自然科学基金资助项目(61403262)
摘    要:词向量使用低维稠密向量表示词,通过向量运算能够反映词间关系,被广泛应用于自然语言处理任务。对基于矩阵分解的词向量方法进行了研究,发现降维前相似度矩阵质量与词向量质量存在线性相关性,提出了一种基于中心化相似度矩阵的方法。该方法使得相似(不相似或弱相似)词间的相似程度相对增强(减弱)。在WS-353和RW数据集的词语相似性实验中验证了所提出方法的有效性,两个数据集下词向量质量最高提升0.2896和0.1801。中心化能够提升降维前相似度矩阵质量,进而提升词向量质量。

关 键 词:词向量  中心化  相似度矩阵
收稿时间:2017/8/12 0:00:00
修稿时间:2018/12/30 0:00:00

Method of word vector based on centring similarity matrix
Xu Fan and Wang Peiyan.Method of word vector based on centring similarity matrix[J].Application Research of Computers,2019,36(2).
Authors:Xu Fan and Wang Peiyan
Abstract:The word vector, which represents word by a low dimensional dense vector. The relationships between words are denoted by vector operations. Hence it is broadly applied in tasks of natural language processing. The method of word vector based on matrix factorization is studied. It found that there is a linear correlation between the quality of no dimension reduction matrix and the quality of word vector. Furthermore, it derived a method of the word vector, which based on a kind of centring similarity matrix. This method makes the similarity between similar (dissimilar or weakly similar) words relatively enhanced (weakened) . In the word similarity experiments of WS-353 and RW datasets, the effectiveness of the proposed method is verified. The highest quality of the word vectors among the two datasets is 0.2896 and 0.1801. Centralization can improve the quality of similarity matrix, moreover it can improve the quality of word vector.
Keywords:the word vector  centralization  similarity matrix
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号