首页 | 官方网站   微博 | 高级检索  
     

基于Do-Bi-LSTM模型的电子政务文本相似度评估模型
引用本文:李凡,白尚旺,党伟超,潘理虎.基于Do-Bi-LSTM模型的电子政务文本相似度评估模型[J].计算机与现代化,2020,0(7):71-75.
作者姓名:李凡  白尚旺  党伟超  潘理虎
作者单位:太原科技大学计算机科学与技术学院,山西 太原 030024;太原科技大学计算机科学与技术学院,山西 太原 030024;太原科技大学计算机科学与技术学院,山西 太原 030024;太原科技大学计算机科学与技术学院,山西 太原 030024
基金项目:"十二五"山西科技重大专项项目;山西省科技攻关项目;山西省中科院科技合作项目
摘    要:针对当前政务系统中人工审批文本效率低下的问题,本文将文本相似度引入电子政务中。当前基于文本相似度的网络模型中,存在着生成的词向量矩阵巨大,需要大量的时间去训练,而且仅利用上下文的环境来生成词向量,忽略了文档的语序和语义的关系。为了提高效率并降低训练成本,本文提出基于Do-Bi-LSTM文本相似度计算方法,该模型首先通过Doc2vec语言模型把训练数据集中的文本转换成向量,该方法在词向量的基础上增加了文本向量,从而获取了句子之间以及段落之间的相互关系。然后把得到的向量作为Bi-LSTM网络模型的输入进行模型训练,最后与LSTM网络模型、传统的深度网络模型相比,实验表明本文方法的准确率有很大的提高,具有可行性。

关 键 词:文本相似度    Doc2vec    双向长短期记忆网络  
收稿时间:2020-07-15

E-government Text Similarity Evaluation Model Based on Do-Bi-LSTM Model
LI Fan,BAI Shang-wang,DANG Wei-chao,PAN Li-hu.E-government Text Similarity Evaluation Model Based on Do-Bi-LSTM Model[J].Computer and Modernization,2020,0(7):71-75.
Authors:LI Fan  BAI Shang-wang  DANG Wei-chao  PAN Li-hu
Abstract:In view of the inefficiency of manual approval texts in current government systems, this paper introduces text similarity into e-government. In the current network model based on text similarity, there is a huge matrix of generated word vectors, which requires a lot of time to train, and only uses the context of the context to generate word vectors, ignoring the relationship between the word order and semantics of the document. In order to improve efficiency and reduce training cost, this paper proposes a Do-Bi-LSTM text similarity calculation method, which first converts the text in the training data set into a vector through the Doc2vec language model. This method adds a text vector on the basis of the word vector, so can capture the interrelationship between sentences and between paragraphs. Then the obtained vector is trained as the input of the Bi-LSTM network model. Finally, compared with the LSTM network model and the traditional deep network model, the experiment shows that the accuracy of the method is greatly improved and feasible.
Keywords:text similarity  Doc2vec  bi-directional long short-term memory  
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机与现代化》浏览原始摘要信息
点击此处可从《计算机与现代化》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号