首页 | 官方网站   微博 | 高级检索  
     

利用词的分布式表示改进作文跑题检测
引用本文:陈志鹏,陈文亮,朱慕华. 利用词的分布式表示改进作文跑题检测[J]. 中文信息学报, 2015, 29(5): 178-185
作者姓名:陈志鹏  陈文亮  朱慕华
作者单位:1. 苏州大学 计算机科学与技术学院,江苏 苏州 215006;
2. 软件新技术与产业化协同创新中心,江苏 苏州 215006;
3. 淘宝(中国)软件有限公司,浙江 杭州 311100
基金项目:国家自然科学基金(61203314, 61333018)
摘    要:作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相似度。该文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试。实验结果表明该文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。


关 键 词:文本相似度  词分布式表示  跑题检测  文本表示  

Exploiting Distributed Representation of Words for Better Off-Topic Essay Detection
CHEN Zhipeng,CHEN Wenliang,ZHU Muhua. Exploiting Distributed Representation of Words for Better Off-Topic Essay Detection[J]. Journal of Chinese Information Processing, 2015, 29(5): 178-185
Authors:CHEN Zhipeng  CHEN Wenliang  ZHU Muhua
Affiliation:1. School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China;
2. Collaborative Innovation Center of Novel Software Technology and Industrialization, Suzhou, Jiangsu 215006, China;
3.Taobao (China) Software Co., Ltd,Hangzhou,Zhejiang 311100, China
Abstract:Similarity measure is the core component of off-topic essays detection. To compute the text similarity, the bag-of-words model is widely used, which represents a text as a vector with each dimension corresponds to a word. To further capture the word semantic information, this paper proposes a new method to compute text similarity: a method exploits word distributed representation. The proposed method combines the traditional bag-of-words model with the word semantic information. For each word in a text, we search for a set of similar words in a text collection, and then extend the text vector with these words. Finally we compute text similarity with the updated text. Experimental results show that our method is more effective than baseline systems.
Keywords:text similarity  word distributed representation  digress test  text representation  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号