首页 | 官方网站   微博 | 高级检索  
     

基于领域词语本体的短文本分类
引用本文:宁亚辉,樊兴华,吴渝. 基于领域词语本体的短文本分类[J]. 计算机科学, 2009, 36(3): 142-145
作者姓名:宁亚辉  樊兴华  吴渝
作者单位:重庆邮电大学计算机科学与技术研究所,重庆,400065;重庆邮电大学计算机科学与技术研究所,重庆,400065;重庆邮电大学计算机科学与技术研究所,重庆,400065
基金项目:国家自然科学基金,重庆市自然科学基金,重庆市教委科学技术研究项目,教育部留学回国人员科研启动基金 
摘    要:短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类.提出了基于领域词语本体的短文本分类方法.首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元的信息量来衡量词的相似度,从而进行分类.对比实验表明,该方法在一定程度上弥补了短文本特征不足的缺点,且提高了准确率和召回率.

关 键 词:短文本  本体  知网  文本分类  语义  义元
收稿时间:2008-06-13

Short Text Classification Based on Domain Word Ontology
NING Ya-hui,FAN Xing-hua,WU Yu. Short Text Classification Based on Domain Word Ontology[J]. Computer Science, 2009, 36(3): 142-145
Authors:NING Ya-hui  FAN Xing-hua  WU Yu
Affiliation:Institute of Computer Science and Technology;Chongqing University of Postsand Telecommunications;Chongqing 400065;China
Abstract:The conventional methods of text classification are not suitable for short text classification because short texts are short and their ability of describing concept is weak.A method using the domain word ontologies for short texts classification was proposed.First,the domain high frequency words were got as the feature words.Then the feature words were extended to concept and "sememe" by Hownet,which extended the feature from semantic and amended the feature scarcity.Last,the word similarity values were got...
Keywords:Short-text  Ontology  Hownet  Text-classification  Semantic  Sememe  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号