首页 | 官方网站   微博 | 高级检索  
     

机器学习在汉语关联词语识别中的应用
引用本文:高维君,姚天顺,黎邦洋,陈伟光,邹嘉彦.机器学习在汉语关联词语识别中的应用[J].中文信息学报,2000,14(3):1-8.
作者姓名:高维君  姚天顺  黎邦洋  陈伟光  邹嘉彦
作者单位:1.东北大学计算机科学研究所2.香港城市大学语言资讯科学研究中心
摘    要:关联词语在一些汉语议论文章中占很大的比重,因而,对于此类汉语文章的分析,关联词可以起到非常重要的作用。本文主要讨论如何将机器学习应用于汉语关联词的歧义辨别——原因,方法和效果。我们在已经加工完毕的80篇汉语语料的基础上,抽取了用于机器学习的训练集和测试集,并使用C4.5进行了测试,识别正确率在80%以上。在文章的后面,我们还从语言学的角度对机器学习的结果进行了解释和分析。

关 键 词:关联词语  机器学习  C4.5  话语分析  语料库  
修稿时间:1999年6月30日

Applying Machine Learning to Identify Chinese Discourse Markers
Gao Weijun Yao Tianshun Institute of Computer Science,Northeastern University Shenyang Tom B Y Lai Samuel W K Chan Benjamin K Tsou Language Information Sciences Research Center City University of Hong Kong Kowloon Hong Kong.Applying Machine Learning to Identify Chinese Discourse Markers[J].Journal of Chinese Information Processing,2000,14(3):1-8.
Authors:Gao Weijun Yao Tianshun Institute of Computer Science  Northeastern University Shenyang Tom B Y Lai Samuel W K Chan Benjamin K Tsou Language Information Sciences Research Center City University of Hong Kong Kowloon Hong Kong
Affiliation:1.Institute of Computer Science , Northeastern University2.Language Information Sciences Research Center, City University of Hong Kong
Abstract:With their high occurrence rates in argumentative Chinese texts,discourse markers play a significant role in the automatic processing of these kinds of Chinese texts,such as automatic summarization.This paper reports on an effort in applying machine learning to identify discourse markers in Chinese.We have processed 80 Chinese texts from which we have selected subsets for data training and data testing.We used C4.5 in our experiments and obtained accuracies of the order of 80%.We also interpret and analyze our experimental results in the linguistic perspective.
Keywords:Discourse marker  Machine learning  C4  5  Discourse analysis  Corpus
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号