首页 | 官方网站   微博 | 高级检索  
     

面向单一双语网页的双语资源挖掘方法
引用本文:罗阳,季铎,张桂平,王莹莹.面向单一双语网页的双语资源挖掘方法[J].中文信息学报,2011,25(1):110-116.
作者姓名:罗阳  季铎  张桂平  王莹莹
作者单位:沈阳航空航天大学 知识工程中心,辽宁 沈阳 110136
基金项目:辽宁省教育厅科研项目资助(LT2010084)
摘    要:双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。该文提出一种面向单一双语网页的双语资源挖掘方法,该方法重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一双语网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,该方法能够有效改进双语资源挖掘的质量。

关 键 词:Web挖掘  网页分类  双语资源  频繁序列模式  支持向量机  

A Method of Mining Bilingual Resources from Single Bilingual Web Pages
LUO Yang,JI Duo,ZHANG Guiping,WANG Yingying.A Method of Mining Bilingual Resources from Single Bilingual Web Pages[J].Journal of Chinese Information Processing,2011,25(1):110-116.
Authors:LUO Yang  JI Duo  ZHANG Guiping  WANG Yingying
Affiliation:Engineering Research Center, Shenyang Aerospace University, Shenyang, Liaoning 110136, China
Abstract:Bilingual resources are the important resources in the areas of machine translation and cross language information retrieval.But concerning the corpus issues such as theauthenticity of language in use,the updatedness of langauge and the language flexibility,the existing bilingual resources are far from meeting the demand of the practical applications.This paper proposes a web based bilingual-resources mining method based on frequent sequence pattern.This algorithm adopts the SVM classification method with f...
Keywords:Web mining  Web pages classification  bilingual resources  frequent sequence pattern  support vector machine  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号