基于搜索引擎的双语混合网页识别新方法 A Novel Method for Bilingual Web Page Mining Via Search Engines期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于搜索引擎的双语混合网页识别新方法

引用本文：	冯艳卉,洪宇,颜振祥,姚建民,朱巧明.基于搜索引擎的双语混合网页识别新方法[J].中文信息学报,2011,25(1):71-79.

作者姓名：	冯艳卉洪宇颜振祥姚建民朱巧明

作者单位：	苏州大学计算机科学与技术学院,江苏苏州 215006

基金项目：	国家自然科学基金项目资助(61003152;60970057;60873105)

摘要：	该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。
关键词：	Web挖掘双语混合网页平行语料
A Novel Method for Bilingual Web Page Mining Via Search Engines

FENG Yanhui,HONG Yu,YAN Zhenxiang,YAO Jianmin,ZHU Qiaoming.A Novel Method for Bilingual Web Page Mining Via Search Engines[J].Journal of Chinese Information Processing,2011,25(1):71-79.

Authors:	FENG Yanhui HONG Yu YAN Zhenxiang YAO Jianmin ZHU Qiaoming

Affiliation:	School of Computer Science & Technology, Soochow University, Suzhou, Jiangsu 215006,China

Abstract:	A new approach has been developed for acquiring bilingual web pages from the result pages of search engines,which is composed of two challenging tasks.The first task is to detect web records embedded in the result pages automatically via a clustering method of a sample page.Identifying these useful records through the clustering method allows the generation of highly effective features for the next task which is high-quality bilingual web page acquisition.The task of high-quality bilingual web page acquisit...

Keywords:	web mining bilingual web pages parallel corpora
本文献已被 CNKI 万方数据等数据库收录！
	点击此处可从《中文信息学报》浏览原始摘要信息
	点击此处可从《中文信息学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏