首页 | 官方网站   微博 | 高级检索  
     

基于模板化的Blog信息抽取
引用本文:时达明,林鸿飞,赵晶.基于模板化的Blog信息抽取[J].计算机工程与应用,2008,44(9):156-158.
作者姓名:时达明  林鸿飞  赵晶
作者单位:大连理工大学,计算机科学与工程系,辽宁,大连,116024
基金项目:国家自然科学基金 , 国家高技术研究发展计划(863计划)
摘    要:Blog(博客)可以称为在线个人日志。作为一种新兴的媒体,Blog目前已经成为一种在Web上表达个人观点和情感的一种非常流行的方式。那么如何从Blog中快速准确地抽取有用的信息(话题发布时间、话题题目、话题内容、评论内容等)就成为了Blog应用中一个非常重要的步骤。提出了一种基于模板化的Blog信息抽取方法,该方法通过分析Blog网站的HTML源代码,然后提取出网站的模板,并根据该模板对Blog网页进行信息抽取。对来自国内10个著名博客网站进行模板的提取,并对这10个网站中的7374个Blog网页进行了实验,实验结果表明,该方法能根据提取出的模板快速、准确地对Blog网页进行信息抽取。

关 键 词:博客  信息抽取  模板
文章编号:1002-8331(2008)09-0156-03
收稿时间:2007-6-5
修稿时间:2007年6月5日

Blog information extraction based on template
SHI Da-ming,LIN Hong-fei,ZHAO Jing.Blog information extraction based on template[J].Computer Engineering and Applications,2008,44(9):156-158.
Authors:SHI Da-ming  LIN Hong-fei  ZHAO Jing
Affiliation:Department of Computer Science and Engineering,Dalian University of Technology,Dalian,Liaoning 116024,China
Abstract:Blog is called online personal diaries.Being a kind of rising media,Blog has become a prevalent way to express personal opinions and emotions on Web.So how to extract useful information(topic posting date,topic title,topic content,comments,etc.) from Blogs has become an important step in Blogs’ application.This paper presents an approach of Blog information extraction based on template.This approach generates templates of Blog web sites by analyzing source codes,and it then extracts Blog web pages according to these templates.In this paper,templates of 10 famous Blog web sites are extracted,and experiment results on a set of 7 374 web pages from these 10 web sites show that this approach can extracted information from Blogs rapidly and exactly according to the templates.
Keywords:Blog  information extraction  template
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号