首页 | 官方网站   微博 | 高级检索  
     

基于HTMLParser的BT种子网页信息抽取
引用本文:张丽娜,陈俊杰,赵丽欣.基于HTMLParser的BT种子网页信息抽取[J].电脑开发与应用,2010,23(3):59-61.
作者姓名:张丽娜  陈俊杰  赵丽欣
作者单位:1. 太原理工大学计算机与软件学院,太原,030024
2. 科学出版社,北京,100086
基金项目:国家自然科学基金资助项目(60970059);;山西省自然科学基金资助项目(2007011050);;山西省国际科技合作基金资助项目(2009081022)
摘    要:通过采用相对路径方法结合节点内容特征进行信息定位,利用HTMLParser解析器的信息转化功能对定位的信息块进行预处理,总结出抽取规则,实现了BT种子网页信息抽取,并以此建立了一种针对BT种子信息的抽取模型。

关 键 词:HTMLParser  信息抽取  BT种子信息

The Information Extraction based on BT Torrent using HTMLParser
Zhang Lina et al.The Information Extraction based on BT Torrent using HTMLParser[J].Computer Development & Applications,2010,23(3):59-61.
Authors:Zhang Lina
Abstract:In this paper,the target information block is correctly extracted by using relative paths in document combined the contents of nodes,which is pretreated by HTMLParser,then the extraction rules are proposed,the web information extract of BT torrent is implemented.And the model of information extraction aimed at BT torrent web is presented.
Keywords:HTMLParser  information extract  BT torrent information  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号