首页 | 官方网站   微博 | 高级检索  
     

基于向量空间的网页内容相似度计算方法研究
引用本文:何忠秀,王霜,安礼成.基于向量空间的网页内容相似度计算方法研究[J].计算机与现代化,2010(9):53-55,58.
作者姓名:何忠秀  王霜  安礼成
作者单位:1. 西华大学数学与计算机学院,四川,成都,610039
2. 西华大学机械工程与自动化学院,四川,成都,610039
基金项目:西华大学人才培养基金 
摘    要:针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架。利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度。该系统缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为网络信息的分类、查询、智能化等奠定了良好的基础。

关 键 词:向量空间  网页内容相似度

Research on Webpage Content' Similarity Calculation Method Based on Vector Space Model
HE Zhong-xiu,WANG Shuang,AN Li-cheng.Research on Webpage Content' Similarity Calculation Method Based on Vector Space Model[J].Computer and Modernization,2010(9):53-55,58.
Authors:HE Zhong-xiu  WANG Shuang  AN Li-cheng
Affiliation:1.Sch.of Mathematics & Computer Eng.,Xihua Univ.,Chengdu 610039,China;2.Sch.of Mechanical Eng.& Automation,Xihua Univ.,Chengdu 610039,China)
Abstract:Aiming to data mining in great mass of Web pages,this paper puts forward Web page content' similarity calculation method based on vector space model and software system framework.This system extracts massive Web pages from search engines and distinguishes the URL pages coded in Chinese,then extracts this page out Chinese characters and selects out Chinese notional words,establishes vector space model to calculate the similarity between Web pages' contents.The system reduces the Web document range,saves a lot of time and space,and lays a good foundation for the classification,search and intellectualization for network information.
Keywords:vector space model  webpage content' similarity
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号