首页 | 官方网站   微博 | 高级检索  
     

基于潜在语义的网络社区发现
引用本文:班磊,方启明,武永卫,杨广文. 基于潜在语义的网络社区发现[J]. 计算机工程与应用, 2007, 43(22): 115-119
作者姓名:班磊  方启明  武永卫  杨广文
作者单位:清华大学计算机系清华信息科学与技术国家实验室(筹),北京100084;清华大学计算机系清华信息科学与技术国家实验室(筹),北京100084;清华大学计算机系清华信息科学与技术国家实验室(筹),北京100084;清华大学计算机系清华信息科学与技术国家实验室(筹),北京100084
基金项目:国家自然科学基金 , 国家高技术研究发展计划(863计划)
摘    要:采用类似于LSI的方法,对于blog网页的链接进行了一次关于潜在语义的探索,借以发现网络社区。从实验的结果来看,基本验证了最初的想法,网页链接在一定程度上包含潜在语义的信息。注意到语义网与现今的HTML网页在链接问题上思想基本一致(只是多了语义的标记),因此该方法同样适用于语义网内的社区发现与信息检索,这也是进行研究初衷。另一个贡献是通过幂迭代对GMC聚类作了算法上的优化,使得在海量数据上的处理速度大大加快。

关 键 词:语义检索  网络社区  潜在语义  GMC聚类  幂迭代
文章编号:1002-8331(2007)22-0115-05
修稿时间:2007-05-01

Web community detection with latent semantics
BAN Lei,FANG Qi-ming,WU Yong-wei,YANG Guang-wen. Web community detection with latent semantics[J]. Computer Engineering and Applications, 2007, 43(22): 115-119
Authors:BAN Lei  FANG Qi-ming  WU Yong-wei  YANG Guang-wen
Affiliation:Tsinghua National Laboratory for Information Science and Technology,Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China
Abstract:We explore the latent semantic relations between blog pages with links by a method similar to LSI to detect web communities.The result of our experiment confirms our original ideas that web links contain some latent semantic information.Notice that semantic web has no difference with current HTML web on links except for some semantic tags,we believe this method can also be applied to community detection and information retrieval on semantic web,which is the initial goal of our work.Another contribution of this paper is that we do some optimizations on GMC clustering method by power iteration,which makes it much faster when dealing with huge data source.
Keywords:semantic search   web community   latent semantic    GMC clustering   power iteration
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号