首页 | 官方网站   微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   4篇
  免费   0篇
文化教育   4篇
  2011年   1篇
  2009年   1篇
  2005年   1篇
  2004年   1篇
排序方式: 共有4条查询结果,搜索用时 15 毫秒
1
1.
网络资源是指通过互联网传播共享、以文件目录为主要存储组织结构的内容,如书、讲义、音乐等.每个资源的内容具有完整独立性.它们是数字图书馆、教学资源库、专业内容库藏的重要组成.网络资源的一大特点是命名模式不规范,给检索利用带来极大不便.本文以2003~2006年间搜集的61万文件构成的16 284个网络资源为对象,用统计的方法考察网络资源命名特点及其中体现的用户命名习惯.包括资源及其内部子目录、文件的名字长度分布,字符类型熵、常用符号、高频片段模式、语义类型等,并分析无序命名中蕴含的用户命名习惯.本文的意义一方面有助于从混乱命名中净化和提取对检索查询有用的信息,另一方面有助于揭示网络用户参与海量网络资源共享的行为习惯.  相似文献   
2.
Web网页信息变化的时间局部性规律及其验证   总被引:6,自引:0,他引:6  
孟涛  闫宏飞  王继民 《情报学报》2005,24(4):398-406
掌握Web网页信息变化的时间规律可以更有针对性的指导搜索引擎等Web应用系统更有效地进行搜集。本文旨在研究中国范围内Web网页变化的时间规律,针对网页变化的频率和间隔两项指标,随机选取数百万网页作为样本,设计试验在一个月内对上述两项指标进行考察。从结论中,我们发现网页变化的若干规律,并发现其中可能存在时间局部性规律。因此,我们引入了堆栈距离模型,在针对Web网页的变化特性和具体实验方法对其修正之后,再次设计实验对网页变化的时间局部性规律进行考察。结果表明,网页的变化存在明显的时间局部性。最后,介绍了这种时间局部性规律在网页搜集中的实际应用。  相似文献   
3.
对信息检索系统返回结果相关度的改进,一直是信息检索领域重要的研究内容。本文首先引入查询词出现信息的概念,随后给出了查询词出现权重的形式化表示,进而将其与BM25模型结合起来。对于查询词出现权重的计算,本文采用了两种方法,即线性加权方法和因数加权方法。我们通过在GOV2数据集上的实验发现,无论哪种方法,通过加入查询词出现权重,都可以有效的改进检索结果的相关度。实验显示,对于TREC 2005的查询,MAP值的改进达到15.78%,p@10的改进达到3468%。本文所描述的方法已经应用到TREC 2009的WebTrack中。  相似文献   
4.
一种Web多维分析模型及应用   总被引:1,自引:0,他引:1  
朱家稷  闫宏飞 《情报学报》2004,23(5):553-560
Web上的网页正以惊人的速度增长和变化 ,给传统搜索引擎的效率和质量带来了许多新的问题和挑战。我们迫切需要一种研究方法 ,能够对搜索引擎收集来的海量网页进行有效的分析 ,以便对Web保持完整清晰的认识来指导搜索引擎进行更有效的服务。本文提出一种基于时间、空间和内容的三维Web分析模型 ,通过它可以对海量的网页数据进行多维度、多层次的分析工作 ,为我们认识Web提供一种全新的视角。在实验中我们简单地实现了该模型 ,并通过对 3批网页数据进行分析 ,得到网页变化率、网页空间分布、复制强度大的网页特点等数据 ,以及Internet作为“第四媒体”在信息传播上的一些特点。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号