期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈翀闫宏飞《情报学报》2009,28(4)

网络资源是指通过互联网传播共享、以文件目录为主要存储组织结构的内容,如书、讲义、音乐等.每个资源的内容具有完整独立性.它们是数字图书馆、教学资源库、专业内容库藏的重要组成.网络资源的一大特点是命名模式不规范,给检索利用带来极大不便.本文以2003～2006年间搜集的61万文件构成的16 284个网络资源为对象,用统计的方法考察网络资源命名特点及其中体现的用户命名习惯.包括资源及其内部子目录、文件的名字长度分布,字符类型熵、常用符号、高频片段模式、语义类型等,并分析无序命名中蕴含的用户命名习惯.本文的意义一方面有助于从混乱命名中净化和提取对检索查询有用的信息,另一方面有助于揭示网络用户参与海量网络资源共享的行为习惯. 相似文献

2.

A New Method of Detecting Query Intent for Search Engines

Chen Chong Liu Xiaobing Xu Guzi He Jing Yan Hongfei 《情报学报》2012,31(3)

查询背后的信息需求被定义为查询意图,搜索引擎可以根据不同的查询意图,提供多样性的服务,优化检索效果.查询意图的识别多被看成是一种分类问题,现有的大多数方法都基于查询串文本本身的特征和查询的用户点击数据特征.这两种方法存在如下的困难:对于查询串的文本特征,查询比较短,特征比较稀疏,要进行比较准确的理解会比较困难;对于用户点击特征,由于用户提交查询的长尾性分布,大多数查询的提交次数都是较少的,对于这些查询,要判别它们的意图是比较困难的.为了克服长尾查询上查询意图判断的不可靠问题,本文提出利用查询结果的相关性分数的分布作为特征来判断查询意图的方法.这种方法依赖查询结果的特征,比查询串本身的特征更加丰富;同时不依赖于用户的点击数据,因此可以克服长尾查询上的困难.结果表明,使用结果分数分布,可以提高意图判别的准确程度. 相似文献

3.

网络资源层次组织规律定量研究

陈翀罗鹏程刘晓兵陆炀《中国图书馆学报》2012,38(6):72-80

本文以互联网FTP目录树为对象,从大众构造的层次式结构中揭示管理网络资源时的组织规律。通过考察44,972个软件资源及其在目录树中的位置,得到如下认识:①对于用户查找、浏览资源来说,资源存放在深度为2或3层较适合。②当要管理的资源数量在200以内时,人们可容忍平均1个目录中包含10个左右的软件资源;当资源数量更大时,人们可容忍平均1个目录中包含15个左右的软件资源。③在使用层次式组织结构时,人们会对结构的深度有一个习惯上限,目录结构平均深度一般不多于6层。④人们考虑组织结构时,会在"分类体系复杂度"和"分类精细度"之间权衡,在资源量增多时,尽量保证扁形结构。本文揭示了采用层次方式组织资源时的一些共性,有助于设计更贴近大众习惯的网络资源组织与导航系统,并对标签聚类等从扁平型信息组织方式中提取类目层次的研究工作提供依据。相似文献

4.

数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例

《大学图书馆学报》2020,(5)

在数字人文研究范式下,传统的以电子化和全文检索为基础的古籍研究模式已难以满足历史学、文献学、语言学等学科深度研究的需要。古籍文本特别是史书所记载的词语、时间、地点、人物、事件等要素都需要结构化的历史人文数据库,从而实现历史要素的定量分析与可视化。文章以古汉语自动分析技术为基础,结合人工标注和校对,以实体标注方法解决历史人物的同名异指和异名同指问题,对史学名著《左传》进行了词语切分、词性、时间、人物ID、地点GIS信息标注,进而实现了热点人物、人物关系网、人物游历轨迹与距离等量化统计与可视化,为古籍文本的内容标注、结构化人文知识库建设提供新的研究路径。最后,讨论了知识库进一步的完善方案与应用场景。相似文献

5.

中文Web查询演化的主要趋势

王继民孟涛《情报学报》2007,26(4):515-521

为发现中文Web用户查询行为的演化趋势,本文对近5年的中文天网搜索引擎的用户日志进行了抽样分析.结果显示用户输入的查询串中所包含词项数量有明显增多的趋势;用户会话的长度逐年下降;用户查看的结果页面越来越少;查看的时间间隔逐渐缩短;查询串中所包含的汉字个数基本稳定,其中包含2～4个汉字的查询串居多;在查询结果中发生点击行为的比率呈递减的趋势;查询次数与点击次数的相关性逐渐减弱;Web用户查询的主题变化较快. 相似文献

6.

基于查询词出现的相关度改进

赵东生单栋栋闫宏飞《情报学报》2011,30(4)

对信息检索系统返回结果相关度的改进,一直是信息检索领域重要的研究内容。本文首先引入查询词出现信息的概念,随后给出了查询词出现权重的形式化表示,进而将其与BM25模型结合起来。对于查询词出现权重的计算,本文采用了两种方法,即线性加权方法和因数加权方法。我们通过在GOV2数据集上的实验发现,无论哪种方法,通过加入查询词出现权重,都可以有效的改进检索结果的相关度。实验显示,对于TREC 2005的查询,MAP值的改进达到15.78%,p@10的改进达到3468%。本文所描述的方法已经应用到TREC 2009的WebTrack中。相似文献

7.

新一代数字图书馆应用支撑平台的研究与开发

张勇朝乐门邢春晓张铭王文清张健《现代图书情报技术》2011,(6):3-13

采用文献研究、案例调研和需求分析方法,提炼出新一代数字图书馆应用支撑平台的主要特点。在此基础上,通过软件工程方法,借鉴相关领域的理论研究、最佳实践和标准规范,设计出新一代数字图书馆应用支撑平台的体系结构及其数据模型。利用课题组自己的专利、软件著作权和学术论文等成果,实现应用支撑平台——"爱迪智搜平台"。最后,介绍该平台在中国高等教育数字图书馆中的部署和应用情况,探讨平台设计的科学性和下一步工作重点。相似文献

8.

高校资料室特色化发展构想——以北京大学城市与环境学院资料室为例

唐琳武小茜《图书情报工作》2012,(Z1):152-154

以北京大学城市与环境学院资料室为例,阐述资料室自身的优势,分析当前管理和服务上的问题;在此基础上,提出资料室未来发展的两步走构想:管理上分馆化与服务上特色化,充分整合与利用现有资料,发挥自身特色,为师生提供优质服务。相似文献

9.

搜索引擎用户点击行为分析 总被引：9，自引：3，他引：9

王继民彭波《情报学报》2006,25(2):154-162

基于大规模分布式搜索引擎系统———北大“天网”的用户点击记录,本文研究发现:用户点击不同URL的数量遵从Heaps定律,点击URL的频度频级服从类Zipf分布,点击URL与页面大小相关,点击URL具有时间局部性,其顺序具有自相似性特征等一些具有普适性的规律。提出了利用点击日志确定相近查询词的一个新的有效算法。这些研究结果对于掌握用户的搜索行为,完善搜索引擎系统的设计,提高检索服务的效率和质量具有重要的意义。相似文献

10.

Web搜索引擎日志挖掘研究框架

王继民李雷明子孟涛《数字图书馆论坛》2011,(8):25-31

搜索引擎日志记录了用户与系统交互的整个过程。对日志文件进行挖掘,可以发现用户进行Web搜索的行为特征与规律,有效改善搜索引擎系统的性能。在对国内外相关研究进行系统梳理和总结的基础上,文章提出了一个Web搜索引擎日志挖掘的研究框架,主要包括日志挖掘的研究内容、数据集的选择方法、数据预处理的方法、不同地域用户行为的特征与比较、如何应用于系统性能的改善等内容。相似文献