首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
对于搜索引擎返回的结果太多且较少考虑用户个性差异等缺陷,提出根据用户查询意图,实时给予多个主题的搜索建议,帮助用户更准确地描述所需信息,修正查询词与真实意图之间的差距,提高检索效率。同时运用K-means算法,对资源类别的意图特征值相似用户进行聚类,缩小查找目标对象最近邻居的范围,提高搜索建议的实时响应速度。实验结果表明,该方法是可行的。  相似文献   

2.
查询扩展技术通过向初始查询请求加入相似或相关的词,组成更为准确的扩展查询表达式,来减少查询请求与相关文献在表达上的不匹配现象,改善检索性能.与传统的查询扩展不同,XML查询扩展不仅要对文档内容进行有效扩展,而且还要考虑结构扩展.本文提出了一种基于伪反馈的XML查询扩展方法,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的"内容+结构"的查询扩展表达式.相关实验结果表明,相对没有扩展的查询,所提方法具有更好的精度.  相似文献   

3.
查询优化与动态自动聚类系统   总被引:4,自引:0,他引:4  
查询优化在大型检索系统中是十分必要的。查询优化包括静态形式、结合词集的形式和动态自动聚类形式。文章概要分析了AlltheWeb、Teoma、Vivisimo、GuideBeam等动态自动聚类的特点和机制,并提出了建立动态自动聚类系统的一些建议。  相似文献   

4.
随着互联网规模的急剧扩张,提升信息检索的效用变得相当困难.本文首先通过特定算法提取每篇文档的关键词,然后运用统计方法计量不同文档的共现关键词并形成相应的共现关键词标签矩阵,最后利用层次聚类算法对共现关键词标签进行聚类并形成相应的层次标签树来构造文档聚类束.该方法可以对源搜索引擎返回的结果进行有效的分类,使用户在更高主题层次上查看检索词的相关信息,准确地找到感兴趣的信息.通过与Lingo算法的比较,显示本文算法所得的标签更具可读性和概括性,同时F-measure评价指标也表明本算法在文本聚类的质量上有了一定的提升.  相似文献   

5.
为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。  相似文献   

6.
基于关键词和摘要相关度的文献聚类研究   总被引:1,自引:0,他引:1  
现有的文献聚类方法都是通过文献关键词来进行的.本文在研究大量文献聚类方法的基础上,提出了一种通过文献关键词和摘要进行加权的新的文献聚类算法.首先,改进了传统相似度计算的方法,设计出基于关键词和摘要词加权的相似度公式,使文献相似度计算更加精确.其次,基于"文献距离越大,聚为一类的概率越小"的思想,提出了一种"最大距离聚类法",并给出了算法的详细步骤.最后,实现算法并进行了大量的实验仿真.通过改进相似度计算公式,调整关键词和摘要词的权重,提高了聚类的质量.结果表明,本文提出的文献聚类算法是一种行之有效的方法.  相似文献   

7.
基于语义计算的查询扩展优化研究   总被引:1,自引:0,他引:1  
桑艳艳  刘培刚  李勇 《情报学报》2007,26(5):704-710
查询扩展技术是指在原有查询的基础上加入与用户输入的检索用词相关联的新词,组成新的更长、更准确的查询,用于弥补用户查询信息不足的缺陷.为了提高文本检索的效率,纳入网络检索环境下的用户个人偏好,在查询扩展技术中引入语义计算是一个重要研究方向.文章从语义计算的角度提出了基于语义关联树的查询扩展算法,通过动态生成语义关联树,有效降低词相似度矩阵计算工作量.通过控制语义关联树的层次结构及复杂度,灵活高效的生成不同语义空间模型.实验证明,该算法能有效提高文本检索的准确率.  相似文献   

8.
基于带语义差别的模糊Taxonomy的交易数据库关联规则聚类   总被引:1,自引:0,他引:1  
关联规则聚类是大量关联规则的一种有效组织方式,本文针对基于商品分类信息的规则聚类方法存在的不足进行了改进,同时考虑了不同层次间的项目语义差别,以及具有不同隶属度的项目细致语义差别,将商品分类树改进为模糊Taxonomy的有向无环图结构,该结构可以处理一个项目同时属于多个父结点的情况.我们充分考虑了有向无环图的性质,提出了带细致语义差别的模糊Taxonomy结构构建方法和相应的规则距离计算方法,其中,规则距离计算过程中的项集距离计算方法无需计算最佳匹配,因此,具有较小的时间开销.规则距离计算和聚类可视化试验结果表明了该方法的可扩展性和有效性,在规则的聚类计算上取得了较为满意的结果.  相似文献   

9.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

10.
11.
一个构造良好的查询是信息检索质量的基本保证,语义查询扩展技术解决了传统信息检索系统不能很好理解用户查询意图的问题,在提高检索查全率的同时保证了检索准确率。本文以查询关键字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,以WordNet本体库和WordNet Domains扩展库作为消歧数据源,使用基于局部上下文和基于图论的两类无导词义消歧方法进行查询关键字到本体概念的映射,最后基于概念词汇关联完成基于语义的查询扩展。综合WordNet本体库和WordNet Domains扩展库中的各项知识源对查询词义进行判定,保证了词义消歧的精度;采用无导词义消歧实现查询词义的快速判定,保证了信息检索的实时性;根据查询关键词的多寡分别提出两类消歧方法,满足了各种查询需求。  相似文献   

12.
针对起源记录在Web应用中的表达和查询服务问题,对研究所涉及的主要概念进行辨析,在深入解析Web应用中起源记录的定位、传递模式、实现途径和实现模式的基础上归纳总结出Web应用中起源元数据的四类定位发现机制与两类查询机制。结合语义标注Web页面和溯源信息表达技术,采用在线论文追溯案例,实现包含RDFa起源记录的HTML页面显示并通过可视化方式揭示起源,最后对案例中的查询服务问题进行探讨。  相似文献   

13.
词汇链是文本中一系列词汇关联而成的语义链,构造词汇链有助于提高文本的连贯性,把握文本主题。借鉴概念层次网络(HNC)理论对词汇语义进行形式化描述的原理,研究基于语义网络节点遍历计算的词汇链构造方法。首先对汉语文本进行分词处理,从知识库中获得词语的HNC符号,然后对语义符号进行解析,获得词语的语义关联性并构造词汇链;最后,对词汇链进行优选处理,设定阈值获得优选词汇链。实验结果表明,该方法构造的词汇链可接受度较高,对主题标引、自动文摘、文本分类等有重要价值。  相似文献   

14.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

15.
基于信息项和用户群的信息推荐机制   总被引:3,自引:1,他引:2  
如何准确高效地提供给用户需要的信息,是信息推荐研究的核心。本文提出了一种推荐机制———基于信息项和用户群的信息推荐机制,它综合考虑了用户自身和其邻居用户对推荐的影响。在计算用户自身对推荐的影响时,采用了基于信息项的方法。在计算邻居用户对推荐的影响时,首先寻找目标用户的邻居用户,形成一个用户群,根据用户群中其他用户对目标项目的推荐产生目标用户对目标项目的推荐。在MovieLens上的实验证明,本文提出的这种算法在预测精度上较传统的推荐算法有很大的提高。  相似文献   

16.
杜慧平 《图书情报工作》2016,60(21):122-127
[目的/意义] 提出一种新的词族识别方法,用于构建语义工具和辅助检索扩展,以降低编表专家的认知负担,提高语义工具构建和更新的效率。[方法/过程] 首先通过同现统计和相似度计算建立学科领域的概念语义网络,再利用社会网络分析中的Island算法进一步识别该网络中的词族。并以金融学科为例,比较该方法与层次聚类算法、“词素后方一致”方法识别词族的效果。[结果/结论] 结果发现,Island算法的效果优于层次聚类算法,并与“词素后方一致”方法各具优势,可以结合使用,取长补短。  相似文献   

17.
[目的/意义] 探讨高校图书馆用户在使用图书馆OPAC系统查找相关资源时调整提问的行为模式。[方法/过程] 以北京师范大学图书馆OPAC日志数据为对象,采用S.Y.Rieh与Xie Hong提出的提问调整模式类型,利用内容分析法对提问日志进行内容编码和统计分析。[结果/结论] 高校图书馆用户的OPAC提问调整基本模式与网络信息检索提问调整模式基本一致,并且,在动态调整模式过程中,还可以细化为直线、阶梯、锯齿、凹凸、循环等子模式。针对如何优化OPAC系统和提升用户信息素养提出若干建议。  相似文献   

18.
知识共享是产业集群内部存在的一种重要机制。总结产业集群内部知识共享的模式和影响因素,探讨知识共享和知识产权的关系,并以东莞松山湖高新区生物技术产业集群为例,借用SECI模式理论,构建出产业集群的知识共享模型。  相似文献   

19.
分析高校科研人员社交网络学术信息交流行为影响因素,有助于提高高校科研人员社交网络学术信息交流行为活跃度,拓宽群体知识面,实现组织内部工作模式创新。文章首先借鉴卢因行为理论构建高校科研人员社交网络学术信息交流行为影响因素模型,结合理性行为理论、顾客感知价值理论等提出八个假设,并采用问卷调查方法收集数据;然后对测量指标进行信度和效度检验,借助结构方程模型分析影响因素并验证假设;最后根据分析结论提出相应建议。通过分析得出行为意向、机会和激励对学术信息交流行为具有正向影响,并从学术社交平台建设、组织内部支持、加强个体学术信息交流意识等方面提出建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号