首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
互联网的飞速发展产生了"信息过载"问题,新闻推荐系统可以帮助用户快速找到符合自己兴趣的新闻。文章完成了一个基于主题推荐的新闻推荐系统的研究和实现,针对该系统的关键部分即新闻主题和用户兴趣模型做了深入的研究并进行了程序上的实现。文章提出了一种基于主题的新闻推荐方式,将概率主题模型引入到文本推荐中,并深入研究了采用Gibbs抽样算法的LDA主题提取模型。文章在研究基于记忆的用户兴趣模型基础上提出了相应的改进方法,主要是针对记忆模型对用户长短期兴趣不适应的问题,提出了根据用户访问频率来确定不同兴趣度衰减速度的改进方案。  相似文献   

2.
针对电子商务环境下货源信息检索问题进行了分析研究,应用信息检索和贝叶斯网络的相关理论,提出一种基于贝叶斯网络的货源信息检索模型.该模型采用一种四层节点的贝叶斯网络检索结构,利用货源信息样本文献描述查询要求,并通过网络节点间的条件概率计算出查询与文献之间的相似度.实验表明,该模型取得了较好的检索效果,为企业提供了有价值的货源相关信息.  相似文献   

3.
一种基于主题的概率文档相关模型   总被引:1,自引:0,他引:1  
现有文档关系分析模型难以从主题层次上判别文档相关性.为此,提出了一个基于主题的概率文档相关模型(TPDC).TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率;基于文档后验概率构建文档相关性分析模型.实验结果证明,TPDC模型在文档检索精度和文档压缩程度两方面优于向量空间模型,因而更能胜任实际应用中的文档检索任务.  相似文献   

4.
《计算机工程》2018,(3):189-194
传统的搜索引擎仅返回给用户包含查询关键字的文档,忽略了查询背后用户真正的信息需求。为此,将文档检索看作个性化推荐问题,提出一种查询意图识别的主题模型个性化检索算法。对用户检索历史进行潜在狄利克雷分布主题建模,结合检索历史主题模型识别用户查询的潜在意图,并按主题相关度进行文档推荐,计算查询到文档集的KL距离对文档集排序,最终返回给用户个性化检索文档列表。实验结果表明,与基于协同相似计算和基于用户聚类的推荐算法相比,该算法能够更准确有效地为用户提供个性化检索。  相似文献   

5.
基于统计机器翻译模型的问句检索模型,其相关性排序机制主要依赖于词项间的翻译概率,然而已有的模型没有很好地控制翻译模型的噪声,使得当前的问句检索模型存在不完善之处.文中提出一种基于主题翻译模型的问句检索模型,从理论上说明,该模型利用主题信息对翻译进行合理的约束,达到控制翻译模型噪声的效果,从而提高问句检索的结果.实验结果表明,文中提出的模型在MAP (Mean Average Precision)、MRR(Mean Reciprocal Rank)以及p@1(precision at position one)等指标上显著优于当前最先进的问句检索模型.  相似文献   

6.
文章分析了主题图的相关理论和传统文献组织方法优劣,论证了主题图在文献资源组织中的可行性,提出了基于主题图的文献资源组织模型及构建方法,引申了基于该模型的文献检索、主题导学、个性化资源推荐等应用研究。  相似文献   

7.
《软件》2017,(7):70-78
在现有文献统计下个性化推荐算法可以分为如下三类~([1,2]):基于内容的推荐(Content-based Recommendation)~([3,4])、基于协同过滤的推荐(Collaborative Filtering based Recommendation)~([5-7]),以及混合型推荐系统(Hybrid Recommendation)~([8-10])。其中,基于协同过滤的推荐因其对专家知识依赖度低以及可以利用群体智慧等特点,得到了最为深入也最为广泛的研究,它又可以被分为多个子类别,主要包括基于用户的协同过滤(User-based CF)~([11]),基于物品的协同过滤(Item-based CF)~([12]),以及基于模型的协同过滤(Model-based CF)~([6]),等。其中基于模型的推荐是一类方法的统称,它指利用系统已有的数据和用户历史行为,学习和构建一个模型,进而利用该模型进行用户偏好建模、预测与个性化推荐,根据具体应用场景和可用数据的不同,这里的模型可以是常用的奇异值分解等矩阵分解模型~([13]),也可以是主题模型、人工神经网络、概率图模型、组合优化甚至深度学习等机器学习模型~([1])。在下面的部分,我们将在如上几个方面对个性化推荐系统的研究现状进行具体的介绍。  相似文献   

8.
学术合作者推荐是学术大数据的一个有效应用。但是现存的方法忽略了学术研究者和研究主题间的上下文关系,因此不能推荐合适的合作者。该文提出了基于BERT的合作者推荐(BACR),旨在推荐高潜力的合作者以达到研究者的要求。为此,设计了一个新的推荐框架,它有两个基本组成部分:BERT(bidirectional encoder representations from transformers)预训练语言模型和逻辑回归模型(LR)。其中,BERT将研究者和研究主题联合表示得到句子层面的具有上下文关系的特征向量表示。LR将BERT输出的特征向量作为输入得到该样本为正类的概率,最后输出概率最大的前K个合作者信息。通过与基于Network Embedding的SDNE和TSE算法的对比实验,结果表明充分考虑了研究者和研究主题间的上下文关系的BERT模型得到了更好的特征向量表示,提高了合作者推荐的准确率。  相似文献   

9.
针对推荐系统中用户兴趣的潜在性以及高时效性业务场景下用户兴趣的不稳定性和时间迁移性进行研究,提出一种基于用户潜在时效偏好的推荐方法。通过深入分析用户的历史行为与用户潜在兴趣的关系,提出基于概率主题模型的用户兴趣挖掘方法,避免了传统推荐方式对用户兴趣潜在性的忽略;同时,基于高时效业务对时间敏感性的考虑,结合隐马尔科夫模型对用户兴趣进行实时捕获,发现用户的兴趣迁移序列,并以此提出基于用户时效偏好的推荐方法。最后通过相关实验验证了所提出方法的可行性。  相似文献   

10.
《计算机工程》2017,(4):177-182
通过基于概率的主题挖掘模型隐含狄利克雷分布(LDA)挖掘用户兴趣主题,是目前最常用的用户兴趣主题挖掘方法。为进一步改善用户体验,推荐其感兴趣且质量好、新鲜度高的微博,提出一种新的多角度个性化微博推荐算法。通过微博发布时间、转发数、评论数等特征计算微博重要度,利用LDA模型生成的用户-主题矩阵以及主题-词汇矩阵计算用户对微博的兴趣度,综合考虑微博本身的重要度以及用户对微博的兴趣度对微博进行评分,根据评分结果推荐微博。实验结果表明,该算法与主题模型相结合可有效够提高微博推荐的精准度。  相似文献   

11.
陈千  桂志国  郭鑫  向阳 《计算机应用》2015,35(2):456-460
针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库WordNet构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式。在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(nK+N)。所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势。  相似文献   

12.
郑晓健 《软件》2014,(3):4-5,8
本文将概念检索扩展到面向领域主题检索的范畴,提出了面向领域主题的智能检索模型。给出了概念语义网络和面向领域主题的形式化描述,利用概念语义网络实现领域主题的同义词及其语义蕴含扩展,并实现一个基于建筑业的面向领域主题的智能搜索引擎。  相似文献   

13.
黄育  张鸿 《计算机应用》2017,37(4):1061-1064
针对不同模态数据对相同语义主题表达存在差异性,以及传统跨媒体检索算法忽略了不同模态数据能以合作的方式探索数据的内在语义信息等问题,提出了一种新的基于潜语义主题加强的跨媒体检索(LSTR)算法。首先,利用隐狄利克雷分布(LDA)模型构造文本语义空间,然后以词袋(BoW)模型来表达文本对应的图像;其次,使用多分类逻辑回归对图像和文本分类,用得到的基于多分类的后验概率表示文本和图像的潜语义主题;最后,利用文本潜语义主题去正则化图像的潜语义主题,使图像的潜语义主题得到加强,同时使它们之间的语义关联最大化。在Wikipedia数据集上,文本检索图像和图像检索文本的平均查准率为57.0%,比典型相关性分析(CCA)、SM(Semantic Matching)、SCM(Semantic Correlation Matching)算法的平均查准率分别提高了35.1%、34.8%、32.1%。实验结果表明LSTR算法能有效地提高跨媒体检索的平均查准率。  相似文献   

14.
基于高层语义的图像检索算法   总被引:16,自引:0,他引:16  
王崇骏  杨育彬  陈世福 《软件学报》2004,15(10):1461-1469
利用Bayes统计学习和决策理论,建立了一种图像语义综合概率描述模型(image probability semanticmodel,简称IPSM).该模型是一种基于描述性特征建模方法的分层体系结构,由原始图像层、图像特征层、图像语义层、综合概率层、概率传播层和语义映射层6个部分组成.并在IPSM模型对图像的语义分类特征进行描述和提取的基础上,提出并实现了基于高层语义的图像检索算法(semantic high-1evel retrieval algorithm,简称SHM)以及基于高层语义的相关反馈算法(semantic relevance feedback,简称SRF).实验结果表明,IPSM模型及SHR和SRF两个算法能够有效地对图像的高层语义进行刻画,其图像匹配检索效果良好,并具有稳定的检索性能.  相似文献   

15.
跨模态检索可以通过一种模态检索出其他模态的信息,已经成为大数据时代的研究热点。研究者基于实值表示和二进制表示两种方法来减小不同模态信息的语义差距并进行有效的相似度对比,但仍会有检索效率低或信息丢失的问题。目前,如何进一步提高检索效率和信息利用率是跨模态检索研究面临的关键挑战。介绍了跨模态检索研究中基于实值表示和二进制表示两种方法的发展现状;分析对比了包含两种表示技术下以建模技术和相似性对比为主线的五种跨模态检索方法:子空间学习、主题统计模型学习、深度学习、传统哈希和深度哈希;对最新的多模态数据集进行总结,为相关的研究和工程人员提供有价值的参考资料;分析了跨模态检索面临的挑战并指出了该领域未来研究方向。  相似文献   

16.
文健  李舟军 《中文信息学报》2008,22(1):61-66,122
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。  相似文献   

17.
Content-based image retrieval (CBIR) has been an active research topic in the last decade. As one of the promising approaches, graph-based semi-supervised learning has attracted many researchers. However, while the related work mainly focused on global visual features, little attention has been paid to region-based image retrieval (RBIR). In this paper, a framework based on multilabel neighborhood propagation is proposed for RBIR, which can be characterized by three key properties: 1) For graph construction, in order to determine the edge weights robustly and automatically, mixture distribution is introduced into the earth mover's distance (EMD) and a linear programming framework is involved. 2) Multiple low-level labels for each image can be obtained based on a generative model, and the correlations among different labels are explored when the labels are propagated simultaneously on the weighted graph. 3) By introducing multilayer semantic representation (MSR) and support vector machine (SVM) into the long-term learning, more exact weighted graph for label propagation and more meaningful high-level labels to describe the images can be calculated. Experimental results, including comparisons with the state-of-the-art retrieval systems, demonstrate the effectiveness of our proposal.   相似文献   

18.
摘 要: 为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合主题模型LDA与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好的实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA模型与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。  相似文献   

19.
In this paper, we proposed a novel approach based on topic ontology for tag recommendation. The proposed approach intelligently generates tag suggestions to blogs. In this approach, we construct topic ontology through enriching the set of categories in existing small ontology called as Open Directory Project. To construct topic ontology, a set of topics and their associated semantic relationships is identified automatically from the corpus‐based external knowledge resources such as Wikipedia and WordNet. The construction relies on two folds such as concept acquisition and semantic relation extraction. In the first fold, a topic‐mapping algorithm is developed to acquire the concepts from the semantic of Wikipedia. A semantic similarity‐clustering algorithm is used to compute the semantic similarity measure to group the set of similar concepts. The second is the semantic relation extraction algorithm, which derives associated semantic relations between the set of extracted topics from the lexical patterns between synsets in WordNet. A suitable software prototype is created to implement the topic ontology construction process. A Jena API framework is used to organize the set of extracted semantic concepts and their corresponding relationship in the form of knowledgeable representation of Web ontology language. Thus, Protégé tool provides the platform to visualize the automatically constructed topic ontology successfully. Using the constructed topic ontology, we can generate and suggest the most suitable tags for the new resource to users. The applicability of topic ontology with a spreading activation algorithm supports efficient recommendation in practice that can recommend the most popular tags for a specific resource. The spreading activation algorithm can assign the interest scores to the existing extracted blog content and tags. The weight of the tags is computed based on the activation score determined from the similarity between the topics in constructed topic ontology and content of the existing blogs. High‐quality tags that has the highest activation score is recommended to the users. Finally, we conducted experimental evaluation of our tag recommendation approach using a large set of real‐world data sets. Our experimental results explore and compare the capabilities of our proposed topic ontology with the spreading activation tag recommendation approach with respect to the existing AutoTag mechanism. And also discuss about the improvement in precision and recall of recommended tags on the data sets of Delicious and BibSonomy. The experiment shows that tag recommendation using topic ontology results in the folksonomy enrichment. Thus, we report the results of an experiment mean to improve the performance of the tag recommendation approach and its quality.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号