首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
随着Internet的迅速发展,人们必须面对信息爆炸的现实.描述了一种关键词向量的方式表达用户兴趣.将BIRCH聚类算法应用于用户访问的网络文档上来建立用户兴趣模型.基于Myspace用户日志,又实现了一个用户兴趣建模系统,该系统验证了提出方法的有效性.  相似文献   

2.
微博平台隐含潜在的用户信息,通过微博数据挖掘用户兴趣具有重要的社会意义。结合用户兴趣与微博信息的特点,提出了一种文本聚类与兴趣衰减的微博用户兴趣挖掘(TCID-MUIM)方法。首先,通过基于词林的同义词合并策略弥补建模时词频信息不足的弊端;其次,利用二次Single-Pass不完全聚类算法将用户微博划分为多个簇,将簇合并为同一文档以弥补微博文本短小难以挖掘主题信息的问题;最后,通过LDA模型建模,并考虑用户兴趣随时间变化的问题,引入时间因子,将微博—主题矩阵压缩为用户—主题矩阵,获取用户兴趣。实验表明,较之传统建模方法与合并用户历史微博为同一文档的建模方法,TCID-MUIM方法挖掘的用户兴趣主题具有更好的主题区分度,且更贴合用户的真实兴趣偏好。  相似文献   

3.
提出用户浏览兴趣迁移模式作为关联规则生成的基础的思路;给出了用户频繁访问路径的更新算法,用聚类主题号代替浏览序列的页面号,获得用户浏览兴趣迁移模式,以此得到更优化的个性化服务.  相似文献   

4.
用户兴趣建模是个性化服务的核心,考虑到情景信息对用户偏好的影响,对融和情景信息的用户行为日志数据进行深入研究,提出了一种基于情景信息的用户兴趣建模方法.该方法首先通过计算情景相似度来获得用户当前情景的近似情景集;对“用户-兴趣项-情景”三维模型采用情景预过滤的方法降维处理.然后根据用户浏览内容得到用户兴趣主题,分析页面内容得到每种主题的兴趣关键词,建立基于层次向量空间模型的用户兴趣模型.实验结果表明,本文提出的基于情景信息的用户兴趣模型对用户兴趣的预测误差控制在9%以内,是有效的.  相似文献   

5.
提出用户浏览兴趣迁移模式作为关联规则生成的基础的思路;给出了用户频繁访问路径的更新算法,用聚类主题号代替浏览序列的页面号,获得用户浏览兴趣迁移模式,以此得到更优化的个性化服务。  相似文献   

6.
提出了一种基于用户浏览历史的用户兴趣提取模型,它隐式地收集用户信息用于个性化搜索中,即是通过对用户兴趣度的定义,在用户的浏览历史中得到一组代表用户兴趣的网页,并设计一个聚类算法,对这组代表用户兴趣的网页进行聚类操作,从而得到能代表此用户兴趣类别的词,即用户的兴趣。  相似文献   

7.
因子分析在基于用户兴趣的Web文档聚类中的应用   总被引:1,自引:0,他引:1  
通过对实际Web访问日志的统计分析认为,在日志中用户的兴趣具有集中性,这说明用户由稳定兴趣驱动访问Web的频率远远高于偶然兴趣的驱动,因此一定时间段的Web访问日志中一定蕴含了用户的稳定兴趣.本文试图利用因子分析理论从用户访问频率矩阵中挖掘出用户的稳定兴趣因子,以此构造用户兴趣空间,并在用户兴趣空间中进行Web文档聚类.该用户兴趣空间突出了用户的共同兴趣,是一个正交空间.实验结果表明,用户兴趣空间中的Web文档聚类优于直接在用户访问频率矩阵(即用户空间)中的聚类.同时,空间的转换达到了数据压缩的效果.  相似文献   

8.
沈洁  林颖  陈志敏  赵敏涯 《计算机应用》2005,25(7):1654-1657
提出一种新的用户访问模式增量式聚类算法:首先引入一种新的用户兴趣表示方法构造用户访问特征对象,再基于蚁群聚类的基本思想,利用人工蚂蚁依相邻区域对象相似性拾起或放下对象实现聚类;然后使用一种类解体机制,随着用户兴趣度的变化而形成新的类别,从而实现增量式聚类更新发现用户新的访问兴趣。实验结果表明,该方法能动态有效地实现增量式聚类。  相似文献   

9.
作为个性化服务的基础和核心,用户建模的质量直接关系到个性化服务的质量.文章将用户建模的过程分为5个关键模块:输入、输出、建模时间、建模的对象、建模算法,并围绕这5个方面,对用户建模当前的研究现状、所面临的关键议题进行了系统的论述.其中,输入模块为用户模型的建立提供了必要的数据源,输出模块则描述用户模型的表示方式,建模时间描述了建模的时间长度和更新方式,建模的对象描述了对谁进行建模,建模算法则描述了几种典型的建模方法.最后对用户建模的技术发展进行了展望.  相似文献   

10.
在入侵检测中对用户进行聚类,可以改善安全分析的效率,有助于发现潜在非法用户.在聚类中提出按照访问兴趣对用户进行聚类分析,在用户访问兴趣度量中综合考虑网页内容和浏览路径因素.在聚类分析中,依据访问兴趣定义提出新的相似度计算方法.利用传递闭包法对用户进行聚类.算法可以提高用户聚类的准确性,试验结果表明该算法是有效的.  相似文献   

11.
The currently available variable selection procedures in model-based clustering assume that the irrelevant clustering variables are all independent or are all linked with the relevant clustering variables. A more versatile variable selection model is proposed, taking into account three possible roles for each variable: The relevant clustering variables, the irrelevant clustering variables dependent on a part of the relevant clustering variables and the irrelevant clustering variables totally independent of all the relevant variables. A model selection criterion and a variable selection algorithm are derived for this new variable role modeling. The model identifiability and the consistency of the variable selection criterion are also established. Numerical experiments highlight the interest of this new modeling.  相似文献   

12.
This paper addresses the problem of proportional data modeling and clustering using mixture models, a problem of great interest and of importance for many practical pattern recognition, image processing, data mining and computer vision applications. Finite mixture models are broadly applicable to clustering problems. But, they involve the challenging problem of the selection of the number of clusters which requires a certain trade-off. The number of clusters must be sufficient to provide the discriminating capability between clusters required for a given application. Indeed, if too many clusters are employed overfitting problems may occur and if few are used we have a problem of underfitting. Here we approach the problem of modeling and clustering proportional data using infinite mixtures which have been shown to be an efficient alternative to finite mixtures by overcoming the concern regarding the selection of the optimal number of mixture components. In particular, we propose and discuss the consideration of infinite Liouville mixture model whose parameter values are fitted to the data through a principled Bayesian algorithm that we have developed and which allows uncertainty in the number of mixture components. Our experimental evaluation involves two challenging applications namely text classification and texture discrimination, and suggests that the proposed approach can be an excellent choice for proportional data modeling.  相似文献   

13.
利用模糊满意聚类建立pH 中和过程模型   总被引:10,自引:1,他引:10  
利用模糊聚类方法建立 p H中和过程模型。针对模糊聚类中普遍存在的聚类个数需事先给定和收敛速度慢等问题 ,在原有聚类方法的基础上提出一种模糊满意聚类算法。该算法能快速确定系统的模糊划分数目 ,进而对应聚类个数建立相应的 TS局部线性化模型。以典型 p H中和过程为研究对象 ,利用上述方法建立其系统模型 ,取得了良好的仿真效果 ,验证了该聚类算法的快速性和有效性  相似文献   

14.
基于特征映射的微博用户标签兴趣聚类方法   总被引:1,自引:1,他引:0  
针对现有的用户兴趣聚类方法没有考虑用户标签之间存在的语义相关性问题,提出了一种基于特征映射的微博用户标签兴趣聚类方法。首先,获取待分析用户及其所关注用户的用户标签,选取出现频数高于设定阈值的标签构建模糊矩阵的特征维;然后,考虑标签之间的语义相关性,利用特征映射的思想将用户标签根 据其与特征维标签之间的语义相似度映射到每个特征维下,计算每个特征维所对应的特征值;最后,利用模糊聚类得到了不同阈值下的用户兴趣聚类结果。实验结果表明,本文提出的基于特征映射的微博用户标签兴趣聚类方法有效地改善了用户兴趣聚类效果。  相似文献   

15.
《Information Systems》2006,31(4-5):247-265
As more information becomes available on the Web, there has been a crescent interest in effective personalization techniques. Personal agents providing assistance based on the content of Web documents and the user interests emerged as a viable alternative to this problem. Provided that these agents rely on having knowledge about users contained into user profiles, i.e., models of user preferences and interests gathered by observation of user behavior, the capacity of acquiring and modeling user interest categories has become a critical component in personal agent design. User profiles have to summarize categories corresponding to diverse user information interests at different levels of abstraction in order to allow agents to decide on the relevance of new pieces of information. In accomplishing this goal, document clustering offers the advantage that an a priori knowledge of categories is not needed, therefore the categorization is completely unsupervised. In this paper we present a document clustering algorithm, named WebDCC (Web Document Conceptual Clustering), that carries out incremental, unsupervised concept learning over Web documents in order to acquire user profiles. Unlike most user profiling approaches, this algorithm offers comprehensible clustering solutions that can be easily interpreted and explored by both users and other agents. By extracting semantics from Web pages, this algorithm also produces intermediate results that can be finally integrated in a machine-understandable format such as an ontology. Empirical results of using this algorithm in the context of an intelligent Web search agent proved it can reach high levels of accuracy in suggesting Web pages.  相似文献   

16.
为提高非线性系统模糊建模的速度和精确度,提出一种快速有效的基于数据挖掘的非线性系统模糊建模方法.该方法先采用改进的减法聚类结合模糊C-均值聚类进行结构辨识,在解决初始化问题的同时减少计算量,进而提高建模速度;然后利用带动态遗忘因子的递推最小二乘法进行后件参数辨识,减小动态误差,提高建模精度.将提出的方法应用于Box-J...  相似文献   

17.
已有的矢量聚类算法需学习较多的复杂数据方可获得较好的聚类效果,而对于多维的大数据性能较弱,对此,提出一种基于量化误差与分形理论的高计算效率无监督聚类算法。首先,为数据集建立量化误差的参数化模型,基于数据集的空间结构获得数据集的率失真曲线;然后,通过对率失真曲线的估算,获得数据空间的有效维度;最终,利用分形理论,通过搜索数据集的量化模型参数获得目标数据集的最优类簇数量。实验结果表明,本文的量化误差参数化模型可较好地估算数据集的有效维度,同时,本算法对数值型数据集的最优类簇估算与计算效率优于已有的矢量聚类算法。  相似文献   

18.
针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博短文本结构和内容的基础上,给出微博短文本重构概念,根据微博相关的其他微博短文本和文本中包含的3种特殊符号,进行文本内容的扩展,从而扩充原始微博的特征信息。利用HowNet2000概念词典将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣模型的表示机制。实验结果表明,短文本重构和概念映射提高了聚类效果,与基于协同过滤的微博用户兴趣建模方法相比,平衡均值提高29.1%,表明构建的微博用户兴趣模型具有较好的性能。  相似文献   

19.
Additive clustering was originally developed within cognitive psychology to enable the development of featural models of human mental representation. The representational flexibility of additive clustering, however, suggests its more general application to modeling complicated relationships between objects in non-psychological domains of interest. This paper describes, demonstrates, and evaluates a simple method for learning additive clustering models, based on the combinatorial optimization approach known as Population-Based Incremental Learning. The performance of this new method is shown to be comparable with previously developed methods over a set of benchmark data sets. In addition, the method developed here has the potential, by using a Bayesian analysis of model complexity that relies on an estimate of data precision, to determine the appropriate number of clusters to include in a model.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号