首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
查询日志的发布会泄露用户的隐私。提出一种基于差分隐私的查询日志匿名化算法:首先构建用户查询项模型进行相似度计算并利用所求结果对用户查询项模型进行聚类,其次在聚类过程中添加指数噪音来满足差分隐私,最后发布匿名化数据。实验表明:该算法有效地提高了查询日志的实用性和隐私保护程度。  相似文献   

2.
搜索引擎用户查询的广告点击意图分析   总被引:1,自引:1,他引:0  
搜索引擎广告点击率的多少直接影响搜索引擎的收入,而深入分析用户查询的广告点击意图则是提高广告点击率的基础性工作.针对与此,基于商用搜索引擎的用户查询点击日志,统计分析了搜索引擎用户查询的广告点击率,提出基于查询词内容匹配和基于贝叶斯分类的两种方法预测搜索引擎用户查询的广告点击意图.在大规模的真实用户查询点击日志上的实验结果表明,所提出的方法能够预测查询的广告点击意图,将广告投放的精度从3.0%提高到36.8%,广告投放的平均F-measure值从0.060提升到0.408.通过广告点击意图预测,有效缩小了广告投放范围,并适用于在线广告意图的实时预测.  相似文献   

3.
Web日志挖掘中模糊C均值聚类研究   总被引:1,自引:0,他引:1  
Web日志挖掘就是通过一定的方法分析Web日志数据,发现用户的访问习惯,帮助管理人员改进Web站点的性能和结构,提高用户获取知识的质量和速度。笔者首先在Web日志挖掘的背景下分析了模糊C均值聚类算法的缺陷,针对其的不足,在粗糙集理论的支持下,介绍属性信息量的概念,并通过计算待聚类对象的属性权值,区分重要性属性和噪音属性对聚类结果的影响,实验证明该方法提高了模糊C均值聚类算法的准确率。  相似文献   

4.
XML检索中基于聚类的查询词扩展   总被引:1,自引:0,他引:1  
XML文档是一种半结构化的数据,它包含的结构信息可有效解决传统文本信息检索中存在的语言二义性等问题.但用户提出的查询质量低并没有得到解决,因此需要通过反馈等手段来解决这一问题.该文提出了一种基于聚类的XML信息检索的查询词扩展方法,利用聚类手段来确定用户查询的对应检索结果的特征,通过提取这些特征来进行查询词扩展,得到更全面的反映用户查询意图的查询条件,提高检索的查全率与查准率.  相似文献   

5.
为了有效地从W eb日志数据中提取出相似用户的浏览模式,提出了一种应用于W eb日志挖掘中用户聚类的新的混合遗传聚类算法。这种算法是遗传算法和K-中心点聚类算法的有机结合。该算法是一个具有全局最优解的聚类算法,其结果明显优于模糊聚类算法和简单遗传聚类算法。该算法能够有效地剔除噪音,得到较好的用户聚类的效果,为网站设计者优化网站结构,提高信息服务质量提供了有效的决策依据。  相似文献   

6.
Web日志挖掘就是通过一定的方法分析Web日志数据,发现用户的访问习惯,帮助管理人员改进Web站点的性能和结构,提高用户获取知识的质量和速度.笔者首先在Web日志挖掘的背景下分析了模糊C均值聚类算法的缺陷,针对其的不足,在粗糙集理论的支持下,介绍属性信息量的概念,并通过计算待聚类对象的属性权值,区分重要性属性和噪音属性...  相似文献   

7.
介绍了国外可视化数据记录抽取、用户浏览突发语义学研究、性能自动评估、查询结果缓存、多代理动态在线信息挖掘技术、软计算、提问日志上下文信息分析、聚类检索查询处理效率等有关搜索引擎智能技术研究动态,试为相关研究提供信息。  相似文献   

8.
针对大规模图像数据库的特点,用基于高斯混合模型的期望值最大(EM)算法对图像数据库进行聚类划分,为每个聚类建立索引项,且它所包含的原始特征数据在磁盘上连续存储.查询时,对于用户的查询范例首先确定最可能的候选聚类,然后在候选聚类范围内查询翔实图像.试验结果表明,该方法可提高图像检索速度.  相似文献   

9.
提出了一种基于传递闭包的模糊聚类方法,并应用于Web日志聚类中,实验结果表明,该算法能够有效实现Web用户聚类,并且能够避免陷入局部最优解。最后与模糊C均值算法进行比较,并讨论了算法的运行时间和错分率。  相似文献   

10.
网站个性化服务的研究   总被引:6,自引:0,他引:6  
利用Web数据挖掘技术,对用户未来的访问进行预测和推荐,是实现网站柔性个性化服务的研究方向之一.笔者通过对网站个性化服务相关技术的研究,改进了对Web服务器用户访问日志信息进行聚类分析的关联数据竞争聚类(competitive agglomeration for relation data,CARD)算法,并在此基础上构建了相应的实验模型.CARD算法是CA算法的一种改进算法,适合于处理没有明显特征的Web数据.试验是建立在真实的Web日志上的,实验证明该算法具有较好的聚类效果和适用度.  相似文献   

11.
针对用户会话相似度计算中,忽视了用户在某会话中对页面感兴趣的程度这一问题,提出了用户会话系数AvgI(p),并结合雅可比相似系数、CM系数给出了一种新的用户会话兴趣度的计算方法。在此基础之上,结合W eb内容、格式进一步对导航类查询用户意图的信息需求进行分析,并分类为直接导航和间接导航2类,给出了具体算法。实验结果表明,该算法不仅能很好地自动分类导航类用户意图,而且能基于该意图提供相关搜索结果以及进一步的搜索导航。  相似文献   

12.
提出了一种基于自组织特征映射( SOM)神经网络和模糊c-均值( FCM)的双层聚类方法,对Web日志中的日志数据集进行聚类。第一层是无监督SOM神经网络聚类方法,它所产生的类的个数大大减少了原始数据集的个数,降低了FCM对类初始中心点的依赖;然后利用FCM聚类算法的优势对第一层中产生的类的中心点进行聚类,从而大大减少了聚类的时间复杂度;最后通过平行坐标技术可视化展示聚类前后的日志数据集,方便对日志数据进行分析。  相似文献   

13.
针对传统日志模板挖掘时需要日志聚类数目作为先验信息的问题,提出了一种基于归一化特征判别的日志模板挖掘算法.首先,对日志数据进行压缩,以提高后续处理效率;其次,进行日志聚类过程,使用归一化的日志统计特征判断聚类是否满足要求,若满足,则聚类成功;若不满足,则采用二分搜索的方式调整日志聚类的数目,重新进行聚类;最后,从聚类结果中提取日志模板,设计了一种衡量模板挖掘效果的评价指标.在真实数据集上的实验结果表明,算法的模板挖掘匹配度优于基准方法,并且具有良好的泛化性能.  相似文献   

14.
提出了一种基于自组织特征映射(SOM)神经网络和模糊c-均值(FCM)的双层聚类方法,对Web日志中的日志数据集进行聚类.第一层是无监督SOM神经网络聚类方法,它所产生的类的个数大大减少了原始数据集的个数,降低了FCM对类初始中心点的依赖;然后利用FCM聚类算法的优势对第一层中产生的类的中心点进行聚类,从而大大减少了聚类的时间复杂度;最后通过平行坐标技术可视化展示聚类前后的日志数据集,方便对日志数据进行分析.  相似文献   

15.
基于搜索引擎日志发现相近Web查询   总被引:3,自引:0,他引:3  
提出了一种利用搜索引擎日志发现高质量相近Web查询的新方法.对一个给定的查询,从日志中抽取候选查询的一些量化指标,如被查询的不同用户量、被查询的次数、用户在反馈结果中的点击次数、与给定查询间的共有词项个数、点击相同URL的个数及其分布等,用手工标记部分训练数据,进而建立一个发现有较好反馈结果的相近查询的回归模型.实验显示用该方法可得到较高的结果精度.  相似文献   

16.
采用数据挖掘中的聚类技术,对微软网站日志文件中的用户行为数据进行分析,在用户行为的基础上将用户归为同质的组,从而寻求一种识别典型访问情况的方法.采用了一种“将SPR-SQ减小的情况屏蔽,只考虑SPRSQ增加的情况”的处理方法,来实现最佳聚类个数K的选择.同时,在计算组内偏差的时候,提出了“冗余组内偏差”的概念.在聚类分析阶段完成之后,对每个聚类结果进行“标准化均值”比较,并对其用户行为作了简要分析.  相似文献   

17.
提出一种人群活动热点区域的识别方法。利用实际电信用户位置数据,使用网格作为地理空间数据的索引结构,对用户移动轨迹数据进行网格划分,进而利用网格密度和种子网格聚类算法给出热点区域的判定方法,并利用Top-k查询方法选出密度阈值限定热点区域的覆盖范围。仿真表明,该算法能识别出人群活动热点区域,与具有噪声的基于密度的聚类方法算法相比,能够减少热点区域识别时间,增强处理的实时性。  相似文献   

18.
为了实现对网络搜索中用户意图的进一步理解,提出采用hierarchical dirichlet process (HDP)的方法来完成用户意图的聚类. 动词能够较好地体现用户意图,因此,完成动词的聚类就可以获得更好的用户意图的聚类. 提出用与动词具有依存关系的名词和与其共现的名词来表示动词文档. 实验结果表明,加入文档层的HDP模型具有比潜在狄雷克来分配模型和狄雷克来混合模型(DPMM)更好的聚类性能.  相似文献   

19.
用户对Web站点的访问代表了用户对Web站点上页面的访问兴趣。这种兴趣程度可以通过用户对Web站点上页面的浏览顺序表现出来。Web站点的访问日志记录了用户访问页面的详细信息。在对Web站点的访问日志进行事务识别后,按照访问兴趣对群体用户对Web站点的访问顺序进行聚类分析,则每一个聚类集反映出该聚类集中的全体用户具有相似的访问兴趣。文中在用户访问兴趣度量中综合考虑用户访问路径、网页内容、在此页面的驻留时间、此页面浏览频度因素,提出了一种基于用户访问兴趣的路径聚类算法。最后通过实验来验证这种算法的有效性。  相似文献   

20.
为了提高网站访问效率并得到有价值的个性化网页推荐,针对Web日志的新特性,提出了一种新的基于竞争凝聚的聚类算法.新算法对K-paths聚类算法进行了扩展和改进,按照路径的相似性进行聚类,采用竞争凝聚的思想,自动确定最佳的聚类数目.由于算法考虑了用户的访问兴趣,个性化网页推荐不打扰用户且不需要用户注册信息.利用关联规则得到个性化网页推荐集.用户推荐集和页面推荐集的结合大大提高了推荐效果,具有较好的扩展性.实验结果表明,与其他聚类方法相比该算法具有更高的推荐精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号