首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
随着博客信息源成指数级的增长,在博客空间中的信息检索,知识发现等任务正面临着巨大的挑战.博客特有的格式为以博客为载体的数据挖掘任务带来不便.本文提出挑选最具代表性的m个博文构成的博文集对博客兴趣建模,挑选的标准保证博文集中博文的重要性和主题多样性,并根据这两个指标来构造博文评估函数,将其转换成实例选择优化问题求解.实验以博客分类为目标,表明通过本文方法预处理后的博客,能够降低时间复杂度,提高分类准确率.  相似文献   

2.
不久前博客软件及服务提供商大部分还都是一些相对较小的新兴公司,但现 在微软这样业界巨子的出击,给博客圈带来了一系列变化。  相似文献   

3.
准确检索出博客空间中人们对重要话题、热点事件的观点看法对市场调研、网络舆情发现与预警等应用有重要意义。博客观点检索的目标是检索出不仅与特定查询主题相关而且包含针对该主题的评论的博文单元并依据观点强度进行排序。首先给出博客观点检索系统的框架,然后给出主题博文检索模型以及博客观点权重的计算方法。实验结果表明:所设计的博客观点检索系统能够有效地检索出对查询主题含有主观观点的博客,具有较好的应用价值。  相似文献   

4.
随着带有GPS定位功能的智能手机越来越普遍,人们喜欢分享他们的地理位置或者通过评论某个地方的商品从而留下用户的足迹,这引发了以共同的兴趣点(POIs)为中心,基于地理位置信息的社交网络研究(location based social network, LBSN).社交网络中的一类典型应用是推荐系统,而推荐系统中最常见的问题是冷启动,即在用户很少点评商家或分享评论时如何为他推荐感兴趣的商家.为解决冷启动问题,提出了一种在社交网络中基于兴趣圈的社会关系挖掘推荐算法.兴趣圈是由所有访问某一类别商品的用户群及他们之间的社会关系构成的社交联系,不同的用户访问同一类别商品表明他们对此类别具有相似兴趣.该方法在传统矩阵分解模型的基础上考虑不同的兴趣圈上的社会关系,使用的社会关系包括朋友关系(显性关系)和相关专家(隐性关系),并用它们作为规则化项来优化矩阵分解模型.实验数据集来自第5届Yelp挑战赛和自己爬取的Foursquare数据集,提出的方法与已有模型进行了充分的实验对比分析,结果表明,我们的模型特别是在解决冷启动问题方面优于多种现有的方法.  相似文献   

5.
一种基于多特征融合的博客文章排序算法   总被引:1,自引:1,他引:0       下载免费PDF全文
卢刚 《计算机工程》2009,35(2):47-48,5
随着博客数据的迅速增长,在网络媒体中进行信息检索时的效率问题日益受到人们的关注。该文在针对博客搜索中特有的用户需求以及博客系统自身特点进行分析的基础上,提出一种基于博客文章相关性、时效性、查询类型和博客作者兴趣特征一致性等多特征融合的博客文章排序算法。实验结果证明了该算法性能优于传统算法。  相似文献   

6.
随着电子商务的发展,越来越多的中小企业加入到这种新兴的商务方式中,但毕竟电子商务不同于传统商务方式,产品信息,企业信息被淹没在巨大的信息海洋中,使得电子商务营销产生了巨大困难。  相似文献   

7.
众所周知,动圈仪表有其独特的优点,如结构简单、工作可靠、使用维护方便、功能齐全,以及价格低廉等,但存在着控温精度较低,对热惯性大的设备温度波动将会更大等不足之处。本文介绍一种改善控温性能的方法,与同行们交流。一、改进方案 (1)把动圈仪表内通电指示灯的温度转换成热电势叠加到测量回路中,使被加热对象的温度尚未达到设定值时即断电,由于不会产生过高温度,同样也不会过低,改善了因热惯性造成的温度波动。 (2)控温对象是热镀锌电加热锅,该锅热容量大,由可控硅控制加热功率,其功率为120kW。  相似文献   

8.
博客空间意见领袖鉴别是网络舆情分析的重要研究方向。针对传统方法采用博客间的链接分析忽略了博文内容的问题,因此提出一种基于链接分析和内容分析相结合的算法。该算法从博文获得的内链接数、外链接数、评论数和文章长度四个方面计算博主的影响力得分,排名后选取Top-K个博主作为意见领袖。实验结果表明,该算法与基于链接分析的算法相比,具有更好的全路径覆盖率,选出的意见领袖话题更具多样性,可以应用于网络舆情中意见领袖的分析。  相似文献   

9.
新浪博客“利润分成”系统于国庆期间正式上线。据新浪方面计算,如果有广告内容的博客页面点击量达到1万次,博主的收入可至20元左右。渐趋商业化的博客让博主们看到了美好“钱”景,他们中的一批人已开始尝试以博客为谋生手段。但是,博客能成为一种职业吗?[第一段]  相似文献   

10.
针对全文本关键字检索的时间成本高,以及采用标签/类别会产生语句歧义和同义词等问题,提出在博客链接平台上选取联合关键字进行博客聚类。假设一个博客文章被查询的候选关键字(或者联合关键字)可以用于表示这个博客文章的主题。为验证该假设,首先将跟踪代码嵌入到博客链接(BC)组件中,以收集读者查询的关键字。然后,选取适当的候选关键字作为联合关键字。最后,使用重叠投影、交互信息投影、分布式分布信息和肯德尔 系数这四种相似性度量以验证BC组件提取的联合关键字。实验结果表明,提出的方法可以为查询者提供一条找到对应博客的快速通道。此外,生成的联合关键字可以减少全文本关键字检索过程的复杂度和冗余度,很好地满足了博客用户的需求。  相似文献   

11.
以提高验证效率、缩短验证周期为目标,使用贝叶斯网络优化模拟矢量,有效地缩小了用于回归测试的模拟矢量规模.采用信息论中的互信息作为评测准则,在输入变量和分支语句之间建立贝叶斯网络,并使用该网络进行推理和产生新的模拟矢量.实验结果表明:使用不同推理算法生成的模拟矢量长度大大缩短,平均为原有模拟矢量的1*/10左右,其中最高路径覆盖率达到甚至超过了原有样本.  相似文献   

12.
一种新型多标记懒惰学习算法   总被引:6,自引:0,他引:6  
在多标记学习框架下,每个样本由单个实例进行表示并同时对应于多个概念标记.已有的多标记懒惰学习算法并未充分考察样本多个标记之间的相关性,因此其泛化性能将会受到一定程度的不利影响.针对上述问题,提出一种新型多标记懒惰学习算法IMLLA.该算法首先找出测试样本在训练集中与各个概念类对应的近邻样本,然后基于近邻样本的多标记信息构造一个标记计数向量,并提交给已训练的线性分类器进行预测.由于IMLLA在对每个概念类进行预测时利用了蕴含于其他概念类中的信息,因而充分考察了样本多个标记之间的相关性.在人工数据集以及真实世界数据集上的实验表明,IMLLA算法的性能显著优于常用的多标记学习算法.  相似文献   

13.
The explosive growth of the Web has made intelligent softwareassistants increasingly necessary for ordinary computer users. Bothtraditional approaches—search engines, hierarchical indices—andintelligent software agents require significant amounts of humaneffort to keep up with the Web. As an alternative, we investigate theproblem of automatically learning to interact with informationsources on the Internet. We report on ShopBotand ILA , two implemented agents that learn touse such resources. ShopBot learns how to extract information from onlinevendors using only minimal knowledge about product domains. Giventhe home pages of several online stores, ShopBotautonomously learns how to shop at those vendors. After its learningis complete, ShopBot is able to speedily visitover a dozen software stores and CD vendors, extract productinformation, and summarize the results for the user. ILAlearns to translate information from Internetsources into its own internal concepts. ILAbuilds a model of an information source that specifies the translation between the source's output and ILA 's model of the world. ILA iscapable of leveraging a small amount of knowledge about a domain tolearn models of many information sources. We show that ILA 's learning is fast and accurate, requiring only a smallnumber of queries per information source.  相似文献   

14.
个性化信息检索针对用户个人兴趣优化文档排序,被认为是改善用户检索体验的一种有效途径。为提高个性化检索模型的检索性能,该文提出了一种将用户的长短期兴趣结合的通用方法,利用用户长期兴趣和短期兴趣对查询模型进行改进。大规模真实搜索日志数据上的实验结果显示,利用长短期兴趣能够获得准确表达信息需求的查询模型,相对于传统的个性化检索模型取得了更好的效果。
  相似文献   

15.
16.
数据收集是无线传感器网络的重要应用之一,其主要的工作过程可以概括为传感器节点将感知的信息通过一定的路径传送到无线网关节点进行进一步分析处理的过程.在数据收集时,由于人们无法预知事件触发的地点,常常将传感器均匀布置在监测的场所中,但是信息收集的地点往往是不均匀分布的,这就导致了一部分节点会因处在事件频发地段而持续的工作,而另一些节点却始终不会工作.为了解决这个问题,提出一个应用加强学习算法的自适应无线路由策略.在该路由策略中,路由的过程被当作分布式智能节点加强学习的过程.每一个传感器节点都是一个独立的智能节点,可以通过参数化的选择概率和回报来决定自己的下一跳地址.该策略的目的是使长时间不工作的节点代替长时间工作的节点传输数据,以达到平均节点能耗,延长整体网络寿命的效果.最后的仿真结果说明我们的路由策略可以有效的分散数据传输,延长网络寿命.  相似文献   

17.
常小红  张明 《微机发展》2007,17(9):31-34
相关反馈技术是近年来图像检索中的重要研究方向,它有效地缩短了用户高层语义和图像底层视觉特征的差距,大大提高了系统的检索精度。文中从机器学习的角度出发,提出了一种基于RBFN的相关反馈算法。同时,为了方便用户对检索结果的标记,将模糊逻辑引入到图像检索中。即:用户对检索结果标记为相关图像、模糊相关图像和不相关图像,利用这些反馈信息动态地建立RBFN的结构,并进行检索,这个过程反复进行直到用户得到满意的结果。实验表明,这种方法在图像检索中具有更好的性能和更强的推广能力。  相似文献   

18.
兴趣是学生学好各门功课的前提,是学生创新精神和创新能力培养的起点。文章讲述了对学生整个专业的兴趣培养到专业课程中单科兴趣的培养,以及培养学生专业兴趣的方法。阐述教师应该帮助学生树立良好的专业兴趣,使教学达到更好的效果。  相似文献   

19.
Inductive logic programming (ILP) algorithms are classification algorithms that construct classifiers represented as logic programs. ILP algorithms have a number of attractive features, notably the ability to make use of declarative background (user-supplied) knowledge. However, ILP algorithms deal poorly with large data sets (>104 examples) and their widespread use of the greedy set-covering algorithm renders them susceptible to local maxima in the space of logic programs.This paper presents a novel approach to address these problems based on combining the local search properties of an inductive logic programming algorithm with the global search properties of an evolutionary algorithm. The proposed algorithm may be viewed as an evolutionary wrapper around a population of ILP algorithms.The evolutionary wrapper approach is evaluated on two domains. The chess-endgame (KRK) problem is an artificial domain that is a widely used benchmark in inductive logic programming, and Part-of-Speech Tagging is a real-world problem from the field of Natural Language Processing. In the latter domain, data originates from excerpts of the Wall Street Journal. Results indicate that significant improvements in predictive accuracy can be achieved over a conventional ILP approach when data is plentiful and noisy.  相似文献   

20.
现有的关系学习研究都是基于完备数据进行的,而现实问题中,数据通常是不完备的.提出一种从不完备关系数据中学习概率关系模型(probabilistic relational models,简称PRMs)的方法——MLTEC(maximum likelihood tree and evolutionary computing method).首先,随机填充不完备关系数据得到完备关系数据.然后从每个随机填充后的数据样本中分别生成最大似然树并作为初始PRM网络,再利用进化过程中最好的网络结构反复修正不完备数据集,最后得到概率关系模型.实验结果显示,MLTEC方法能够从不完备关系数据中学习到较好的概率关系模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号