首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 719 毫秒
1.
计算相似性是信息检索的一个核心基础问题,二者、三者甚至更多集合的相似性估计在相似文档检测、词语相关性、聚类、数据清理等领域有着广泛的应用.连接位Minwise Hash算法作为一种高效、准确的相似性估计算法,能够成倍地减少比对的次数,提升算法性能.通过理论推导,给出基于连接位Minwise Hash的三者相似度无偏估计公式.实验结果显示,在样本大小k=500、相似度阈值R0=0.8时,算法的准确率和召回率均能达到95%以上,并且所需的CPU运行时间仅为b位Minwise Hash三者估计算法的50%.  相似文献   

2.
结合目前常用的垃圾短信过滤方法,将相似度理论与模糊聚类理论知识相结合,设计出了一款基于Symbi-an OS系统的手机垃圾短信过滤器。此过滤器与单一贝叶斯文本算法和k近邻算法过滤相比,在准确率、正确率和召回率三个指标上都有了一定程度的提高。  相似文献   

3.
提出一种加入时间因素的个性化信息过滤技术.在建立用户模型时,根据用户行为动态确定用户兴趣类别的数量并建立(调整)相应兴趣类别的特征向量.通过在表示用户兴趣类别的特征向量中添加时间因素,可以兼顾用户的短期和长期兴趣,跟踪用户的兴趣变迁.在信息过滤时,首先计算文档与用户兴趣类别的相似度,并根据时间参数调整最终得分.本系统每秒钟能学习文档267篇,为402篇文档评分;在召回率为70%时,精确率为57%.  相似文献   

4.
协同过滤算法为推荐系统提供了一种方法,但传统的协同过滤方法推荐精度低.提出一种考虑用户评分相似性的协同过滤算法,通过在皮尔逊相关系数中加入项目数量相似度和用户评分相似度两个因素来计算用户间的相似度,以产生更合理的邻居用户,提高推荐精度,完成对用户的推荐,同时邻居用户的选取采用动态阈值设定方法.实验结果表明,所提出的算法相比传统方法选择出的邻居更为精确,推荐质量更高.  相似文献   

5.
针对寿险行业的客户流失问题,构建基于外在、内在、行为(EIB)属性的寿险客户指标体系.提出改进的K-means算法,使用改进的轮廓系数公式判断初始聚类数目,并利用欧式距离相似度与余弦相似度的测度优势提出欧式类簇空间的局部、全局离群点过滤规则.运用传统的K-means算法、不同离群点监测阈值下的改进K-means算法进行...  相似文献   

6.
针对传统协同过滤UserCF推荐算法,用户相似度计算数据维度单一、精确率低、用户兴趣动态漂移等问题,提出一种结合时间上下文和用户兴趣动态衰减模型的协同过滤推荐算法.在传统协同过滤算法中结合时间上下文优化用户相似度的计算,引入用户收敛兴趣衰减模型,动态评估用户兴趣变化.算法通过MovieLends-1M数据集进行实验验证,按照Fβ值、准确率、召回率与传统UserCF、UserCF-IIF算法进行对比分析.实验结果表明:本文算法精确率最高可达25.6%、召回率最高可达12.2%,相比UserCF、UserCF-IIF算法,在Fβ值方面本文算法具有明显提升.  相似文献   

7.
陈亚东 《科学技术与工程》2011,11(7):1468-1473,1479
针对目前基于动态规划的DNA序列全局比对算法时间复杂度较高,设计了一个DNA序列全局比对系统。该系统用FPGA进行序列的比对,并配备一个软件平台存储数据、发送命令以及发送和接收数据。测试数据表明,该系统的DNA序列比对时间在序列相似度较低情况下,为Needleman的42%;在序列相似度较高的情况下,为Needleman的6%。  相似文献   

8.
现有研究集中于不带有时间空间信息或带有固定时间空间信息的活动序列相似度计算,没有从不同层次来度量用户行为序列的相似性,为了实现对用户行为多粒度多视角的动态认知,提出一种基于序列比对算法Needleman-Wunsch的多粒度时空序列比对算法(multi-granular spatiotemporal sequences alignment,MGSSA),扩展了NW算法的得分函数以结合时间、空间信息,通过粒度调控实现了从不同的粒度来计算时空事件序列的相似度.实验证明,多粒度时空序列比对算法MGSSA是有效且可行的.   相似文献   

9.
Slope One 协同过滤算法被广泛应用于个性化推荐系统中。标签是一种描述项目特性的重要形式,针对Slope One 算法推荐精度不足的问题,将标签信息融合到 Slope One 算法当中。同时参考 k 近邻算法思想,选取阈值过滤后的 k 近邻项目参与平均评分偏差计算,提高计算效率的同时增加预测精度。使用评分相似度和标签相似度作为权重修正线性回归模型。通过线性加权融合预测结果,进一步提升推荐质量。将算法应用于 MovieLens 数据集,与传统加权 Slope One 算法相比,平均绝对偏差下降4.8%,召回率和准确率分别提高32.1%和26.3%。  相似文献   

10.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一.鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1.….K wk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法.这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足.  相似文献   

11.
考虑到传统信息检索算法在检索数字文献推广信息时存在安全性差、检索效率低的问题,提出了基于语义相似度的数字文献推广信息智能检索算法.基于数字文献检索信息文档,计算了数字文献推广信息中检索词的相关度,根据语义相似度,计算数字文献推广信息的权重值,利用数字文献推广信息数据库的查询结果,结合李雅普诺夫定理,提取数字文献推广信息关键特征,根据采集原始数据集的时间,计算数字文献推广信息的平均检索概率,利用过滤器清理数字文献数据库的局部推广信息,采用全局过滤器,清洗数字文献数据库的推广信息,通过定义数字文献推广信息检索元素值,计算了关键词之间的语义相似度,结合数字文献推广信息检索算法设计,实现了数字文献推广信息的检索.实验结果表明,基于语义相似度的数字文献推广信息智能检索算法不仅可以提高数字文献推广信息的检索效率,还具有很高的安全性.  相似文献   

12.
计算文本相似度阈值的方法   总被引:8,自引:0,他引:8  
基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。  相似文献   

13.
关联规则挖掘在许多数据挖掘中有着广泛的应用。当数据库和支持度阈值发生变化时,现有的挖掘方法普遍存在多次扫描数据库或重复遍历复杂数据结构的问题。该文基于增量式更新算法(IUA)和快速更新算法(FUP),提出在数据库与支持度阈值同时变化情况下的关联规则动态维护算法ARDM,并通过Hash结构与模式增长方法进行优化。实验表明:该算法充分利用了已挖掘结果,在数据库和支持度阈值同时变化时比FP-Growth大幅提高了执行效率。最后,将该算法应用于企业财务指标及财务比率分析。  相似文献   

14.
可以从读者的图书借阅记录中挖掘有价值的数据,识别读书偏好,提供个性化的图书借阅推荐服务。Apriori算法存在单一用户的单一借阅记录在整体数据集中变成离群点,导致分析时间和内存开销显著增加的问题。通过设定置信度、支持度和过滤度的阈值,对原数据集进行过滤;再使用Apriori算法对新的数据集进行关联规则分析。带有数据过滤的关联规则算法在图书借阅记录数据量无论大和小的情况下,分析时间更短,内存开销更小,强关联规则更强。  相似文献   

15.
基于语句-词条矩阵的聚簇式动态增长聚类算法   总被引:1,自引:0,他引:1  
Web信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息.为此该文提出了一种基于语句-词条矩阵的聚簇式动态增长聚类算法.该平面分割的算法的整个工作过程有3个步骤预处理Web数据,进行文本摘取和过滤处理;形成每个文档的语句-词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类.对该算法进行了实验分析.结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性.  相似文献   

16.
基于极角特征匹配的动态签名鉴别算法   总被引:1,自引:0,他引:1  
基于签名质心和黄金分割质心建立极坐标系, 并提取签名极角特征中相对稳定的极值点序列作为笔段分隔点给出一种签名鉴别算法. 提出了改进的动态时间规整(DTW)算法, 通过该算法将待测样本和签名模板依分隔点的对应关系按段进行动态匹配, 得到最优匹配方案和最佳相似度, 从而降低了误拒率. 算法经JLU DHSDB2.0签名数据库测试, 识别等错率达到4.25%.  相似文献   

17.
介绍了在信息安全泄密检查中匈牙利算法在语义相似度分析中的应用,提出了基于知网树状义原关系结构的语义关系距离模型,提纯文档语义内容,形成义原集合,获取语义特征值并通过改进匈牙利算法,比对了实现与语义特征集的相似性。  相似文献   

18.
FP-growth是关联规则挖掘中一种效率较高的算法,它不产生候选集,但仍需多次遍历结果集L.针对此问题提出了一种基于Hash表的改进算法HFP-growtH(Hash FP-growth).该算法将结果集L的数据以项名称对应项支持度计数的形式存入Hash表,在找某个项的支持度计数时给Hash表传入项名称直接返回对应的支持度计数,改变了以往多次遍历结果集L的方法,从而节省了遍历时间,提高了挖掘效率.实验结果表明,改进后的算法性能明显优于原算法,并将其应用于名智网上招聘系统之中.  相似文献   

19.
为了帮助人们从大量互联网资源中找到感兴趣的信息,推荐系统由此而生.其中,应用最广泛,也是最早出现的推荐算法包括协同过滤算法,但是该算法还存在着许多不足之处.该算法主要考虑用户的评分数据,未能结合项目进行考虑,同时在选取当前用户的最近邻用户时,通常统一规定了近邻用户数目,没有结合每个用户的实际数据,导致推荐的效果无法取得最优.因此,本文在充分考虑用户评分的情况下,还结合项目信息加入了用户的兴趣偏好,提出了一种基于用户兴趣的动态近邻协同过滤算法.综合用户的标签数据和评分数据来计算相似度,可以很好的缓解仅依靠评分数据带来的稀疏性问题.同时在得到用户之间的相似度之后,设定2个阀值,分布选取最近邻用户.只有当用户间相似度超过阈值,该用户才会被选择为最近邻的用户,动态的找到每一个用户的严格最近邻用户.通过实验,与常用的协同过滤算法相比,本文提出的算法推荐的误差更小,并且为以后的研究工作奠定了基础.  相似文献   

20.
协同过滤对所有的项目都一视同仁,也就是说,所有的项目对目标项目来说都有同样的重要性,但在实际情况下,对一个项目来说,不同的项目对其的影响是不同的。因此,在运用项目相似度的基础上,加入了动态阈值的计算方法。该算法首先计算项目间的相似度,然后用动态阈值查找项目的最近邻集,最后通过近邻集预测各项目的评分。实验结果表明,该方法提供了一个更好的推荐。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号