首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
张芳娟  杨燕  杜圣东 《计算机应用》2018,38(11):3150-3155
针对高校资助管理办法效率低下、工作量大等问题,提出一种增强特征判别性的典型相关分析(EN-DCCA)方法,并结合分类集成方法实现高校学生助学金预测。将学生在校多维度数据划分为两个不同视图,已有的各种多视图判别典型相关分析算法没有综合考虑视图类别之间的相关性和视图组合特征的判别性两者因素。EN-DCCA的优化目标在最大化类内相关的同时最小化类间相关,并且考虑了视图组合特征的判别性,进一步强化了属性的判别性能,更有利于分类预测。高校学生助学金预测的实现过程:首先,根据学生生活行为和学习表现将数据预处理为两个不同视图,然后用EN-DCCA方法对这两个视图数据进行特征学习,最后用分类集成方法完成预测。在真实的数据集上进行实验,所提方法的预测准确率达到90.01%,较增强视图组合特征判别性的典型相关分析(CECCA)的集成方法提高了2个百分点,实验结果表明,所提方法能有效实现高校助学金预测。  相似文献   

2.
多视图的数据广泛存在于真实的应用中。比如说网络上用户标注的图像,一个视图是由图像的底层特征去表征,而另一个则由文本特征去表征。如何从这种类型的数据中有效地挖掘出有价值的信息对于做数据挖掘和数据检索的人来说具有很大的挑战性。提出多视图的预测算法(MVP)去获取一个子空间,在这个子空间上,通过典型相关分析使得两个视图之间的相互关系最大化。在训练步,期望能通过学习同时得到典型向量组成的子空间和对应典型向量的相关系数;在预测步,通过把数据投影到子空间上产生多视图数据的得分向量。再由得分向量通过多重回归有效地判断出测试样本两个视图之间是不是存在相互关系。基于文本标注图像的实验表明了算法的有效性。  相似文献   

3.
李晋  钱旭 《计算机应用》2016,36(3):713-717
针对多视图相关性算法未有效利用视图中相关信息且忽视了潜在的鉴别信息的问题,提出基于同一视图内和不同视图间的双重鉴别相关性分析(DVDCA)算法。首先,设计有监督的类内和类间相关性变量,通过最大化类内相关性变量、最小化类间相关性变量来提取视图中的鉴别特征;其次,考虑在同一视图内和不同视图间均考虑进行鉴别相关特征提取,设计约束形式的双重视图鉴别相关性特征提取模型,以利用丰富的视图信息。在Multi-PIE多角度人脸数据集数据集上与多视图线性鉴别分析、典型相关性分析(CCA)、多视图鉴别隐性空间(MDLS)、不相关多视图鉴别字典学习(UMDDL)四种算法对比实验,DVDCA分类识别率能够提高1.45~4.73个百分点;在MFD多特征手写体数据集上分类识别率能够提高1.25~5.29个百分点。  相似文献   

4.
在关键点周围进行流线可视化时,流场特征复杂多样以及流线之间可能存在共点或对称性等情况,可能导致常规的基于几何或相似性的筛选方法失效.为此,提出了基于数据驱动思想的关键点周围的流线筛选方法MvCcp,它是基于多视图聚类算法的流线筛选方法,通过对流场进行不同粒度的体素化,生成流线的位置视图和基于距离场直方图的特征视图数据,并通过多视图聚类算法进行流线筛选.针对HalfCylinder等6个典型的关键点周围的三维流场,与其他3种典型的流线筛选方法进行了定性可视化比较,并基于MSE,PSNR,SSIM,AAD等定量指标进行对比实验表明,MvCcp在所有实验中具有更出色和更稳定的表现.  相似文献   

5.
有序判别典型相关分析   总被引:1,自引:0,他引:1  
周航星  陈松灿 《软件学报》2014,25(9):2018-2025
多视图学习方法通过视图间互补信息的融合,达到增强单一视图方法的鲁棒性并提升学习性能的目的.典型相关分析(canonical correlation analysis,简称CCA)是一种重要的多视图信息融合技术.其研究的是针对同一组目标两组不同观测数据间的相关性,目标是得到一组相关性最大的投影向量.但当面对标号有序的分类任务时,CCA因没有利用类信息和类间有序信息,造成了对分类性能的制约.为此,通过将有序类信息嵌入CCA进行扩展,发展出有序判别典型相关分析(ordinal discriminative canonical correlation analysis,简称OR-DisCCA).实验结果表明, OR-DisCCA的性能比相关方法更优.  相似文献   

6.
为解决垃圾网页检测过程中的“维数灾难”和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林(RF)分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表明,该集成分类器算法应用于垃圾网页检测:与随机森林算法及其Bagging和AdaBoost集成分类器算法相比,准确率、F1测度、AUC等指标均提高11%以上;与其他最优的研究结果相比,该集成分类器算法在F1测度上提高2%,在AUC上达到最优。  相似文献   

7.
随着数据采集技术的发展,人们获取数据的途径呈多样化,所得到的数据往往具有多个视图,从而形成多视图数据。利用多视图数据不同的信息特征,设计相应的多视图学习策略以提高分类器的性能是多视图学习的研究目标。为更好地利用多视图数据,促进降维算法在实际中的应用,对多视图降维算法进行研究。分析多视图数据和多视图学习,在典型相关分析(CCA)的基础上追溯多视图CCA和核CCA,介绍多视图降维算法从两个视图到多个视图以及从线性到非线性的演化过程,总结各种融入判别信息和近邻信息的多视图降维算法,以更好地学习多视图降维算法。在此基础上,对比分析多视图降维算法的特点及存在的问题,并对未来的研究方向进行展望。  相似文献   

8.
通过分析区域内车辆加油的大数据,研究车辆加油的普遍行为模式,调查可能的异常行为.为此,以覆盖新疆维吾尔自治区的车辆加油数据为基础,设计了一个交互式可视分析系统.首先通过抽取相关数据集的基础特征,得出加油站、汽车、驾驶员3类实体之间的关系;然后使用多种可视化经典视图并加以组合;此外,在部分视图上增加了一些额外的图形元素,以在具体应用场景下从不同视角描绘出典型的数据特征,如时空特征等,同时展示不同实体之间的关系.通过2个基于真实数据的案例,在领域专家的协助下分析数据中的典型个体行为模式及统计群组特征,最终实现对异常行为的识别.  相似文献   

9.
研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根据关键词在所有网页中出现的频率统计生成关键词倒排文件。实验中,通过对比访问网页库、特征表和倒排文件三种不同的数据来源,分别实现了中文网页的关键词检索,比较了三种数据源检索的实时性。实验表明,基于关键词的倒排表检索算法大大优于其他两种方法,具有很好的实时性。  相似文献   

10.
为了有效地检测垃圾网页,通过分析网页内容特征和链接特征的分布,发现正常网页特征分布有规律而垃圾网页特征分布散乱,根据正常网页特征分布与垃圾网页特征分布的不同,提出了用分布函数拟合正常网页特征分布,并计算正常网页和垃圾网页比例与分布函数的差值,以差值为阈值使用C4.5决策树对垃圾网页进行检测.实验结果表明,该方法能够有效地减少被错误分类的正常网页,提高准确率.  相似文献   

11.
网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的.  相似文献   

12.
随着Web技术的发展和Web上越来越多的各种信息,如何提供高质量、相关的查询结果成为当前Web搜索引擎的一个巨大挑战.PageRank和HITS是两个最重要的基于链接的排序算法并在商业搜索引擎中使用.然而,在PageRank算法中,每个网页的PR值被平均地分配到它所指向的所有网页,网页之间的质量差异被完全忽略.这样的算法很容易被当前的Web SPAM攻击.基于这样的认识,提出了一个关于PageRank算法的改进,称为Page Quality Based PageRank(QPR)算法.QPR算法动态地评估每个网页的质量,并根据网页的质量对每个网页的PR值做相应公平的分配.在多个不同特性的数据集上进行了全面的实验,实验结果显示,提出的QPR算法能大大提高查询结果的排序,并能有效减轻SPAM网页对查询结果的影响.  相似文献   

13.
基于内容与链接特征的中文垃圾网页分类   总被引:2,自引:0,他引:2  
随着搜索引擎使用的日益普及,web作弊已成为搜索引擎面临的一个重大挑战。国内外研究人员从基于内容,基于链接等方面提出了许多反web作弊的技术,这些技术一定程度上能有效地检测垃圾网页。本文在前人研究基础上提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类。  相似文献   

14.
基于目的分析的作弊页面分类   总被引:4,自引:1,他引:3  
随着互联网的飞速发展,因网络作弊而产生的垃圾页面越来越多,严重影响了搜索引擎的检索效率和用户体验。反作弊已经成为搜索引擎所面临的最重要挑战之一。但目前的反作弊研究大都是基于页面内容或链接特征的,没有一个通用可行的识别方法。本文主要基于作弊目的的分析,给出作弊页面另一种体系的分类,为基于目的的作弊页面识别起到良好的导向作用。  相似文献   

15.
恶意网页是一种新型的Web攻击手法,攻击者通常将一段恶意代码嵌入网页中,当用户访问该网页时,恶意代码会试图利用浏览器或其插件漏洞在后台隐秘地执行一系列恶意行为.针对恶意网页静态特征抽取问题,本文从已有的特征中选取了14个信息增益值较高的特征,并通过分析恶意网页的混淆手法提出了8个新的特征,共同组成了22维的静态特征体系.此外,针对已有特征抽取流程提出两点改进:对不同编码格式的原始网页进行预处理;回送JavaScript脚本动态生成的的HTML代码,用以进一步抽取HTML相关特征.实验表明,在不均衡数据集和均衡数据集上,本文的特征体系具有一定的有效性.  相似文献   

16.
网页在其生命周期内的活跃程度会随时间发生变化。有的网页只在特定的阶段有价值,此后就会过时。从用户的角度对网页的生命周期进行分析可以提高网络爬虫和搜索引擎的性能,改善网络广告的效果。利用一台代理服务器收集的网页访问量信息,我们对网页的生命周期进行了研究,给出了用户兴趣演变的模型。这个模型有助于更好地理解网络的组织与运行机理。  相似文献   

17.
Graph regularization methods for Web spam detection   总被引:1,自引:0,他引:1  
We present an algorithm, witch, that learns to detect spam hosts or pages on the Web. Unlike most other approaches, it simultaneously exploits the structure of the Web graph as well as page contents and features. The method is efficient, scalable, and provides state-of-the-art accuracy on a standard Web spam benchmark.  相似文献   

18.
网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题。在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regression 模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论 互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素。  相似文献   

19.
Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和基于网络图的链接特征,分别建立两个独立的基本分类器;使用Co-Training半监督式学习算法,借助大量未标记数据来改善分类器质量。在WEB SPAM-UK2007数据集上的实验证明:算法改善了SVM分类器的效果。  相似文献   

20.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号