首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
《现代电子技术》2020,(1):93-98
针对教育领域特定应用场景,利用数据挖掘技术处理教育数据是目前热点研究问题之一。课程成绩预测指对一门课程学生的期末成绩进行预测,其关键问题是通过选取合适的学生特征和确定最优的预测算法来构建预测准确率高的模型。针对大学基础课的特点,从主客观两方面选择特征,对比了4个效果最优的课程成绩预测分类算法,以准确率较高的算法构成加权投票集成算法,发现加权投票集成算法的预测准确率和AP值最高,为利用数据挖掘技术实现课程成绩预测提供了一种有效的方法。  相似文献   

2.
汪少敏  杨迪  任华 《电信科学》2018,34(12):117-124
大数据时代,文本分类是文本数据挖掘和文本价值探索领域的重要工作。传统的文本分类系统存在特征提取能力弱、分类准确率不高的问题。相对于传统的文本分类技术,深度学习技术具有准确率高、特征提取有效等诸多优势,有必要将深度学习技术引入文本分类系统,以解决传统文本分类系统存在的问题。在分析传统文本分类系统的基础上,提出了基于深度学习的文本分类系统的体系架构和关键技术,同时对传统分类模型、TextCNN、CNN+LSTM多种分类模型进行了验证比对。  相似文献   

3.
数据仓库和数据挖掘语言初探   总被引:1,自引:0,他引:1  
着重阐述了数据仓库的基本概念、特征和体系结构,并介绍了使DW作用得以发挥的决策支持工具。还介绍了几种数据挖掘语言及其标准化方面的研究进展,提出了数据挖掘语言分类的方法,在此基础上,对数据挖掘语言的结构和组成进行了探讨和研究,最后指出了数据挖掘语言的发展趋势,以及若干待解决的问题。  相似文献   

4.
郑盼盼 《移动信息》2023,45(9):208-211
文中阐述了数据挖掘的定义和分类,然后从垃圾邮件过滤、用户行为分析、软件代码分析、深度学习和自动化数据挖掘技术等方面,详细介绍了数据挖掘技术在软件工程中的应用现状和未来发展趋势。这些应用展示了数据挖掘技术在计算机软件工程中的多样性和重要性,同时也提出了一些问题和挑战,如数据隐私和安全问题、算法的解释和解释性评估等。因此,在数据挖掘技术的发展和应用中,需要继续加强对技术的研究和创新,推进技术与法律、伦理等方面的平衡发展。  相似文献   

5.
数据挖掘技术是近年来数据库和人工智能领域研究的热点课题,目前在很多领域已有研究,但在公安刑侦工作的研究中尚处于初级阶段。本文对数据挖掘技术进行了研究,针对传统的分类规则-Apriori算法在刑侦工作中存在的问题进行了分析,提出了算法的改进,并通过模型进行了验证。  相似文献   

6.
以提升网络热门舆情分类准确率,降低分类时间为目标,提出了基于数据挖掘技术的网络热门舆情分类方法。将小波核函数和支持向量机结合构成小波模糊支持向量机,采用增量学习机制和贝叶斯分类算法建立增量贝叶斯分类算法,组成小波模糊支持向量机-增量贝叶斯分类算法解决测试样本易分类失误以及类条件独立假定性很难获取问题,通过计算待测样本和小波支持向量机之间的距离,实现网络热门舆情分类。经实验验证:类置信度较高时,文中方法分类准确率高,运行时间少,可快速分类网络热门舆情,且网络热门舆情分类结果的查全率以及查准率都在94%以上,分类精度较好。  相似文献   

7.
在数据挖掘研究领域,特征选择已经成为一个重要的研究课题,这是因为现实的数据集常常含有高维的特征,尽管这可以使信息更加充分,但对分类器的设计也提出了更高的要求。随着特征维数的增加,特征中的不相关信息和冗余信息也会相应增多。针对这个问题,文章采用一种基于全局最小冗余的特征选择算法并将其应用到多视角数据分类中,在实验中与传统的多视角分类算法比较,具有更高的分类准确率。  相似文献   

8.
李光  王亚东  苏小红 《电子学报》2010,38(1):204-212
 隐私保持的数据挖掘是目前数据挖掘领域的重要研究方向之一,其首要研究内容是开发在不泄露隐私数据的前提下进行数据挖掘的方法.决策树是分类挖掘的一种重要方法,也是目前隐私保持的数据挖掘领域中少有的被深入研究了的分类方法.针对目前尚未对隐私保持的决策树挖掘方法进行系统总结的问题,本文对该领域进行综述.首先对问题背景进行介绍,随后介绍了该领域的研究现状,对现有方法进行了分类和总结,最后总结出该领域进一步研究的方向.  相似文献   

9.
周凌翱 《信息技术》2023,(5):72-77+83
传统电商情感数据分析往往采用数据挖掘方法分别从数据区分和特征区分的角度来判断商品评价情感倾向。鉴于此,提出了一种基于Adaboost-GA模型的商品评论情感分析方法,首先从数据区分的角度综合多个弱分类器而形成强分类器,提高分类算法的泛化和分类能力;其次从特征区分的角度降低数据特征之间的多重共线性进而提高模型的分类效果。实验结果表明,结合朴素贝叶斯算法的Adaboost-GA模型的平均分类准确率达到了90.53%,说明该模型在商品评论分类应用中能够取得较好的分类效果。  相似文献   

10.
<正>多尺度数据挖掘应用领域广泛,是一个跨学科课题,其在数据挖掘基础之上,利用多尺度理论,多层次、多方位对数据进行分析,学习更全面的信息。多尺度数据挖掘在不同学科、不同领域有着不同的应用,针对一般数据集而言,主要集中在多尺度关联规则、多尺度聚类和多尺度分类。为了便于理解,从概念、步骤和分类三方面对多尺度数据挖掘研究进行了简要的阐述以及分析。  相似文献   

11.
Web数据挖掘研究与探讨   总被引:18,自引:0,他引:18  
随着WWW迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。由Web数据具有的半结构化特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新的研究领域——Web数据挖掘。基于Web的数据挖掘主要分为:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘。综述了基于Web的数据挖掘技术概念与原理,并且介绍用以Web数据挖掘实现的一种全新的技术——XML。如何进一步开发Web数据挖掘,充分利用Web资源,还有待于进一步的研究。Web数据挖掘的研究具有极大的挑战性,同时又具有极大的开发潜力。  相似文献   

12.
XML在Web数据挖掘技术中的应用   总被引:3,自引:0,他引:3  
Web数据挖掘已经成为当前被广泛研究的课题.目前很多网站都是用HTML构建的,给Web数据挖掘带来了诸多困难,XML的出现为面向Web的数据挖掘带来了便利.本文介绍了一种充分利用XML的优点对HTML描述的网站进行挖掘的一种方法.  相似文献   

13.
Web数据挖掘是数据挖掘中的一个新的重要研究领域。介绍了基于Web的数据挖掘的概念与特点,对Web挖掘的主要内容进行了阐述,提出了Web挖掘中常用的解决方法以及数据挖掘的过程。同时,对数据挖掘过程中面临的问题进行了分析和研究,提出了相应的解决方案并且举例进行了证明。  相似文献   

14.
信息安全是人们高度关注的问题,我国信息安全与网络的防护能力尚处于发展的初级阶段.回顾了入侵检测系统的起源及其发展过程.在阐述入侵检测基本概念和类型的基础上,指出了目前各种入侵检测系统的优点和局限性.数据挖掘技术是克服目前入侵检测系统局限性的一种有效方法.介绍了数据挖掘的概念,并提出了一种基于数据挖掘的入侵检测系统框架.蜜罐系统和蜜网系统也是当前研究的热点问题,对其进行了分析,给出了应用实例.最后指出了下一步研究应该努力的方向.  相似文献   

15.
基于约简的关联规则采掘方法   总被引:1,自引:0,他引:1  
关联规则采掘是数据采掘技术的一个重要研究方向,文章提出了一种基于约简的关联规则采掘方法,比较分析证明该睡江对于改善采掘必能确实有效。  相似文献   

16.
Abnormal samples are usually difficult to obtain in production systems, resulting in imbalanced training sample sets. Namely, the number of positive samples is far less than the number of negative samples. Traditional Support Vector Machine (SVM)‐based anomaly detection algorithms perform poorly for highly imbalanced datasets: the learned classification hyperplane skews toward the positive samples, resulting in a high false‐negative rate. This article proposes a new imbalanced SVM (termed ImSVM)‐based anomaly detection algorithm, which assigns a different weight for each positive support vector in the decision function. ImSVM adjusts the learned classification hyperplane to make the decision function achieve a maximum GMean measure value on the dataset. The above problem is converted into an unconstrained optimization problem to search the optimal weight vector. Experiments are carried out on both Cloud datasets and Knowledge Discovery and Data Mining datasets to evaluate ImSVM. Highly imbalanced training sample sets are constructed. The experimental results show that ImSVM outperforms over‐sampling techniques and several existing imbalanced SVM‐based techniques.  相似文献   

17.
基于高效用神经网络的文本分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
吴玉佳  李晶  宋成芳  常军 《电子学报》2020,48(2):279-284
现有的基于深度学习的文本分类方法没有考虑文本特征的重要性和特征之间的关联关系,影响了分类的准确率.针对此问题,本文提出一种基于高效用神经网络(High Utility Neural Networks,HUNN)的文本分类模型,可以有效地表示文本特征的重要性及其关联关系.利用高效用项集挖掘(Mining High Utility Itemsets,MHUI)算法获取数据集中各个特征的重要性以及共现频率.其中,共现频率在一定程度上反映了特征之间的关联关系.将MHUI作为HUNN的挖掘层,用于挖掘每个类别数据中重要性和关联性强的文本特征.然后将这些特征作为神经网络的输入,再经过卷积层进一步提炼类别表达能力更强的高层次文本特征,从而提高模型分类的准确率.通过在6个公开的基准数据集上进行实验分析,提出的算法优于卷积神经网络(Convolutional Neural Networks,CNN),循环神经网络(Recurrent Neural Networks,RNN),循环卷积神经网络(Recurrent Convolutional Neural Networks,RCNN),快速文本分类(Fast Text Classifier,FAST),分层注意力网络(Hierarchical Attention Networks,HAN)等5个基准算法.  相似文献   

18.
在云计算环境下,Web数据挖掘技术得到了快速发展。由于云计算的应用,Web数据挖掘体系已体现出新的特点。分析云计算环境下Web数据挖掘技术的特点,可以明确应用要点,可以实现云计算在数据存储中的突破,实现存储的能力与安全性的提高。从海量数据中高效挖掘有价值的资源,属于信息技术要解决的关键问题。云计算技术支持下的数据挖掘实现了资源的优化配置,体现出实用性、虚拟性的特点,可以保证数据挖掘的高效、精准。因此,有必要构建基于云计算的数据挖掘模式,保证数据挖掘具有更高的精准度,并实现挖掘成本的降低。  相似文献   

19.
随着有线电视的一元化收视格局被打破,用户离网问题变得日益严重,如何通过大数据技术和数据挖掘技术来降低用户流失率、提高用户的净推荐值已经成为影响广电运营商发展的首要因素,从有线电视用户收视行为的演变出发,分析了解决有线电视用户离网问题的路径和方法.第一部分介绍了有线电视用户离网现状与原因,从视频收视格局的变化出发,剖析了有线电视用户离网的现状和原因.第二部分介绍了建设有线电视用户离网预警系统的必要性和系统构成,分析了以往离网研究存在的问题,并介绍了格兰研究最新研发的大数据用户离网预警管理系统和online在线服务系统.第三部分介绍了大数据离网预警管理系统的关键技术和物理架构.第四部分介绍了离网预警管理系统的应用,分别阐述了离网用户挽留方案的制定和部门间的无障碍数据应用.  相似文献   

20.
数据挖掘在工业和商业领域中发挥着越来越重要的作用.随着数据量的增加,挖掘算法处理海量数据的能力问题日益突出.研究并行算法,是解决这一问题的有效途径.该文对常用的数据挖掘算法C4.5,SLIQ,SPRINT,关联规则,K-平均值,K-最近邻,贝叶斯网络,人工神经网络,遗传算法及并行性进行了研究探讨,为数据挖掘研究者提供借鉴.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号