首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对糖尿病风险预测中数据单一导致预测误差较大的问题,本研究基于体检电子病历数据分析搭建空腹血糖预测模型,探究适合进行空腹血糖预测建模的方法,预测血糖指标及糖尿病的患病风险.基于数据挖掘基本流程,进行数据预处理,采用序列后向算法进行特征选择,使用决策树、随机森林、SVM、逻辑回归及朴素贝叶斯分类5种机器学习算法进行建模预...  相似文献   

2.
新型智能电表普及后,为了准确检测出电网中的窃电用户,可以结合机器学习的方法.为此,选择了支持向量机、随机森林和迭代决策树3种机器学习中较常用的大数据算法进行分析,通过不断调整试验数据集的大小,对3种算法的效率和准确率进行测试.对比分析结果发现,随机森林算法运行的时间和数据量的大小基本呈线性关系,效率较高,且准确率稳定在86%以上,表现较好.  相似文献   

3.
长期以来窃电问题一直困扰着电力企业,它不仅损害了供电企业的合法权益,扰乱了正常的供用电秩序,而且给安全用电带来了威胁.通过机器学习算法,对电力用电数据进行分析处理,可以预测用户是否存在窃电行为.基于电力数据中用户用电量提取相关特征,结合随机森林算法,提出了一种预测用户是否具有窃电行为的方法.对比多组实验数据,调节特征数量以及算法参数,以提高预测准确率和预测速度.  相似文献   

4.
通过strace命令实时收集到基于Linux系统调用的数据,利用STIDE算法产生固定长度调用序列.对产生的数据集进行特征提取与选择,基于数据挖掘软件WEKA进行数据分析,以得出精确度较高的分类算法.  相似文献   

5.
目前,许多误用检测系统无法检测未知攻击,而异常检测系统虽然能够精确检测未知攻击,但由于入侵检测固有的特性,入侵事件与正常事件类间存在极大的不平衡性,这导致很难利用机器学习的方法高效地进行入侵行为检测.为此,提出了一种基于信息增益和随机森林分类器的入侵检测系统.为了解决类之间的不平衡性,对训练数据集应用了合成少数过采样算法.提出了一种基于信息增益的特征选择方法,并用于构建一个数据集的特征约减子集.首先,利用随机森林算法从训练集中建立入侵模型,构建误用检测模型,通过网络连接的特征来匹配检测已知攻击.然后,利用信息增益的特征选择方法,根据特征约减获得的特征,将不确定性攻击的网络连接数据通过随机森林进行聚类,进而实现未知攻击的检测.实验采用的NSL-KDD入侵检测数据集是KDDCUP99数据集的增强版本.由于入侵检测固有的特性,NSL-KDD数据集设计时类间存在极大的不平衡性.实验结果表明,结合合成少数过采样算法以及基于特征选择的信息增益的随机森林分类器对少数类别异常检测率可达到0.962.  相似文献   

6.
针对印第安皮玛族成年女性糖尿病数据集进行分类。将迭代随机森林与机器学习方法如随机森林、K最近邻、基于不同核函数的支持向量机、人工神经网络、Logistic回归、梯度提升机、决策树分类等作比较。分析了分类识别精度、查准率、查全率、度量、ROC曲线和AUC值等6个指标。通过实验发现,与上述其它7种分类算法相比,针对该数据集,迭代随机森林在这些性能指标上的表现是最优的。  相似文献   

7.
为了解决从用户的需求自动地组合现有的Web服务这一 问题,〖JP2〗论文提出了一种自动Web服务组合算法,根据用户的目标以及Web服务本身的 推理能力,扩展基本的分层泛洪法,生成路径最短的Web服务调用序列,并经由启发式算法 进行优化,然后根据该序列从用户的目标回溯至用户给定的已知条件,并再次使用启发式算 法进一步优化生成一个简化的最短调用序列. 数学证明和实验结果表明,该算法可以得到较 优的Web服务组合方案.  相似文献   

8.
为了解决从用户的需求自动地组合现有的Web服务这一 问题,〖JP2〗论文提出了一种自动Web服务组合算法,根据用户的目标以及Web服务本身的 推理能力,扩展基本的分层泛洪法,生成路径最短的Web服务调用序列,并经由启发式算法 进行优化,然后根据该序列从用户的目标回溯至用户给定的已知条件,并再次使用启发式算 法进一步优化生成一个简化的最短调用序列. 数学证明和实验结果表明,该算法可以得到较 优的Web服务组合方案.  相似文献   

9.
为满足用户在信息过载情况下的隐式查询需求,设计随机森林算法下列表级排序学习推荐系统。用户登录系统后在用户层各界面操作产生操作信息,通过控制层将用户操作信息传输至处理层;由处理层数据采集模块采集用户感兴趣信息及数据,并将数据统一储存至数据层人机交互信息数据库中,处理层信息推荐模块依据数据层中人机交互信息数据,采用排序学习算法构建列表级排序学习推荐列表,利用随机森林算法作为构建推荐列表的学习方法,选取输出类别最多的决策树作为系统推荐结果;控制层将推荐信息传输至用户层推荐界面完成推荐系统对用户的专属信息推荐。系统测试结果表明,该系统可实现用户偏好内容推荐,推荐准确率为0.9以上,系统整体性能较好。  相似文献   

10.
流式计算形态下的大数据分析一直是当前需要解决的问题,而且研究成果和实践经验较少。随机森林方法是目前应用较多的分类算法,但在流式计算应用场景中,数据所呈现出来的实时性、易失性、无序性等特征会使得算法准确度逐渐降低。针对这个问题,分析了随机森林的算法特点,提出了根据决策树的准确度进行随机森林剪枝的思路。同时为了适应数据的变化,结合准确度间隔的概念提出生成、验证并补充新决策树的方法,最终形成可以不断随数据更新的随机森林,满足流式大数据环境对算法的要求。使用实际数据对改进后方法的可行性进行了验证,证明新方法在真实流式大数据场景中有着更高的分类准确度,最后分析讨论了随机森林方法如何进一步研究改进的主题。  相似文献   

11.
针对Web数据的异构性和非结构特征,提出一种最小开销的Web方面实体搜索方法:FacetedWeb.采用命名实体对Web进行结构化的标注,将无结构的Web数据建模为实体元组数据库以支持多类型的实体搜索和动态的方面选择.采用基于随机行走模型的概率排序算法,用结点的个性化PageRank值来衡量结果的相关性,以构造最小开销的方面接口.在真实Web数据集Clueweb上实现了FacetedWeb的原型系统,通过用户评测数据验证了FacetedWeb作为通用Web方面搜索引擎的有效性,并与传统实体搜索算法的进行对比,结果表明FacetedWeb在实体搜索的效率和精确度上具有明显的优势.  相似文献   

12.
通过网络爬虫获取天气数据,并结合金华市用户负荷数据,采用深度随机森林算法对用户负荷进行短期预测。借助4种评价指标,通过对比支持向量回归算法、K近邻算、贝叶斯岭回归算法、随机森林算法以及多个深度神经网络算法,发现深度随机森林算法预测效果最佳,支持向量回归算法次之,而深度神经网络算法在该数据集上表现一般。  相似文献   

13.
卫星测试数据库查询、监视子系统的研究与实现   总被引:3,自引:0,他引:3  
随着Internet的发展,基于Web数据库的开发已经成为趋势。将卫星测试数据利用Web技术进行处理,可以更好的挖掘卫星数据的可利用性。据此设计了基于Web技术的卫星地面控制系统。系统详细介绍如何对已经接收的测试数据进行查询和分析,并向网络用户提供数据发布服务。用户能够通过本系统及时监视测试情况、采取相应的管理功能并能够对历史数据进行查询、统计。  相似文献   

14.
大脑结构MRI数据本质上是三维张量数据,而传统机器学习方法在提取大脑结构特性信息时,需要将其展开为一维向量,破坏了数据的内在结构信息.为了克服数据向量化带来的缺点,提出使用张量线性判别分析算法,用于大脑结构MRI数据分析.并对比基于向量的主成分线性判别分析算法,对20个正常人和20个精神病患者的脑灰质MRI结像进行分类.结果表明张量线性判别分析算法的最高识别率达到95%,其总体识别率、鲁棒性都要优于主成分线性判别分析算法.张量线性判别分析算法在大脑MRI数据分类上要优于传统基于向量的机器学习方法.  相似文献   

15.
提出一种基于大数据和机器学习算法引擎的电商平台侵权动态监测网络系统的设计方案. 重点介绍大数据远程采集系统、数据实时监测分析平台和核心算法引擎模型设计. 大数据远程采集系统包括远程服务器云平台和大数据分布式采集程序,系统通过Web信息采集器来完成精确采集各大商家、网络平台等的所有相关数据;数据监测分析平台是将信息的深度学习、单词嵌入、共同表征等相关算法转换为程序,用于分析处理由采集数据数字化的商品所涉及的知识产权信息. 核心算法引擎基于传统舆情分析和自然语义处理技术,构建商品特征及用户观点挖掘模型,从而实现电商产品知识产权数据的搜索、分析、保存、预测等功能. 该系统可有效降低侵权打假成本,为品牌商维权和知识产权保护建立一个可靠的渠道.  相似文献   

16.
为了提高对分布式Web日志数据的准确挖掘能力,提出基于用户访问树的分布式Web日志挖掘算法.构建分布式Web日志的信息分布式检测模型,采用模糊信息粗糙集调度方法进行分布式Web日志信息的结构重组,提取分布式Web日志的统计特征量,采用用户访问树特征聚类方法进行分布式Web日志数据的空间分布式重组,结合粗糙集特征匹配方法...  相似文献   

17.
传统Web挖掘技术面向所有Web用户,而访问网站时活跃用户与非活跃用户表现特征不同.基于此,提出一种面向活跃用户的访问模式挖掘方法,包括活跃用户会话提取算法(AUSM)和树型访问模式挖掘算法(WAPBUM).AUSM扫描一遍日志数据即可挖掘Web活跃用户并提取会话信息,在提取的用户会话信息基础上,利用网站拓扑结构给出了一种基于树结构的频繁访问模式挖掘算法(WAPBUM).WAPBUM针对Web日志挖掘特点,通过对子树构造等价类,自下而上产生频繁子树.人工数据集和真实数据集上的实验都证明AUSM算法的运行时间与Web日志数据量成线性关系,且运行过程中内存保持稳定;WAPBUM在处理带根子树挖掘时明显快于FREQT算法,所挖掘结果可有效应用于网站结构分析.  相似文献   

18.
基于K邻近(KNN)算法和随机森林算法,提出了一种无线网络中丢失数据的重建方法。首先将多维原始数据通过不稳定无线信道进行发送,接收端将接收到的完整原始数据集中,利用KNN算法筛选出部分和重建特征相关性较高的特征,用于构造随机森林模型。然后输入缺失的数据样本,随机森林模型自适应地对数据样本进行分类,并利用完整样本对缺失特征值进行预测,从而完成丢失数据的重建。最后通过仿真实验表明,该方案可以有效地提升数据重建的精确度,在数据丢失率达到80%的情况下,重建数据的准确率仍然优于现有的解决方案。  相似文献   

19.
Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,以发现相似客户群体、相关Web页面和频繁访问路径等,其目的在于从用户访问Web系统的行为中发现用户的访问模式.在对Web日志挖掘的原理和技术进行讨论的基础上,重点探讨了如何将Apriori改进算法应用于对Web日志的挖掘,提出了一种基于该算法的Web日志挖掘实现方法,实验结果表明了算法的有效性.  相似文献   

20.
全面质量管理为企业实现科学、全面、高效的管理提供了理论依据.在分析产品生产过程中影响产品质量各方面因素的基础上,利用随机森林决策树算法对数据进行处理,挖掘内在的、本质的信息,能为企业的管理提供帮助.通过实测数据分析,结果显示基于随机森林决策树的方法有较好的性能,可以满足企业的实际应用要求,提高企业效率和产品合格率,降低企业成本.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号