首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类任务时存在的数据稀疏以及效率低的问题,提出了一种基于Hadoop的Dirichlet朴素贝叶斯文本分类算法。该算法引入统计语言建模技术中的Dirichlet数据平滑方法,采用Map Reduce编程模型,在Hadoop云计算平台上实现了算法的并行化。通过实验对比分析了该算法与传统朴素贝叶斯文本分类算法对大规模文本数据的分类效果。结果表明,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,且具有高效性和易扩展性。  相似文献   

2.
梁鹏  曹龙汉  张治中 《电视技术》2017,(11):135-140
大数据时代,面对海量且复杂的结构化、半结构化和非结构化数据,传统的信令监测分析系统无法快速准确地分类、处理以及存储海量数据中包含的信息.针对这些问题,提出了一种基于Hadoop系统技术平台和支持向量机(Support Vector Machine,SVM)分类算法的LTE-Advanced网络Uu接口用户行为分析系统.对用户行为分析系统的系统架构、在Hadoop平台下数据挖掘分类算法SVM的实现进行了详细阐述,并通过Uu接口进行了现网测试,测试结果表明,提出的用户行为分析系统达到了预期的效果,对用户偏好分析以及精准营销具有推广意义.  相似文献   

3.
网络舆情是通过互联网传播的,公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点.面对数亿网民和浩如烟海的网络言论,网络舆情的监测和分析越来越依赖舆情大数据分析技术与平台.大数据的相关技术目前应用最成熟的是由Apache基金会提出的Hadoop解决方案,将Hadoop技术应用于网络舆情分析系统,可以有效适应海量数据的处理需要.  相似文献   

4.
针对层次分析法进行网络安全态势评估存在主观性过强的问题,文中提出了一种基于Hadoop的网络安全态势评估算法。该算法采用Hadoop作为并行数据融合平台,使用LSTM作为多数据特征提取算法。为了弥补分类功能的缺陷,通过随机森林模型增强算法的分类性能,最后将LSTM随机森林算法部署在Hadoop集群中,完成多源数据的融合。实验结果表明,相较于其他算法,所提算法的预测性能更强、误差更小,从而进一步提升了网络安全态势评估的精度。  相似文献   

5.
根据信息时代舆情管理的要求,利用云计算的高效的分布式运算能力,本文构建了基于云平台的网络舆情监控系统。首先介绍了舆情监控与Hadoop技术,结合舆情监控工作流程,重点阐述了舆情监控系统的架构及关键算法的MapReduce实现,最终验证了基于Hadoop的舆情分析处理的高效性。  相似文献   

6.
《现代电子技术》2020,(4):176-179
为了有效解决舆情数据传播中特征挖掘技术面临的特征挖掘滞后问题,设计基于人工智能的网络舆情大数据传播特征挖掘系统。设计网络信息传感提取模块,利用O/I顺向电流指向性电路节点端口和电机控制性匹配结构构建外围控制电路以及带状数据分布式交互接口。设计舆论数据人工智能入网协议来转换当前的网络数据格式,并对其进行舆情二次语义处理。文中使用人工智能技术,依靠Hadoop平台内部学习库中的Ma_Orduse算法和K-means算法通过有效数据文本聚类获取特征键值,以中枢结构的形式传递回中央控制器,实现当前网络舆情大数据传播特征挖掘。实验数据表明应用该挖掘系统后,舆情数据特征读入延迟降低32%,读出延迟降低27%,可以有效缓解特征挖掘滞后问题。  相似文献   

7.
《现代电子技术》2017,(24):15-17
针对互联网数据快速增长和舆情信息飞速传播的问题,提出一种基于大数据的网络舆情分析系统。该系统包括数据采集、预处理、分析和报告汇总四个模块,实现舆情信息的全网自动搜索与采集,大规模舆情数据的格式化存储以及舆情信息的分析、统计汇总等功能。该系统还使用Hadoop平台进行数据处理,并使用HDFS分布式文件系统存储舆情数据,使用MapReduce技术完成舆情分析和报告。仿真结果表明,该系统有助于及时、准确地分析网络舆情,能较好地满足网络舆情分析的需求。  相似文献   

8.
基于Hadoop的网络分流和流特征计算   总被引:1,自引:0,他引:1  
网络流量特征计算是网络流量分析的一个重要步骤,对于海量网络流量数据,并行化计算网络流量特征是高效网络流量分析的重要方法.针对传统单机处理成本高、可扩展性差的问题,提出一种基于MapReduce编程模型的网络流量分析方法,并行实现网络分流和流量特征计算.通过使用Hadoop平台对实际数据进行分析,统计常用网络流量属性特征,实验表明,该方法分析网络流量特征的结果准确可信,且适合分析大流量数据.  相似文献   

9.
快速准确的在海量网络数据中发现热点主题对于网络舆情监控具有重要作用.针对K-means算法对初始中心点选择敏感和全局搜索能力不足的问题,提出一种基于Hadoop的改进灰狼优化K-means的IGWO-KM算法.首先,该算法将灰狼优化算法和K-means算法相结合,利用灰狼优化算法收敛速度快和可全局寻优的优势为K-means搜索最佳聚类中心,减小随机选取初始中心点而导致的聚类结果不稳定性,以获取更好的聚类结果.其次,使用非线性收敛因子改进灰狼优化算法,协调算法的全局和局部的搜索能力.然后,引入正弦余弦算法并进行改进,增强灰狼优化算法的全局搜索能力,优化寻优精度和收敛速度,避免陷入局部最优.之后,使用近邻空间球减少K-means聚类过程中冗余的距离计算加快算法收敛.最后,利用Hadoop集群可批量处理数据的特性,实现算法的并行化.实验结果表明,IGWO-KM算法具有更好的寻优精度和稳定性,相比于GWO-KM算法和K-means,该算法在查准率、召回率和F值均有明显提高,且具有良好的收敛速度和拓展性.  相似文献   

10.
相比其他分类算法,朴素贝叶斯算法最大的优点就是适合被并行化改造。由于单机分类算法不适应大规模数据的处理,而云计算动态调度的出现为大数据处理带来了希望,运用并行计算的思想改进算法能提高分类速度。结合朴素贝叶斯算法易于并行化的特点对算法进行相应的改进。在单机串行、Hadoop、Spark以及CUDA平台上进行了性能对比实验,最终证明了分类算法并行化后具有较好的加速比。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号