首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
冯光璐  欧阳静  李然  倪凡  曾路 《信息技术》2024,(1):104-109+114
针对电网OA系统内存在大量的非结构化文档难以识别的问题,研究电网OA系统非结构化文档内容自动化识别技术。采用非直接转换方法,将非结构化数据先转换为采用XML文件承载的不完全结构化数据,利用SAX解析工具解析不完全结构化数据,采用Simhash算法对文本信息进行去重处理;采用TextRank算法提取文本内的关键词,根据关键词识别电网OA系统非结构化文档内容。测试结果显示,在海明距离与相似度阈值分别为10和70的条件下可获取较好的去重效果,关键词提取效果较好,具有推广价值。  相似文献   

2.
传统Simhash算法是由Google公司提出以实现大规模文本去重的方法,其优势在于处理高效,且准确度高。当前,Simhash算法在文本检测、异常检测等领域有诸多应用。但传统Simhash算法的权值计算方式容易造成信息丢失,导致准确性降低。针对此问题,本文提出一种使用TF-IDF算法来计算权值的方式,并进行了系统设计与实现。结果表明,利用改进的Simhash算法实现的文本查重系统,其准确率、效率均优于传统方法。  相似文献   

3.
针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.  相似文献   

4.
数据去重技术虽能提高云存储效率和节约网络通信带宽,但其安全问题备受学术界和产业界关注,成为研究热点。在用户对数据隐私性、机密性和完整性等的强烈需求下,安全云存储数据去重技术应运而生。文章给出云存储系统数据去重的系统模型和威胁模型,分析云存储系统数据去重的安全需求,介绍云存储系统数据去重方案的设计思路,提出云存储系统数据去重方案系统设置、数据上传、文件级所有权管理、数据块级所有权管理和数据下载的关键算法。  相似文献   

5.
当今是一个大数据的时代,随着互联网和移动智能设备的迅猛发展,海量数据每时每刻都在产生,为数据中心存储和网络存储环境提出了严峻的挑战。研究发现,特定存储集中通常存在高度重复的数据,而数据删重技术可以通过特定算法极大消除冗余数据,可有效提高存储空间的利用率。自数据删重技术提出以来,一直是存储领域最热门的研究话题。文章首先阐述了数据删重技术的基本原理与分类,然后从指纹算法的改进、删重率的提升、平衡性能开销、提高数据可靠性、提高数据安全性、增强可扩展性等方面详细分析了数据删重技术的发展趋势,最后进行总结并展望了未来的研究方向。  相似文献   

6.
原福永  杨治秋  王海霞 《信号处理》2005,21(Z1):606-608
随着网络信息的迅速增长,文档聚类技术成为了人们研究的热点课题.探讨了典型的基于向量空间模型的文档聚类算法-k-means算法,针对它的不足提出了改进的BK-means算法.最后,根据一定的评价标准,得出BK-means算法是文档聚类算法中较好的算法.  相似文献   

7.
《现代电子技术》2015,(16):51-55
针对大数据下档案存储的现状,通过分析存储档案文档存在重复的原因,提出一种MongoDB存储档案文档的方法,利用MongoDB的GridFs统一处理不同类型和大小的文件,定义3个集合分别存储上传者记录、文件信息记录和分块文件内容,提出存储中通过文件MD5校验码值是否相同来进行去重研究,并实现去重的程序代码,有一定的实际意义。采用的分布式存储数据库增强了档案文档存储系统的可扩展性。实验表明,该方法能有效地去除重复的档案文档,提高查询效率。  相似文献   

8.
苏勇  王燕 《信息技术》2011,(5):91-94,100
目前,使用XQuery语言实现的Apriori算法基本都是对单个XML文档进行挖掘,而对于现实中的XML文档,有些情况下相关联的数据是存放在多个文档中的,文档之间没有必然的联系,这时就要将多个文档同时考虑进来进行挖掘。针对如何对多个XML文档进行挖掘的问题,对基于XQuery语言的Apriori算法进行改进,引入了collection函数,使之能够对多个XML文档组成集合的节点进行访问,从而实现对多个XML文档的关联规则挖掘,最后通过实验验证其可行性及有效性,使其效果达到和对单个文档挖掘的相同效果。  相似文献   

9.
利用车载激光雷达获取铁路沿线环境信息对于保障行车安全具有重要意义。但是激光雷达采集到的点云数据受设备及环境因素影响,会产生大量的噪声干扰,这些噪声严重影响后续的感知和监测任务。为此,本文提出了一种面向铁路场景的大规模点云高效去噪方法。该方法提出了一种新颖的网格投影策略,对大规模铁路点云数据进行高效的降维降采样处理。然后,设计了基于GPU的改进聚类加速算法,快速识别离群的噪声数据。最后综合设计多策略融合方法,有效地去除噪声数据。所提方法充分利用铁路场景前向运动的特点,对点云数据进行基于网格化的时空压缩,同时利用GPU加速聚类算法的矩阵运算,实现了实时高效的铁路场景大规模点云去噪算法。实验结果表明,所提方法不仅能够提高去噪的性能,而且处理效率得到了极大提升。  相似文献   

10.
基于网格和密度的聚类算法的分析与研究   总被引:1,自引:1,他引:0  
针对CLIQUE算法的特点以及所存在的问题进行深入的研究。为了进一步提高其处理高维海量数据的能力,在原算法的基础上提出一种基于密度样本分析和基于最优区间分割进行改进的聚类算法,并通过使用仿真数据加以验证是可行的,理论分析与实验结果表明,与原算法相比,改进算法不仅保留原算法的优点,且对大规模数据集有着很好的聚类效果。  相似文献   

11.
重复数据和相似数据的处理是数据清洗的一项重要内容.针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集且内容组织结构相对固定等特点,分析编辑距离、余弦相似和Simhash相似三种相似度算法的执行效率和有效性,并利用增加权重值、词袋预处理、编码预处理和分段保存比较等方法对算法进行持续优化.经测试,选择优化后的编辑距离算法对招投标项目公告数据中的相似(重复)数据进行清洗.  相似文献   

12.
杨全海 《信息技术》2016,(4):109-113
文中引入了CHAMELEON聚类来产生广义实例,采用带回溯的广义实例文本分类算法实现了模型改进和文本分类运算时间的显著提高。对两个语料库文档数据实验中验证表明,改进带回溯算法在两个语料库上都达到了与传统KNN分类算法相同的精度;带回溯的算法执行速度提高了10倍,在语料库上提高了8倍;在Tan语料库上带回溯算法比SVM文本算法精度高出3个百分点。上述研究对信息领域的大数据存储有明显的借鉴意义。  相似文献   

13.
针对经典Apriori算法及其改进算法不能有效处理大规模数据集,提出基于Hadoop-MapReduce编程模型的两种改进算法:HAprioriK,HApriori2。其中HAprioriK需要k个MapReduce Jobs,而HApriori2仅需要2个就能在整个数据集上找到频繁k项集,两种改进算法均充分利用了Hadoop平台的计算优势,可以轻松地处理大量数据。采用IBM的数据集进行改进算法有效性的研究,实验结果表明,HApriori2算法在不同规模的数据集和支持度下,能够有效地挖掘频繁项集,具有比HAprioriK更好的性能。  相似文献   

14.
基于 GPU 加速的并行字符串匹配算法   总被引:1,自引:0,他引:1  
在分析了经典的串行字符串匹配算法(BF ,KMP ,BM ,BDM ,Shift -And/Shift -Or ,ZZL)基础上,对ZZL算法的预处理过程进行改进,并结合GPU的单指令多线程的并行计算特点,对ZZL算法进行并行改进,以达到处理大规模数据的速度提升。  相似文献   

15.
一种改进的并行处理SVM学习算法   总被引:2,自引:1,他引:1  
支持向量机(SVM)解决小样本、非线性及高维模式识别问题有许多优势,但处理大规模数据集时训练速度缓慢.为此在循环迭代算法的基础上,提出改进的SVM学习算法.该算法将大规模数据集划分为若干个小数据集,然后并行的在各个小数据集上训练SVM,再采用合并算法对SVM进行两两合并,得到最终的SVM.最后通过仿真实验发现,改进的SVM学习算法可以加快训练速度,并具有较高的识别率.  相似文献   

16.
云计算从分布式存储和分布式计算两个方面为大数据处理提供了强力的支持,并逐渐成为大数据挖掘的主流平台。但是在处理云平台中的大规模数据集时典型聚类挖掘算法存在一定不足,因此,提出一种基于群智能算法的大数据K-means聚类挖掘算法。首先对云计算Hadoop框架的存储数据能力和采用的Map Reduce计算模型进行分析,然后采用群智能算法对传统数据挖掘K-means聚类算法进行改进,解决其容易陷入局部最优问题。实验结果表明,相比加权K-means聚类算法,提出的改进算法表现出更好的聚类精度和运行速度,可以适用于大规模数据的聚类挖掘。  相似文献   

17.
针对低质量文档图像存在的背景渗透、页面污渍 、边缘大面积与文本相似的噪声等 现象,改进D-LinkNet框架,提出了一种融合多尺度特征(multiple scale feature)的低 质量文档图像二值化算法,简称为MD-LinkNet。该算法有两处改进,一是在编解码中间部 分 增加剩余多核池化(RMP)模块来通过四个池化操作以提取丰富的文档特征信息;二是将池 化后的低分辨率图像通过DUpsample而不是双线性插值进行上采样,结合了文档图像像素邻 域信息,将文档图像的全局与局部特征进行融合,提高了分割精度。实验结果表明,在2017 年和2018年国际文档图像二值化竞赛(DIBCO)数据集中,本文算法 的F值(F-measure)最 高分别达到了90.54、91.42,验证了所提出算 法在解决 多种复杂噪声背景的低质量文档图像下的鲁棒性,且相比其他最新经典算法效果较优。  相似文献   

18.
《现代电子技术》2017,(23):73-76
为了降低公共云存储系统的空间开销,对公共云存储中私密数据的重复数据进行归并和删除处理,提高云存储容量,提出一种基于语义本体特征匹配检测的公共云存储中私密数据的去重删除技术。采用交叉分布方法进行公共云存储中私密数据的特征分解,根据数据的属性类别进行存储空间区域划分,提取私密数据的语义本体结构信息特征量,根据提取的特征量进行匹配检测,根据语义属性实现对重复数据的自适应筛选,对筛选出来的重复数据采用矩阵分解方法进行特征压缩和删减,实现去重删除。仿真结果表明,采用该算法进行公共云存储中私密数据的去重删除处理,提高了存储空间的容量,降低了数据存储的维数,实现了私密数据的优化存储。  相似文献   

19.
随着垃圾短信发送模型不断变化,传统的基于发送频次与内容的检测方法已经不能满足新型垃圾短信检测的需要。在治理垃圾短信的实践过程中,创新性使用了基于短信发送位置(城市)不易变化的特征作为垃圾短信的检测依据,并使用Simhash算法、改进的朴素贝叶斯算法等新方法对待检短信进行智能判断,有效提高了垃圾短信检测查全率、查准率,实现对垃圾短信的精准拦截,降低了垃圾短信举报率。  相似文献   

20.
杨志雄 《电信科学》2004,20(6):70-72
本文对计费结算系统中的重复话单剔除技术进行了简要的分析,提出了设计剔重算法的基本思路和原则,并且对当前常用的剔重算法进行了一定的改进。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号