共查询到20条相似文献,搜索用时 93 毫秒
1.
针对电网OA系统内存在大量的非结构化文档难以识别的问题,研究电网OA系统非结构化文档内容自动化识别技术。采用非直接转换方法,将非结构化数据先转换为采用XML文件承载的不完全结构化数据,利用SAX解析工具解析不完全结构化数据,采用Simhash算法对文本信息进行去重处理;采用TextRank算法提取文本内的关键词,根据关键词识别电网OA系统非结构化文档内容。测试结果显示,在海明距离与相似度阈值分别为10和70的条件下可获取较好的去重效果,关键词提取效果较好,具有推广价值。 相似文献
2.
3.
谢瑶兵 《微电子学与计算机》2015,(2):69-72
针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率. 相似文献
4.
5.
6.
7.
8.
目前,使用XQuery语言实现的Apriori算法基本都是对单个XML文档进行挖掘,而对于现实中的XML文档,有些情况下相关联的数据是存放在多个文档中的,文档之间没有必然的联系,这时就要将多个文档同时考虑进来进行挖掘。针对如何对多个XML文档进行挖掘的问题,对基于XQuery语言的Apriori算法进行改进,引入了collection函数,使之能够对多个XML文档组成集合的节点进行访问,从而实现对多个XML文档的关联规则挖掘,最后通过实验验证其可行性及有效性,使其效果达到和对单个文档挖掘的相同效果。 相似文献
9.
利用车载激光雷达获取铁路沿线环境信息对于保障行车安全具有重要意义。但是激光雷达采集到的点云数据受设备及环境因素影响,会产生大量的噪声干扰,这些噪声严重影响后续的感知和监测任务。为此,本文提出了一种面向铁路场景的大规模点云高效去噪方法。该方法提出了一种新颖的网格投影策略,对大规模铁路点云数据进行高效的降维降采样处理。然后,设计了基于GPU的改进聚类加速算法,快速识别离群的噪声数据。最后综合设计多策略融合方法,有效地去除噪声数据。所提方法充分利用铁路场景前向运动的特点,对点云数据进行基于网格化的时空压缩,同时利用GPU加速聚类算法的矩阵运算,实现了实时高效的铁路场景大规模点云去噪算法。实验结果表明,所提方法不仅能够提高去噪的性能,而且处理效率得到了极大提升。 相似文献
10.
基于网格和密度的聚类算法的分析与研究 总被引:1,自引:1,他引:0
针对CLIQUE算法的特点以及所存在的问题进行深入的研究。为了进一步提高其处理高维海量数据的能力,在原算法的基础上提出一种基于密度样本分析和基于最优区间分割进行改进的聚类算法,并通过使用仿真数据加以验证是可行的,理论分析与实验结果表明,与原算法相比,改进算法不仅保留原算法的优点,且对大规模数据集有着很好的聚类效果。 相似文献
11.
12.
文中引入了CHAMELEON聚类来产生广义实例,采用带回溯的广义实例文本分类算法实现了模型改进和文本分类运算时间的显著提高。对两个语料库文档数据实验中验证表明,改进带回溯算法在两个语料库上都达到了与传统KNN分类算法相同的精度;带回溯的算法执行速度提高了10倍,在语料库上提高了8倍;在Tan语料库上带回溯算法比SVM文本算法精度高出3个百分点。上述研究对信息领域的大数据存储有明显的借鉴意义。 相似文献
13.
14.
基于 GPU 加速的并行字符串匹配算法 总被引:1,自引:0,他引:1
在分析了经典的串行字符串匹配算法(BF ,KMP ,BM ,BDM ,Shift -And/Shift -Or ,ZZL)基础上,对ZZL算法的预处理过程进行改进,并结合GPU的单指令多线程的并行计算特点,对ZZL算法进行并行改进,以达到处理大规模数据的速度提升。 相似文献
15.
一种改进的并行处理SVM学习算法 总被引:2,自引:1,他引:1
支持向量机(SVM)解决小样本、非线性及高维模式识别问题有许多优势,但处理大规模数据集时训练速度缓慢.为此在循环迭代算法的基础上,提出改进的SVM学习算法.该算法将大规模数据集划分为若干个小数据集,然后并行的在各个小数据集上训练SVM,再采用合并算法对SVM进行两两合并,得到最终的SVM.最后通过仿真实验发现,改进的SVM学习算法可以加快训练速度,并具有较高的识别率. 相似文献
16.
17.
针对低质量文档图像存在的背景渗透、页面污渍 、边缘大面积与文本相似的噪声等 现象,改进D-LinkNet框架,提出了一种融合多尺度特征(multiple scale feature)的低 质量文档图像二值化算法,简称为MD-LinkNet。该算法有两处改进,一是在编解码中间部 分 增加剩余多核池化(RMP)模块来通过四个池化操作以提取丰富的文档特征信息;二是将池 化后的低分辨率图像通过DUpsample而不是双线性插值进行上采样,结合了文档图像像素邻 域信息,将文档图像的全局与局部特征进行融合,提高了分割精度。实验结果表明,在2017 年和2018年国际文档图像二值化竞赛(DIBCO)数据集中,本文算法 的F值(F-measure)最 高分别达到了90.54、91.42,验证了所提出算 法在解决 多种复杂噪声背景的低质量文档图像下的鲁棒性,且相比其他最新经典算法效果较优。 相似文献
18.
《现代电子技术》2017,(23):73-76
为了降低公共云存储系统的空间开销,对公共云存储中私密数据的重复数据进行归并和删除处理,提高云存储容量,提出一种基于语义本体特征匹配检测的公共云存储中私密数据的去重删除技术。采用交叉分布方法进行公共云存储中私密数据的特征分解,根据数据的属性类别进行存储空间区域划分,提取私密数据的语义本体结构信息特征量,根据提取的特征量进行匹配检测,根据语义属性实现对重复数据的自适应筛选,对筛选出来的重复数据采用矩阵分解方法进行特征压缩和删减,实现去重删除。仿真结果表明,采用该算法进行公共云存储中私密数据的去重删除处理,提高了存储空间的容量,降低了数据存储的维数,实现了私密数据的优化存储。 相似文献
19.
20.
本文对计费结算系统中的重复话单剔除技术进行了简要的分析,提出了设计剔重算法的基本思路和原则,并且对当前常用的剔重算法进行了一定的改进。 相似文献