共查询到18条相似文献,搜索用时 156 毫秒
1.
K近邻(k-Nearest Neighbor)算法是进行分类时最常用的文本分类算法,基本的K近邻算法是基于余弦向量距离计算相似度,由于特证词权值的计算采用的是TF-IDF方法,使得该算法在文本分类中对于噪声特征非常敏感,本文针对这一问题,提出在网页分类的领域中,根据网页文章的特性,考虑特征词出现不同位置,改进相似度的计算公式,实验证明,提高了分类的准确性。 相似文献
2.
基于领域样本查询的Deep Web数据库分类 总被引:1,自引:0,他引:1
提出了一种基于领域样本查询的方法以分类这类Web数据库.通过分析领域的高级查询接口自动获取领域主属性并使用领域知识为主属性构建查询样本,然后对查询接口提交试探查询,根据返回结果页面的结果模式和记录内容估计Web数据库与领域的相关程度.通过在多个领域的Web数据库上进行实验验证,说明该方法分类只提供简单查询接口的Web数据库是有效的,取得了较高的分类精确率,召回率和F-measure值. 相似文献
3.
为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性. 相似文献
4.
5.
汽轮机系统设备是火电厂的主力运行设备之一,对汽轮机系统进行有效的故障诊断及预测有助于保障火电机组的安全、稳定运行。基于随机森林算法对汽轮机数据进行处理,完成对汽轮机设备原始数据信息的降维与特征筛选。同时采用6种分类算法建立汽轮机正常和故障的算法模型,实现汽轮机设备状态正常、异常的故障诊断。在汽轮机含有故障的真实运行数据集上进行的实验结果表明,预测准确率较高的模型依次为梯度提升决策树、随机森林、决策树以及K近邻分类算法,且准确率最高可达99.98%;而预测用时较短的模型为K近邻和决策树分类算法,对20 000余条样本训练进行预测,最快可在0.034 s内完成。 相似文献
6.
特征选择是机器学习和模式识别领域的一个关键问题。文中详细分析研究一类基于K近邻分类间隔的特征选择算法,并着重讨论当K〉1时,特征选择的评价准则和搜索策略的设计,同时在多个数据集上验证其性能。 相似文献
7.
8.
9.
10.
11.
针对Deep Web的查询需求,文章提出了改进的对Deep Web数据源的分类方法:在对数据源进行分类时,采用了KNN分类算法来进行。由于KNN分类算法的K值选的过大或者过小都会对分类结果产生影响,因此提出了对K值进行优化的改进的KNN算法。文章利用k-means聚类算法来进行聚类,分别计算取得每个类别的k个距离相近的数据并计算这k个数据到聚类中心的距离,把这个距离的倒数作为该数据点对分类结果的贡献值。对训练集进行聚类后返回聚类中心,根据聚类中心计算权重,从而进一步来计算每个类别中k个最近邻贡献值之和S,选取S最大的类别作为测试数据的类别来进行分类,从而可达到比较好的分类效果。 相似文献
12.
基于查询接口特征的Deep Web数据源自动分类 总被引:3,自引:0,他引:3
搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的.传统的搜索引擎搜索不出这部分页面,我们称之为Deep Web。其中大部分Deep Web是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的Deep Web数据源按所属领域进行组织可以方便用户浏览这些有价值的资源.并且这也是大规模Deep Web集成搜索的一个关键步骤。提出了一种基于查询接口特征的Deep Web数据源自动分类方法.并通过实验验证该方法是非常有效的。 相似文献
13.
为了方便用户快捷高效的使用DeepWeb中内容丰富、主题专一的高质量信息,对DeepWeb数据源发现研究已成为一个非常迫切的问题。目前通用的方法是基于关键词的主题过滤策略,这样容易发现一些不相关的数据源,为此提出一种新的基于语义的DeepWeb数据源聚焦爬行方法,利用朴素贝叶斯分类算法自动发现DeepWeb数据源,实验验证了该方法的有效性。 相似文献
14.
针对现有的大部分网络服务分类机制基本上靠人工分类的缺陷,以及半自动分类技术准确率和查全率的效率较低等问题,进行了基于后缀树聚类算法的网络服务自动分类技术研究,同时提出概念与例子层次树结构来表示部分存在上下位关系或者同义关系的聚类标签,在后缀树聚类基础上对这些标签进行二次聚类。通过引入文本预处理和WordNet语义相似度计算的基础上来实现服务自动分类。实验结果表明,该服务自动分类算法具有较好的准备率和查全率,另外根据WordNet提取出抽象的聚类标签,有利于对日益剧增的网络服务进行抽象层次的分类,提高了海量网络服务分类的效率。 相似文献
15.
基于KNN的汉语问句分类 总被引:1,自引:0,他引:1
汉语问句分类是问答系统中重要的组成部分,问句分类结果的好坏直接影响问答系统的质量。利用知网(HowNet)义原树计算问句之间的语义相似度,并以此作为句子之间的距离度量,利用KNN算法构造分类器进行问句分类,并对最近邻分类算法、KNN分类算法及改进的KNN分类算法进行实验比较。结果表明加权的KNN分类器分类效果最好,达到了89.8%的精确率。 相似文献
16.
嵌入式Web污染源自动监测系统 总被引:1,自引:0,他引:1
针对当前我国污染源监测系统存在的问题.采用基于32位AT91SAM7X系列微处理器的嵌入式Web服务器实现基于B/S模式的污染源自动监测系统。给出硬件结构图,并对其主要功能器件进行描述;给出软件平台结构图及其层次功能设计,讲解如何结合Ajax技术实现高效的Web服务器,并对系统功能做设计说明。经测试表明,系统功能完备,具有稳定性高和响应性能好的优点。 相似文献
17.
针对不平衡数据分类问题,在数据层面对不平衡数据集进行预处理,即对多数类数据进行先聚类,后欠采样的方式,减少多数类数据的数目,降低数据集的不平衡度,之后再用KNN算法对其进行分类。实验结果表明,对数据层面的预处理,使少数类数据的分类效果得到了提升。 相似文献
18.
Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量排序序列和人工排序序列的Kendall’s距离较扩展前有了很大提高,而且质量估计结果也能使数据源的选择得到较高精确度. 相似文献