首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
Deep Web自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的Deep Web分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的W-TFIDF权重计算方法;最后采用KNN算法对接口向量进行了分类。对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在KNN算法中表现出较好的稳定性。  相似文献   

2.
KNN文本分类算法是一种简单、有效、非参数的分类方法。针对传统的KNN文本分类算法的不足,出现了很多改进的KNN算法。但改进的KNN分类算法大多数是建立在样本选择的基础上。即以损失分类精度换取分类速度。针对传统的KNN文本分类算法的不足,提出一种基于特征加权的KNN文本分类算法(KNNFW),该算法考虑各维特征对模式分类贡献的不同,给不同的特征赋予不同的权值,提高重要特征的作用,从而提高了算法的分类精度。最后给出实验结果并对实验数据进行分析得出结论。  相似文献   

3.
针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和[F1]值都得到了一定的提高。  相似文献   

4.
针对K近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法, 创新性地将Spark框架分布式map和reduce过程与模糊KNN结合。首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属度,将训练集转换为添加类隶属度的模糊训练集;然后使用KNN算法对先前计算的类成员测试集计算得到◢k◣个最近邻;最后通过距离权重进行分类。针对百万级大数据集样本的实验,以及与其他算法的对比实验表明,所提算法是可行的和有效的。  相似文献   

5.
在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这一局限性,结合KNN的优越性能,提出了一种结合层次结构和KNN的Web文本分类方法.该方法通过建立层次结构模型(树形结构),分类时先从层次结构模型获得相似度最大的k0个类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法,最后由一种改进的相似度计算方法决定最终的所属类别.实验表明,结合层次结构和KNN的方法在Web文本分类中能够获得较好的分类效果.  相似文献   

6.
基于改进KNN算法的中文文本分类方法   总被引:1,自引:0,他引:1  
介绍了中心向量算法和KNN算法两种分类方法。针对KNN分类方法在计算文本相似度时存在的不足,提出了改进方案。新方案引入了中心向量分类法的思想。通过实验,对改进的KNN算法、中心向量算法和传统的KNN算法应用于文本分类效果进行了比较。实验结果表明,改进的KNN算法较中心向量法和传统的KNN算法在处理中文文本分类问题上有较好的分类效果,验证了对KNN算法改进的有效性和可行性。  相似文献   

7.
基于聚类改进的KNN文本分类算法   总被引:3,自引:0,他引:3  
传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法,但是KNN算法在处理文本分类的过程中需要不断的计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好的进行文本分类。  相似文献   

8.
基于KNN的不良文本过滤方法   总被引:3,自引:2,他引:1       下载免费PDF全文
不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。  相似文献   

9.
K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类.为此,提出一种加权KNN算法GAK-KNN.定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类.基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法.  相似文献   

10.
文本特征提取和分类器优化是文本分类的两个关键问题,为了提高文本分类正确率,提出一种聚类加权(CW)和布谷鸟(CS)算法优化最小二乘支持向量机(LSSVM)的文本分类模型。采用TF-IDF算法计算特征词的权重,根据特征词的位置进行加权,经过特征聚类处理降低特征冗余度,采用LSSVM建立文本分类器,采用CS算法对LSSVM参数进行优化。采用复旦大学语料库对模型性能进行仿真测试,仿真结果表明,模型不仅提高了文本分类的正确率,而且提高了文本分类的效率。  相似文献   

11.
12.
CSCW系统中协同感知的研究   总被引:1,自引:0,他引:1  
协同感知理论的研究与应用是计算机支持的协同工作的重要研究内容之一.在研究分析了传统的协同感知所依赖的CSCW体系结构的基础上,提出了一种基于P2P的三层结构的协同感知框架,该架构很适合于CSCW中项目可以划分为若干个相对独立的模块的情形.最后对该框架的具体感知模块进行了分析,并讨论了下一步研究将要解决的问题.  相似文献   

13.
基于XQuery查询优化的研究   总被引:3,自引:0,他引:3  
XML已经成为网络上信息描述和信息交换的标准,随着XML应用得越来越广泛,人们提出了多种XML 数据的查询方法.但是,很多查询方法都有各自的局限性.利用有意义的最小公共实体结构EntityInMLCAS(Entity In Meaning Lowest Common Ancestor Structure)原理,提出一种优化查询方法.同时采用堆栈技术的方法对XML文档结点树进行自顶向下的遍历,该方法大大提高了优化查询的速度.  相似文献   

14.
景象提取的目的是将数字图像中的景物从背景中分离出来,为了更好地实现这一目的,微软亚洲研究院Jian Sun等人于2004年提出Poisson Matting方法.该方法将透明度(α值)作为图像的一种内在属性,变分地寻求其最优解,来达到目标提取的目的.主要介绍Poisson算法,针对Poisson算法中程序运行时间比较长的问题,对算法中耗用时间多的两个步骤:图像初始α值的计算以及前景图像F、背景图像B的计算进行了改进,在VC6.0中进行了实现,并取得了较好效果.  相似文献   

15.
开放环境下信息的安全与保护有着重要的研究价值。对待隐藏文件无需专门分配存储空间,而是将其转移存储到系统文件的内部碎片中。隐藏文件的文件名、带路径的宿主文件名及二者对应关系加密后分别存放在两个普通文件中。实验及研究表明此种方式能够对数据做到深度隐藏。  相似文献   

16.
研究了基于自动机理论的XML查询重写问题,尤其针对局部查询重写技术作了深入研究.通过实例对其有效性进行了合理的分析.  相似文献   

17.
由于项目管理技术的不断提升和管理模式的多样化,不同行业甚至不同企业对项目管理系统的要求各不相同。如何利用软件构件技术快速地构造新的项目管理系统成为急需解决的问题。从项目管理系统的框架出发,首先对构件进行了形式化定义,然后基于此定义对项目管理系统组成部分进行了形式化描述,最后利用定义好的连接器,通过顺序、选择和并行三种组装方式组装成项目管理系统。并在此基础上提出了基于构件组装的PMS开发模型。  相似文献   

18.
依据对数字音频广播技术的相关国际标准分析,仔细阐述了目前各类基于数字音频广播技术的数据服务类型,提出了一种基于广播网络的数据服务的基本体系结构.经过对数字音频广播国际标准的协议栈分析,着重介绍了网络层和应用层的划分,以及这两层内目前流行的各种协议.最后,介绍了北京市基于此类标准的数据服务的实现方法.  相似文献   

19.
个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特征。针对微博标签、URL、时间等特征,提出一种基于微博特征的事件提取算法。该算法针对微博的特征进行TF-IDF的改进,并加入标签相似度,URL相似度,进行综合相似度计算,最后按时间先分段后合并的改进K-means聚类方法得出事件提取结果。实验结果表明,基于微博特征的事件提取算法对微博关键字提取和事件提取的精确度有明显的提高。  相似文献   

20.
基于GML的GIS互操作研究   总被引:4,自引:1,他引:3  
GIS互操作研究是当前地理信息系统研究的热点。OGC制定的GML标准给互操作领域带来了新的契机,它是解决多源、多层次、多维地理空间信息互操作的简单而有效的途径。本文首先分析了GIS互操作,接着提出了基于GML的GIS可互操作模型,最后,具体阐述了地理数据的GML表示方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号