首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
王丁  运海红  张辉 《信息技术》2005,29(3):64-65
利用贝叶斯算法,通过对训练文本的学习,构建了一个文本分类器,从而实现了本文提出的自动分类的目标。贝叶斯分类算法是现在比较流行的方法,它的分类效果比较好,简单而且高效,可以通过大规模的训练语料提高分类的质量。文本的分类是选择最有可能生成该文本的类。只有建立了知识库,分类进行训练,才可以构造相应的分类器,对相关的文本进行分类。  相似文献   

2.
基于蚁群算法的文本分类和聚类   总被引:2,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

3.
李倩 《电子技术》2014,(10):8-11
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。  相似文献   

4.
文本检测技术在社会中有着广泛的应用,随着深度学习的加入,文本检测技术得到了进一步的提升。近年来基于深度学习的检测算法逐渐增多,针对场景文本检测的各种问题提出了相应的解决方法,提升了场景文本检测算法的性能。本文对这些算法进行了归纳、分析和总结,将这些算法大致分为基于回归和基于分割两种类型,并对其性能进行了对比,最后基于这些算法的研究内容为文本检测领域未来的发展提出了新的研究方向。  相似文献   

5.
中文文本分类中的特征选择算法研究   总被引:34,自引:0,他引:34  
比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。  相似文献   

6.
检测并提取视频图像中的文本信息对视频图像和内容的理解意义重大。以现有的文本检测算法为基础,提出一种基于角点与BP神经网络相结合的文本检测算法。该算法首先应用多尺度角点算法提取文本角点信息并初步定位文本行,接着提取文本特征,最后应用BP神经网络精确定位文本。实验结果表明,此算法与经典方法相比具有更高的正确率和鲁棒性,视频中文本的正确检测率达到90.3%。  相似文献   

7.
本文提出了一种基于Laplace变换的视频图像水平文本检测算法.首先用Laplace变换对图像滤波,并根据梯度信息用K-均值方法对像素点聚类,得到候选文本区;然后用投影算法对候选文本区进行边缘精确,得到候选文本块;最后分析候选文本块的几何特性,进行文本验证.本文算法在公共数据库上的测试结果表明了算法的可行性和有效性.  相似文献   

8.
本文以Web挖掘为基础。首先,从定义、功能、过程3方面介绍了Web内容挖掘中的文本挖掘;其次,重点探讨了Web文本挖掘的两种重要功能——分类及其它们常用的算法,并分别对算法做了比较;最后,得出结论并进行了展望。  相似文献   

9.
李翌昕  马尽文 《信号处理》2017,33(4):558-571
对自然场景中的文字进行识别和理解是大量计算机视觉应用的基础。文本检测算法旨在识别出自然图像中的文字信息,目前已经成为计算机视觉和智能信息处理领域研究的一个热点。本文首先对文本检测算法的目标、技术路线及其所面对的挑战进行了分析与介绍。然后回顾了几种经典的文本检测算法,并介绍了两种代表最新研究趋势的深度学习型文本检测算法。进一步,本文阐述了几个主流的文本检测数据集并总结了一些代表性文本检测算法在这些数据集上的检测结果。最后,本文讨论了文本检测的研究现状、面临的挑战和发展的趋势。   相似文献   

10.
文章介绍了中文文本分类系统的基本过程及其关键技术,比较和分析Rocchio、朴素贝叶斯(NB)、kNN三种文本分类算法的分类原理,提出了中文文本分类系统的结构模型,并给出了评估方法和实验结果,测试结果表明KNN算法的分类效果最佳。  相似文献   

11.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况.着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向.  相似文献   

12.
周国娟 《通信技术》2010,43(11):74-77
为了研究并提高文本的聚类算法的性能,根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的聚类处理的研究中。在文本的聚类处理研究中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,从而最终将相似文本进行聚合。对改进的算法进行实验后的结果证明,这种新的算法可以使文本聚类的准确度提高,具有良好的聚类效果,能有效提高查询的文本召回率。蚁群算法在文本聚类中的应用是可行的。  相似文献   

13.
随着万维网的发展,文本分类成为处理和组织大量文档数据的关键技术。在阐述了文本分类算法的研究现状,分析了朴素贝叶斯(Na ve Bayes)、kNN和支持向量机(SVM)经典文本分类算法之后,提出了应用最小二乘支持向量机(LSSVM)算法来实现文本分类。对使用用最小二乘支持向量机和一般支持向量机的文本分类结果进行了比较,并得出了结论:使用最小二乘支持向量机进行文本分类缩短了文本分类的时间,并保证了一定的召回率和准确率。  相似文献   

14.
随着互联网技术的快速发展和应用,很多领域已经积累了海量数据资源,文本数据占据了85.6%,因此文本数据挖掘和分析成为人们研究的热点,并且引起了百度、Google、京东、腾讯等互联网公司关注。可以在文本数据挖掘中引入支持向量机、BP神经网络、K均值算法,但是这些算法需要依赖经验知识,不能够从多维度挖掘文本数据。因此,为了解决上述问题,本文提出构建一种基于信息论的文本数据挖掘算法,该算法可以从海量文本数据集中发现潜在的有价值的信息,提高文本分类的准确度。  相似文献   

15.
鉴于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)算法仅考虑新闻文档内特征词的频率,没有考虑类间权重值的影响,基于此,提出了一种改进的TF-IDF算法,让文本实现更好的分类效果.新算法比较特征词在不同类别中的频数,将频数最高的类确定为特征词对该类的文...  相似文献   

16.
《信息技术》2016,(11):201-205
针对传统k-means文本聚类算法在处理大规模文本数据时扩展性不足的问题,提出了基于MapReduce编程模型的并行k-means文本聚类算法。通过删除离群点和采用高效的初始质心选择策略提高k-means聚类效果,并设计基于MapReduce框架的大规模文本并行聚类模型提高算法的可扩展性。实验证明,该算法在大规模文本聚类中具有良好的聚类效果和可扩展性。  相似文献   

17.
针对视障用户获取文本信息的障碍,设计并实现了一种利用移动设备实现从拍照到文本识别的系统。该系统利用数字图像处理中的基本算法实现图像中的文本区域识别,利用OCR(Optical Character Recognition)引擎实现从图像到文本的转换,最终利用TTS(Text to Speech)和文本中相结合的方式反馈用户。为了提高本中识别的准确性,提出图象旋转矫正算法修正拍照时产生的旋转问题。为了提高系统的执行效率和用户的体验,采用Android系统的多线程技术,对文本中识别与TTS播报进行并行处理。通过实验表明系统完全可以胜任日常文本检测与识别功能,具有广阔的市场前景。  相似文献   

18.
文本伪装算法研究   总被引:17,自引:0,他引:17       下载免费PDF全文
钮心忻  杨义先 《电子学报》2003,31(3):402-405
本文提出了文本伪装的一种新的算法,它是将不具有冗余度的文本信号通过信号处理的变换后,得到具有冗余度的信号,再对冗余信号进行文本的伪装.其效果是,该算法可以实现用一段普通文本来掩饰机密文本的传输,并且该算法具有一定的抵抗干扰的能力.  相似文献   

19.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况。着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向。  相似文献   

20.
文本分类是根据文档内容将文档分类为预定义类别的过程.文本分类是文本检索系统的必要要求,文本检索系统响应用户的查询检索文本,而文本理解系统以某种方式转换文本,如生成摘要,回答问题或提取数据[1].本文中将运用朴素贝叶斯、支持向量机、K最近邻、fastText这4种方法来进行新闻文本分类,并比较了各种算法的分类性能、复杂度等方面的优缺点,最后评述了精确度和时间2种分类器常用的性能评价指标[2].  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号