首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
为了提高资源匮乏语言的情感分类性能,提出一种基于对抗双向GRU网络相结合的跨语言情感分类模型(ABi-GRU)。通过基于语义双语词嵌入方法来提取中英文文本词向量特征;结合注意力机制的双向GRU网络提取文本的上下文情感特征,同时引入生成对抗网络缩小中英文向量特征分布之间的差距;通过情感分类器进行情感分类。实验结果分析表明,该方法有效地提升了跨语言情感分类的准确率。  相似文献   

2.
手写文本识别方法主要应用于文本输入技术,对人机交互领域的发展起关键作用。针对多数在线输入法无法识别中英文混合手写识别的问题,提出一种在线中英文混合手写文本识别方法。通过对文本笔画进行基于水平相对位置、垂直重叠率、面积重叠率规则的整合以及连笔切分,得到一系列字符片段,同时利用笔画个数、宽高比、中心偏离、平滑度等几何特征和识别置信度,对字符片段进行中英文分类。在此基础上,根据分类结果并结合自然语言模型的路径评价及动态规划搜索算法,分别对候选的中、英文字符片段进行合并处理,得到待识别的中、英文字符序列,并将其分别送入卷积神经网络的中、英文识别模型中,得到手写文本识别结果。实验结果表明,在线手写中英文混合文本识别正确率达93.67%,不仅能切分在线手写中文文本行,而且对包含字符连笔的在线手写中英文文本行也有较好的切分效果。  相似文献   

3.
针对单一的卷积神经网络文本分类模型忽视词语在上下文的语义变化,未对影响文本分类效果的关键特征赋予更高权值的问题,提出了一种融合多重注意力机制的卷积神经网络文本分类模型.该模型将注意力机制分别嵌入卷积神经网络的卷积层前后,对影响文本分类效果的高维特征和低维特征进行权值的重新分配,优化特征提取过程,实现特征向量的精确分类.在池化层采用平均池化和最大池化相结合的方法,从而减少特征图的尺寸,避免过拟合现象的发生,最后使用softmax函数进行分类.本文在三个不同的中英文数据集上进行实验,同时设计注意力机制重要性对比实验,分析自注意力机制与CNN结合对文本分类效果提升的重要性,结果表明该分类模型有效地提高了分类的准确性.  相似文献   

4.
刘佳  贾彩燕 《计算机工程》2010,36(16):36-38
介绍一种树状朴素贝叶斯(TAN)文本分类模型,对该模型存在的阈值选取问题进行实验分析,提出不需要进行阈值选取的TAN文本自动分类框架(ATAN)。在中英文非均匀类分布测试集上对基于ATAN的2种算法与手动选取阈值达到最优性能的BL-TAN进行对比,结果表明基于ATAN的算法具有更高性能。  相似文献   

5.
文本分类系统SECTCS中若干技术问题的探讨   总被引:2,自引:0,他引:2  
SECTCS是笔者在深入研究各种文本分类方法的基础上实现的一个中英文文本分类系统。它集成了质心分类、K近邻分类和朴素贝叶斯分类器等多种文本分类方法,在大规模文本分类实验中表现出良好的性能。该文结合以该系统作为测试平台所得到的各种实验结果,对系统中涉及的若干重要技术问题进行探讨和分析,力图得到一些有价值的结论,希望能够对相关研究工作提供可借鉴的依据。  相似文献   

6.
文本分类技术研究   总被引:3,自引:2,他引:3  
文本分类是文本挖掘的基础和核心。文中系统地介绍了文本分类过程中涉及的各种关键技术,对特征表示、特征提取、文本分类方法及分类模型评估进行了较为详细地论述。最后,提出了文本分类中存在的问题及今后的发展。  相似文献   

7.
文本分类技术研究*   总被引:22,自引:2,他引:20  
对文本分类技术进行研究,介绍文本分类的基本过程,论述文本特征提取方法,讨论朴素贝叶斯、K-近邻、支持向量机、投票等常用的文本分类原理与方法,探讨中文文本分类技术。  相似文献   

8.
网页文本分类挖掘的几种算法研究   总被引:1,自引:0,他引:1  
李锐 《福建电脑》2008,24(10):36-36
文本挖掘应用广泛,是Web挖掘的一个重要分之。介绍了Web文本的定义、一般的文本分类挖掘过程及常见的几种分类算法。  相似文献   

9.
基于SVM的中文文本自动分类研究   总被引:1,自引:0,他引:1  
详细介绍了进行文本分类的过程,并着重介绍了一种新的基于结构风险最小化理论的分类算法——支持向量机,通过实验比较支持向量机算法和传统的KNN算法应用于文本分类的效果,证实了支持向量机在处理文本分类问题上的优越性。  相似文献   

10.
智能文本分类系统的研究与设计   总被引:10,自引:1,他引:9  
本文介绍了基于实例学习建立自动文本分类器的方法.通过对文本自动分类的原理的剖析。介绍了文本自动分类系统建立的基本过程,同时详细地说明和比较了文档表示、功能选择以及机器学习方法以及相关算法。  相似文献   

11.
文本分类中特征向量空间是高维和稀疏的,降维处理是分类的关键步骤。针对传统特征提取方法的不足,提出采用基于迭代的CCIPCA和ICA特征提取方法处理大规模文本分类问题,实验结果表明降维提高了分类效果。在CCIPCA、ICA及ICA与IG组合降维的方法中,基于ICA降维的分类效果是最好的。  相似文献   

12.
论文在研究各种分类算法的基础上,总结了分类系统的一般流程和框架,设计并实现了一个适应性很强的可扩展的分类系统THTC。它利用面向对象技术构造,采用了一些常用的设计模式。实验证明,该系统性能与同类算法相当,能够兼容各种不同的算法和适应不同的文档,具有较强的可扩展性。  相似文献   

13.
对近年来文本分类的研究现状及新进展进行归纳总结,基于前人的研究基础,提出一个了基于本体的文本分类通用框架,将本体融入传统的基于统计和机器学习的文本分类中,分别从特征处理,分类模型和性能评测等方面进行阐述,分析了现有基于本体的分类研究所面临的挑战,并指出其今后发展趋势。  相似文献   

14.
文本分类是文本信息处理领域一个非常重要的研究方向,为了节省文本分类处理中所需的存储空间和运算时间,在分类之前用高效的算法减少所需分析的数据是非常必要的。该文介绍了一种文本分类中特征降维的方法。和传统的方法不同,该文所涉及的特征是从句子中提取的不同长度的词组,然后用比数比来对其进行特征选择。实验结果表明,该文提出的方法与传统方法相比,提高了文本分类的准确率。  相似文献   

15.
如何准确地实现文本的有序组织,是自然语言处理的一个重要研究方向。本文首先介绍了文本分类的研究现状,讨论了基于向量空间模型的分类法的基本思想。在此基础上,通过对文本识别本质的研究,在向量空间模型的基础上,提出一种新的结合了信息相关性分析的文本分类模型ICFM(Information Correlation based Fast text categorization Model),并以实验验证了该模型的性能。  相似文献   

16.
文本分类中采用向量空间模型来表达文本特征,维数巨大,关键是对高维的特征集进行降维处理,而一般的分解算法无法处理大规模的高维问题。采用CCIPCA与ICA相结合的特征提取方法可以有效地实现文本特征降维。实验结果表明降维提高了分类器的效率和效果。  相似文献   

17.
依据公安情报文本中不同位置的词条对区分文本类别的贡献显著不同的特点,引入位置权重系数,改进了经典的文本特征权重计算方法(TF-IDF),使文本的权重能够更加全面地反映文本的类别信息。根据公安情报分类系统的需求,设计了基于支持向量机(SVM)的公安情报分类系统,该系统不仅能够实现情报文本的自动分类,而且能够保留在情报文本分类的不同阶段语料的特征信息,为情报信息的进一步加工处理提供支持,同时系统中各模块间采用松耦合的方式衔接,提高了系统的适应性和灵活性。通过实验验证了系统设计的合理性和有效性。  相似文献   

18.
This paper studies parallel training of an improved neural network for text categorization. With the explosive growth on the amount of digital information available on the Internet, text categorization problem has become more and more important, especially when millions of mobile devices are now connecting to the Internet. Improved back-propagation neural network (IBPNN) is an efficient approach for classification problems which overcomes the limitations of traditional BPNN. In this paper, we utilize parallel computing to speedup the neural network training process of IBPNN. The parallel IBNPP algorithm for text categorization is implemented on a Sun Cluster with 34 nodes (processors). The communication time and speedup for the parallel IBPNN versus various number of nodes are studied. Experiments are conducted on various data sets and the results show that the parallel IBPNN together with SVD technique achieves fast computational speed and high text categorization correctness.  相似文献   

19.
实时文本分类系统的研究与实现   总被引:5,自引:1,他引:4       下载免费PDF全文
分析文本分类过程中影响实时性的因素,即分词处理高耗时和特征空间维数过高问题。结合网页过滤的实时应用提出一种实时文本分类方法,弱化分词处理过程,降低特征空间维数,以提高分类速度。通过优化特征项选取维持分类效果,基于贝叶斯理论实现实时文本分类系统。实验结果表明,该方法在维持精确率和召回率分别为85%, 94%的情况下,显著提高了分类速度。  相似文献   

20.
文本分类作为机器学习和信息检索之间的交叉学科,涉及到多个领域的技术。它的完善有赖于各个相关领域的技术发展和提高,该文介绍了文本分类过程中的各个关键技术和存在的问题,讨论了文本表示模型、分类算法、分类器性能评价原理和方法,最后并对今后的发展进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号