共查询到20条相似文献,搜索用时 234 毫秒
1.
2.
在中文文本分类任务中,针对重要特征在中文文本中位置分布分散、稀疏的问题,以及不同文本特征对文本类别识别贡献不同的问题,该文提出一种基于语义理解的注意力神经网络、长短期记忆网络(LSTM)与卷积神经网络(CNN)的多元特征融合中文文本分类模型(3CLA)。模型首先通过文本预处理将中文文本分词、向量化。然后,通过嵌入层分别经过CNN通路、LSTM通路和注意力算法模型通路以提取不同层次、具有不同特点的文本特征。最终,文本特征经融合层融合后,由softmax分类器进行分类。基于中文语料进行了文本分类实验。实验结果表明,相较于CNN结构模型与LSTM结构模型,提出的算法模型对中文文本类别的识别能力最多提升约8%。 相似文献
3.
离散文本已经成为一种占据重要地位的舆情信息表现形式,根据离散文本的特点,提出基于特征概念网的离散文本舆情信息的分聚类框架,在此基础上给出分聚类方案。在聚类算法中,运用了遗传算法的全局并行搜索能力、k—means的高效局部聚类能力和小生境的保持种群多样性抑制漂移能力;在分类算法中,先将训练文本库进行类内聚类成子类,对子类构建特征概念网以生成替代该子类的文本,再用KNN算法进行分类。最后结合舆情分析进一步提出了可用的改进方案。 相似文献
4.
5.
基于蚁群算法的文本分类和聚类 总被引:2,自引:1,他引:1
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。 相似文献
6.
吕岩 《微电子学与计算机》2012,29(3):31-34
提出了一种改进蚁群文本聚类算法.改进蚁群文本聚类算法利用信息素对蚂蚁随机移动进行控制,使蚂蚁朝着文本向量相对集中的区域移动,缩短蚂蚁寻找文本向量簇的时间,提高聚类效率.采用复旦大学中文文本分类语料库进行仿真实验,实验结果表明,改进蚁群文本聚类算法不仅加快了文本聚类算法的收敛速度,而且提高文本聚类结果的精度. 相似文献
7.
8.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率. 相似文献
9.
10.
11.
《Journal of Location Based Services》2013,7(4):246-271
Trajectory classification is the process of predicting the class label of moving objects based on their trajectories and other features. Existing works on building trajectory classification model discover features by using spatial distribution and shape of sub-trajectory. However, they do not utilise duration and region association information available in trajectory data during feature generation. In this study, trajectory features are generated using spatial distribution, duration and region association information of trajectories. In particular, two types of features, region rules and path rules, are generated from trajectories for classification. Region rules consider the spatial distribution of trajectories, the time spent (duration) by the trajectories in the region and the association information with other regions. Path rules differentiate objects based on their travelling patterns and speed. Efficient algorithms are devised to obtain region rules and path rules. Based on the discovered rule, trajectory classification model is built to predict the class label of new trajectory. Experimental results on various real-world data-sets show that incorporating duration and region association information in trajectory classification improves accuracy. 相似文献
12.
保持近邻嵌入(NPE)算法对局部线性嵌入(LLE)算法进行了改进,克服了新来样本问题,但在处理分类问题上表现不足。本文提出了一种半监督稀疏保持近邻判别嵌入算法,该方法首先采用小波变换对数据进行预处理,然后执行等距离映射(Isomap)算法选择合适的低维嵌入维数,最后结合稀疏表示理论、NPE和线性判别分析(LDA)的思想,重构邻域图,并在建立目标函数时使得已标签信息中同类样本点之间相互靠近,异类样本点之间相互远离,未标签信息邻域信息得以保持,这样,既得到了高维映射函数,又提高了分类正确率。通过在人脸数据库上实验,并和其他半监督算法作比较,本文提出的算法在识别率上表现较好。 相似文献
13.
Fu Yusheng Xie Yan Pi Yiming Hou Yinming 《电子科学学刊(英文版)》2006,23(4):598-601
In this letter, a new method is proposed for unsupervised classification of terrain types and man-made objects using POLarimetric Synthetic Aperture Radar (POLSAR) data. This technique is a combination of the usage of polarimetric information of SAR images and the unsupervised classification method based on fuzzy set theory. Image quantization and image enhancement are used to preprocess the POLSAR data. Then the polarimetric information and Fuzzy C-Means (FCM) clustering algorithm are used to classify the preprocessed images. The advantages of this algorithm are the automated classification, its high classification accuracy, fast convergence and high stability. The effectiveness of this algorithm is demonstrated by experiments using SIR-C/X-SAR (Spaceborne Imaging Radar-C/X-band Synthetic Aperture Radar) data. 相似文献
14.
类属属性学习避免相同属性预测全部标记,是一种提取各标记独有属性进行分类的一种框架,在多标记学习中得到广泛的应用。而针对标记维度较大、标记分布密度不平衡等问题,已有的基于类属属性的多标记学习算法普遍时间消耗大、分类精度低。为提高多标记分类性能,该文提出一种基于标记密度分类间隔面的组类属属性学习(GLSFL-LDCM)方法。首先,使用余弦相似度构建标记相关性矩阵,通过谱聚类将标记分组以提取各标记组的类属属性,减少计算全部标记类属属性的时间消耗。然后,计算各标记密度以更新标记空间矩阵,将标记密度信息加入原标记中,扩大正负标记的间隔,通过标记密度分类间隔面的方法有效解决标记分布密度不平衡问题。最后,通过将组类属属性和标记密度矩阵输入极限学习机以得到最终分类模型。对比实验充分验证了该文所提算法的可行性与稳定性。 相似文献
15.
16.
基于图的半监督学习近年来得到了广泛的研究,然而,现有的半监督学习算法大都只能应用于同构网络。根据查询及文档自身的内容特征和点击关系构建查询—文档异构信息网络,并引入样本的判别信息强化网络结构。提出了查询—文档异构信息网络上半监督聚类的正则化框架和迭代算法,在正则化框架中,基于流形假设构造了异构信息网络上的代价函数,并得到该函数的封闭解,以此预测未标记查询和文档的类别标记。在大规模商业搜索引擎查询日志上的实验表明本方法优于传统的半监督学习方法。 相似文献
17.
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的. 相似文献
18.
局部二值模式(Local Binary Pattern,LBP)在纹理分类中受到越来越多的关注,传统的基于局部二值模式的图像识别方法在LBP直方图统计时仅仅考虑到LBP模式值本身的数量统计,却忽略了模式值之间的相关性.针对这一问题,本文提出一种二维局部二值模式(Two Dimensional Local Binary Pattern,2DLBP)方法,并用于纹理图像识别.首先以旋转不变均匀LBP特征图为基础,引入滑动窗口和LBP模式对的概念,统计LBP模式图的上下文信息,构造出2DLBP特征;然后改变LBP中的半径参数,构造图像的多分辨率2DLBP特征,并利用支持向量机(SVM)的分类方法进行纹理分类;最后选取Brodatz、CUReT、UIUC、FMD四个公开纹理库分别进行纹理分类测试.理论验证表明该方法具有良好的通用性,可以与LBP的其他变型结合成为新的图像特征构造方法.同时,实验结果表明,本文提出方法具有较好的纹理图像分类能力. 相似文献
19.
为了实现对模式识别、信号处理等领域中数据的有效表达,提出了一种基于规范互信息和动态冗余信号识别技术的特征选择方法。该方法采用规范互信息对特征相关性和冗余性进行测量,并通过一种动态冗余信号识别技术在特征全集中进行冗余特征的筛选。分类实验结果表明所提特征选择方法性能优于典型的特征选择方法。 相似文献
20.
高光谱遥感图像同时具有光谱与空间特征信息,充分利用空间特征能够有效提高分类结果.高光谱图像上同类像素点的邻域空间信息差异较大会影响分类效果,针对这个问题提出了一种新的空间信息利用方法,记作地标空间信息.将光谱信息与地标空间信息结合使用,通过深度信念网络提取特征.实验表明地标空间信息能够有效提高深度信念网络以及对比方法的分类结果. 相似文献