首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法( GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。  相似文献   

2.
为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性.  相似文献   

3.
马慧芳  刘文  李志欣  蔺想红 《电子学报》2019,47(6):1331-1336
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.  相似文献   

4.
王强  关毅  王晓龙 《电子与信息学报》2007,29(12):2885-2890
本文提出了一种基于标题类别语义识别的文本分类算法。算法利用基于类别信息的特征选择策略构造分类的特征空间,通过识别文本标题中的特征词的类别语义来预测文本的候选类别,最后在候选类别空间中用分类器执行分类操作。实验表明该算法在有效降低分类候选数目的基础上可显著提高文本分类的精度,通过对类别空间表示效率指标的验证,进一步表明该算法有效地提高了文本表示空间的性能。  相似文献   

5.
李颖 《信息技术》2022,(2):116-120,126
为了提高数据挖掘准确性和效率,文中提出了基于决策树算法的信息系统数据挖掘方法.以C4.5决策树算法计算属性的信息增益率和属性值的信息熵为基础,提出基于余弦相似度改进的C4.5决策树算法,若任意两个属性值的信息熵之差在阈值范围内,通过计算其余弦相似度合并在阈值范围内的属性值,并重新计算合并后属性的信息增益率,实现信息系统...  相似文献   

6.
刘锋  白凡 《电子技术》2010,47(7):30-31
K近邻(k-Nearest Neighbor)算法是进行分类时最常用的文本分类算法,基本的K近邻算法是基于余弦向量距离计算相似度,由于特证词权值的计算采用的是TF-IDF方法,使得该算法在文本分类中对于噪声特征非常敏感,本文针对这一问题,提出在网页分类的领域中,根据网页文章的特性,考虑特征词出现不同位置,改进相似度的计算公式,实验证明,提高了分类的准确性。  相似文献   

7.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

8.
KNN算法是经典的文本分类算法.训练样本的数量和类别密度是影响算法性能的主要瓶颈,合理的样本剪裁可以提高分类器效率.文中提出了一种基于聚类的改进KNN分类模型.首先对训练集进行聚类,基于测试样本与簇之间的相对位置对训练集进行合理裁剪以节约计算开销;然后基于簇内样本分布进行样本赋权,改善大类别样本的密度占优现象.实验结果表明,本文提出的样本剪裁方法提高了KNN算法的分类性能.  相似文献   

9.
刘洺辛  陈晶  王麒媛 《电信科学》2018,34(10):85-95
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。  相似文献   

10.
随着信息的快速发展,计算词语语义相似度在很多领域得到了广泛应用与研究,包括信息检索,信息抽取,词义排歧,基于实例的机器翻译,文本分类等等。本文在相关研究的基础上除了考虑路径外考虑了节点所在树中的深度和宽度,提出一种基于WordNet语义相似度的改进算法。  相似文献   

11.
信息增益是文本分类中一种有效的特征项选择方法,针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法提取特征词,并采用了最小风险贝叶斯的决策方法,最后在英文语料库上进行实验,实验结果表明改进后的方法降低了过滤器对合法邮件的误判。  相似文献   

12.
基于信息增益改进贝叶斯模型的汉语词义消歧   总被引:2,自引:0,他引:2  
词义消歧一直是自然语言处理领域的关键问题和难点之一。通常把词义消歧作为模式分类问题进行研究,其中特征选择是一个重要的环节。该文根据贝叶斯假设提出基于信息增益的特征选择方法,并以此改进贝叶斯模型。通过信息增益计算,挖掘上下文中词语的位置信息,提高贝叶斯模型知识获取的效率,从而改善词义分类效果。该文在8个歧义词上进行了实验,结果发现改进后的贝叶斯模型在消歧正确率上比改进前平均提高了3.5个百分点,改进幅度较大,效果突出,证明了该方法的有效性。  相似文献   

13.
In order to improve the accuracy of text similarity calculation, this paper presents a text similarity function part of speech and word order-smooth inverse frequency (PO-SIF) based on sentence vector, which optimizes the classical SIF calculation method in two aspects: part of speech and word order. The classical SIF algorithm is to calculate sentence similarity by getting a sentence vector through weighting and reducing noise. However, the different methods of weighting or reducing noise would affect the efficiency and the accuracy of similarity calculation. In our proposed PO-SIF, the weight parameters of the SIF sentence vector are first updated by the part of speech subtraction factor, to determine the most crucial words. Furthermore, PO-SIF calculates the sentence vector similarity taking into the account of word order, which overcomes the drawback of similarity analysis that is mostly based on the word frequency. The experimental results validate the performance of our proposed PO-SIF on improving the accuracy of text similarity calculation.  相似文献   

14.
张凡 《激光技术》2015,39(5):662-665
为了有效地滤除红外图像中的噪声,提出了一种改进型非局部均值滤波算法(INLMF)。该算法首先针对传统算法中采用固定尺寸的方形图像块无法有效刻画图像中大量分布的细节信息这一缺陷,结合图像中像素点灰度信息提出了一种图像块自适应划分方法,使得划分后的图像块在尺寸和形状上依赖于图像中灰度信息的实际分布情况;其次引入结构相似度因子对算法中的图像块权重值计算方法进行适当改进;最后分别将INLMF算法与已有的两类改进型NLMF算法对两幅红外监控图像进行滤波,并进行了理论分析和实验验证。结果表明,INLMF算法相对于其余几类算法而言,滤波效果较好,该研究对于提高红外图像滤波效果是有帮助的。  相似文献   

15.
基于红外遥感气象信息的舰载机飞行安全性评估   总被引:1,自引:0,他引:1       下载免费PDF全文
李伟  唐君  邵利民  韩云东 《红外与激光工程》2016,45(5):514001-0514001(4)
为充分利用战场气象信息,提高舰载机飞行的战场安全性,在对红外遥感气象信息特点和优势进行分析的基础上,提出了舰载机在一定气象条件下的作战与训练使用的安全性评估模型。模型包括起降安全指数和往返安全指数两部分,分别分析了主要的相关因素,并根据作训实际提出了评估与拟合计算办法。对于起降安全指数,利用判断矩阵求取不同气象要素的合理权重,提出了独立的客观气象指数的概念并给出了计算方法,然后进行线性加权便可得起降安全指数;对于往返安全指数,则主要根据云雾对舰载机的掩护程度做为安全性计算的基本依据。  相似文献   

16.
李迎凯  徐小良 《电子科技》2012,25(7):69-71,75
针对基于词项的句子相似度计算存在信息冗余干扰和局部最优的缺陷,提出一种改进的基于知网的句子相似度计算方法。该方法通过增加筛选候选语句以降低冗余信息对准确度造成的干扰,同时在分词和词性标注的基础上,采用改进的带权最大二分图匹配算法获得全局最优匹配。实验结果表明,文中提出的方法有效地提高了句子相似度计算的准确度。  相似文献   

17.
Text classification is one of the most important topics in the fields of Internet information management and natural language processing. Machine learning based text classification methods are currently most popular ones with better performance than rule based ones. But they always need lots of training samples, which not only brings heavy work for previous manual classification, but also puts forward a higher request for storage and computing resources during the computer post-processing. Naïve Bayes algorithm is one of the most effective methods for text classification with the same problem. Only in the large training sample set can it get a more accurate result. This paper mainly studies Naïve Bayes classification algorithm for Chinese text based on Poisson distribution model and feature selection. The experimental results have shown that this method keeps high classification accuracy even in a small sample set.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号