首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 765 毫秒
1.
提出了一种基于文本集密度的特征词选择与权值计算的方法AMTW(Approach of Modifying Term Weighting),该方法可以找出不损失文本有效信息的最小特征词语集,设计出更为合理权值计算方案,经元打分法证明该方法是有效的。  相似文献   

2.
提出了一种基于凸集投影轮廓的透视文本灭点探测方法.通过构建d邻域连接成分的凸集,并对这些凸集进行投影轮廓分析,可以快速确定水平灭点.在探测到水平灭点的基础上,对文本全部前景像素凸集的投影轮廓分析,可以快速探测到垂直灭点.试验结果表明该方法是有效的.  相似文献   

3.
针对文本分类问题,从分片线性学习的角度出发,提出了一种文本分类的组合凸线性感知器模型.首先,对文本样本集进行预处理,包括特征选择、特征项赋权等;然后,分别利用生长支持组合凸线性感知器算法(growing support multiconlitron algorithm,GSMA)和支持组合凸线性感知器算法(support multiconlitron algorithm,SMA)构造组合凸线性感知器,对样本集进行分类.该模型基于支持向量机的最大间隔思想,通过集成线性分类器,实现了对2类数据的划分,具有计算简单、适应能力强的优点.在标准文本数据集上的实验结果表明:该模型所构造的分类器具有良好的文本分类性能,与其他典型文本分类方法的对比也说明了该方法的有效性.  相似文献   

4.
提出了一种基于连通域的文本图像倾斜校正方法.使用基于连通域的分行算法对倾斜文本图像的文本行进行分行,用线性回归公式计算出每一个有效文本行的拟合直线和倾斜角,根据有效文本行的加权平均倾斜角度,对倾斜文本图像进行校正.实验结果表明该方法是有效的.  相似文献   

5.
摘要:为提高处理文本相似度的效果,提出了一种基于相对熵度量文本差异的KNN算法.该算法首先对文本进行预处理(分字与删去停用字)和构建特征字字典; 然后计算训练集中所有文本特征字的概率,并组成训练集(特征字概率矩阵); 最后计算预测文本的特征字概率向量,并通过计算和统计K个预测文本与训练集文本间相对熵最小的文本类别个数后将数目最多的类别作为测试样本的类别.实验结果表明,该算法的分类效果不仅显著优于传统KNN、SVM、Decision Tree、朴素Bayes算法的分类效果,且在小样本数据情况下  相似文献   

6.
基于K-最近距离的自动文本分类的研究   总被引:14,自引:1,他引:13  
提出并实现了利用统计词频信息和语言信息相结合的方法选择特征,计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度.经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.对英文文本的测试结果表明,该算法提高了文本分类的准确率.  相似文献   

7.
文本相似度计算在专利信息分析系统中有着广泛的应用前景.传统的基于向量空间模型的文本相似度计算方法,一方面未能很好地考虑上下文信息对词语语义的约束,导致不能对不同语境中词语的语义进行有效区分;另一方面使用词典作为计算相似度的依据具有领域相关性,在特定领域未能给出有效的语义理解.提出一种使用领域本体作为文本相似度计算基础的方法,该方法中使用语义消歧来解决上下文对于词语语义的影响;使用领域本体概念意义相同关系来计算文本相似度.实验结果显示本方法的准确度相对于现有典型的相似度计算方法有所提高.  相似文献   

8.
为了解决短文本对象特征空间稀疏性与背景缺失造成的精确分类困难与语义混淆问题,提出一种背景补偿与边缘相关计算的特征选择方法.通过提取并利用文本间存在的关联性建立小样本簇背景特征集,重构特征空间,并结合边缘相关性分析确定最终的特征集.过程可分为2个阶段:1)基于词矢量语义量化模型计算特征词的背景相关性;2)将测试文本重组特征空间,并进行边缘性相关计算.提出的短文本特征选择方法,可以在保持原始特征空间性质与结构的前提下,强化特征空间紧凑性,减少冗余性,降低特征维度.在Reuters-21578和NewsGroup标准语料集上的实验证明,提出的方法比传统的文档频率、信息增益、互信息等方法更有效,针对两个标准的数据集,其在典型的分类器上运行表现强于一般特征选择方法.  相似文献   

9.
为了提高文本聚类的有效性,提出一种基于网络社团结构的文本聚类算法。基于语义知识库理论,利用文本集与词语间的关系,引入文本相似度概念,再结合Newman社团聚类算法特性,将文本集作为独立社团,用文本相似度表示社团联系的紧密程度,对网络文本进行聚类。实验结果表明,该方法有效可行。  相似文献   

10.
表情符号已成为网络语言重要组成部分,是分析社交媒体情感的主要特征之一.目前分析社交媒体情感符号的方法多针对Emoji,对颜文字的情感倾向没有相应分析.为获取中文媒体的多维度情感并分析热点话题的群体情感走向,本文以微博为例提出一种新的融合表情符号与短文本的多维情感分类方法.在该框架中,采用深度学习模型分析文本与Emoji组合部分、颜文字部分,分别计算两部分的7种情感强度,挖掘各部分与情感标签的深层次关联,并设计计算模型来反映语句包含的多维情感属性,实现对语句多维情感强度的检测.实验选择NLPCC2014数据集和爬取的带有颜文字的微博数据集进行验证,实验证明当文本与Emoji组合、颜文字占比分别为0.6和0.4时情感分类效果最好,且含颜文字的语句情感分类性能指标始终高于不含颜文字的语句,这表明融合表情符号和短文本的形式有效提高了情感检测精度.该方法为研究群体情感趋势提供了更细粒度的分析,为中文社交媒体的情感分析提供了新思路.  相似文献   

11.
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤.为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中.通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果.  相似文献   

12.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

13.
一种基于概念层次的文本特征权重计算方法   总被引:1,自引:0,他引:1  
特征权重计算是文本表示的关键,权重计算方法的优劣直接影响文本分类和聚类的准确度。基于词形和词频统计的特征加权方法过于近似和粗糙,不能有效突出具有较强类别区分度的重要特征,难以有效区分两类特征,造成了高维稀疏问题,使文本分类性能不够理想,这是特征权重计算的主要障碍。提出一种基于概念层次的特征权重计算方法,将词空间转移为概念空间,在概念层次上引入特征支持度与类别强度两个参数对特征权重进行调整。实验表明,新的方法表现了较好的分类性能,在空间维度的压缩与计算效率上也有明显的改善。  相似文献   

14.
基于统计的中文文本主题自动提取研究   总被引:5,自引:1,他引:5  
文本主题自动提取是一种很有实用价值的技术,它可以有效地浓缩整个web页面,解决无线网络终端由于显示屏太小而无法显示整个网页的难题。总结了目前有关文本主题提取方面的研究成果,设计了一个特征词加权函数,在此函数中考虑了词所跨的段落数因子,同时采用非线性函数描述词长因子和词所跨的段落数因子的作用,并将加权函数应用于主题自动提取。实现了一个中文主题自动提取系统原型,通过对文本集的测试验证了加权函数的有效性。  相似文献   

15.
文章研究了基于向量空间模型的文本分类中特征词权重算法,综合考虑特征词在文本中出现的位置信息,提出一种改进算法并给出实验结果。  相似文献   

16.
文中介绍一种在微机工作站上建立模拟电路CAD系统的方法。该方法具有取材方便,实用性强,易于开发等优点。用户可在该系统中建立电子产品设计中电原理图设计、模拟电路仿真、印制板设计及文档制作等CAD过程。  相似文献   

17.
文本分类中特征项权重的计算方法   总被引:4,自引:0,他引:4  
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,计算方法的选择关系到最终分类的效果.本文对文本分类中特征项权重的计算方法进行了说明,并根据实验对几种特征项权重的计算方法进行了比较。  相似文献   

18.
词语权重计算是自然语言处理中的重要问题,是文档语义表示的重要实现手段.词语的权重主要由两部分决定,一部分是词语在文档中的重要性度量,另一部分是基于统计方法所得的词语在区分不同文档能力上的度量即词语全局权重.本文就针对有相对稳定性的词语全局权重计算方法分析比较了现有的几种词语全局权重计算方法,并在此基础上提出了一种新的组合词语全局权重计算方法,实验证明本文提出的新方法能够有效地提高了系统的性能.  相似文献   

19.
基于模糊多属性决策的岩质边坡稳定影响因子的筛选   总被引:1,自引:0,他引:1  
根据露天矿边坡的特点.用梯形模糊数表示影响和制约边坡稳定性影响因子的各主要因素指标.运用模糊多属性Buckley决策的方法,确定方案一属性之间的模糊指标值和属性一属性之间的相对重要程度模糊权值,计算各方案的模糊效用值及其隶属函数.并对其比较、排序,从而确定对边坡稳定影响因子的重要程度,为实际工程设计、施工和管理提供了科学的决策依据.  相似文献   

20.
为提高输电网规划方案评估的准确性,减少不确定性及指标权重主观性强对输电网规划方案评估结果的影响,提出了一种基于云模型的组合权重法实现对电网规划方案的评价。首先,基于电网规划的实际要求,构建了考虑经济性、可靠性、适应性及社会性的输电网规划方案综合评价指标体系,通过层次分析法计算主观权重,通过熵权法计算客观权重,再线性加权最终确定组合权重。其次,运用云模型对各输电网规划方案进行排序。最后,算例分析验证了所提电网规划方案评价方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号