首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 838 毫秒
1.
半监督聚类算法通常利用标注数据优化类别描述参数(如类的中心),然后通过类别描述参数划分无标注数据的类别,但是没有考虑标注数据对其周围无标注数据的类别划分的直接作用。文中提出一种双向选择调整策略,在根据类别描述参数对数据进行类别划分之后,利用标注数据调整其周围未标注数据的类别标签,从而提高类别划分的准确度。该方法根据标注数据周围的数据密度来动态确定数据调整范围,并采用新的相似度计算方法提高被调整的数据准确度。文中利用双向选择调整策略改进了基于多项式模型的半监督聚类算法和半监督模糊聚类算法,并使用多个标准数据集进行实验。实验结果表明改进的算法有效提高了半监督聚类的准确性。  相似文献   

2.
针对有效利用图像底层视觉特征和图像语义特征进行图像标注,提出一种改进的AP(Affinity Propagation)聚类标注模型。首先采用半监督距离测度学习算法,融合图像语义信息,训练得到新的距离测度。然后使用新的距离测度对每一类图像进行AP聚类,生成各类图像的聚类中心,计算待标注图像到各类图像聚类中心的平均距离,确定待标注图像类别。最后计算待标注图像到类内各个聚类中心的距离,确定待标注图像类内类别,统计该类别下图像的标注词,作为待标注图像的标注词。在Corel5K和NUS-WIDE数据集上进行了实验,经验证,该方法有效提高了标注精度。  相似文献   

3.
在基于半监督和主动学习的信息抽取研究中,对初始样本集的选择,鲜有考虑样本在数据集中的分布情况。以林业领域的病虫害抽取为例,提出基于聚类的方法来获取样本在数据集中的分布信息,以此指导初始样本集和迭代过程中标注样本的选择。实验结果表明,基于聚类的方法相比于随机初始训练集,在不同标注样本集个数的情况下,模型f值均有提高。相比于单一的主动学习方法,在性能相近的情况下,节约了30%左右的人工标注量。  相似文献   

4.
针对微博文本内容短、稀疏、高维等特点,提出一种改进的半监督微博聚类算法。该算法利用词项间的关系丰富文本特征,通过定义词项文档间关联关系和词项文档内关联关系揭示词项间语义的关联程度,并由此自动生成有标记的数据来指导聚类过程。对词项先验信息进行成对约束编码,构建基于词项间成对约束的三重非负矩阵分解模型来实现微博的半监督聚类。实验结果表明,该算法可以减少繁琐的人工标记过程,并能高效地进行微博聚类。  相似文献   

5.
为了解决传统聚类由于缺少有效指导而导致图像分割结果不理想的问题,将半监督方法引入到多目标进化模糊聚类算法中,提出了一种基于半监督的多目标进化模糊聚类。图像分割算法通过构造基于半监督的类内紧致性函数和类间分离度函数,利用监督信息指导聚类过程获得非支配解集。为了从非支配解集中选择一个最优解,利用监督信息构造了基于相似性度量的有效性指标。实验结果表明,提出的方法在分割准确率和视觉效果上明显优于无监督的聚类方法。  相似文献   

6.
基于CPB (Chinese Proposition Bank)提出一种基于LSTM-Bi-LSTM的汉语自动语义角色标注方法,并提出语义密度聚类进行数据预处理以及"模糊"机制利用于词向量转换过程。语义密度聚类通过密度的概念对谓词进行全局统一的聚类,将稀疏谓词替换为其所属聚类集合中的常见谓词;利用语义距离概念,将"模糊"机制引入词向量的转换过程,能适当地减少词向量的语义性,并提升与谓词词向量的相关性。利用Bi-LSTM网络自动学习特征表达,然后利用CRF和IOBES标注策略转化为词序列标注问题,引进一种词性学习方法;利用LSTM网络学习生成的词性特征向量与"模糊化"后的词向量融合后一同作为模型的输入向量;训练过程中采用了小批量梯度下降算法和Dropout正则化,这既加快了训练速度,又易于得到全局最优解,还防止了参数过拟合情况的出现。多组对比实验表明,该方法标注结果的F值最高达到了81.24%。  相似文献   

7.
针对微视频语义标注问题,本文提出一种基于半监督聚类的微视频标注方法。文中从事件驱动的角度,以镜头事件为单位,用事件组来标注微视频。进一步构造半监督K-means聚类算法,优化目标函数,使得最终的聚类结果既体现类间的低耦合及类内的高聚合,又体现类内局部的数据分布密度。该聚类算法实现了诸如微视频等多属性异构数据的聚类,提高了微视频标注效果。实验结果表明本文所提微视频标注方法具有很强的语义表达能力,本文的聚类方法也具有很强的聚类准确度。  相似文献   

8.
为了有效的使用用户给定的先验信息,并从多个角度考虑图像分割问题,本文提出了应用于彩色图像分割的半监督多目标进化模糊聚类算法。首先,将半监督方法引入到多目标进化聚类算法中,通过使用少量的监督信息指导聚类过程;其次,将最大熵正则化引入到带有监督信息的目标函数中,使目标函数具有清晰的物理意义;最后,利用监督信息构造基于相似性度量的有效指标从非支配解集中选择一个最优解。实验结果表明,该算法与传统的多目标进化聚类算法及半监督模糊聚类算法相比具有更好的灵活性和准确性。  相似文献   

9.
基于互信息约束聚类的图像语义标注   总被引:2,自引:0,他引:2       下载免费PDF全文
提出一种基于互信息约束聚类的图像标注算法。采用语义约束对信息瓶颈算法进行改进,并用改进的信息瓶颈算法对分割后的图像区域进行聚类,建立图像语义概念和聚类区域之间的相互关系;对未标注的图像,提出一种计算语义概念的条件概率的方法,同时考虑训练图像的先验知识和区域的低层特征,最后使用条件概率最大的语义关键字对图像区域语义自动标注。对一个包含500幅图像的图像库进行实验,结果表明,该方法比其他方法更有效。  相似文献   

10.
聚类算法在抽取文本数据中的模式结构时,忽略多个语种信息之间潜在的互补作用,得到的模式结构不能充分反映数据的内在信息.针对此问题,文中提出基于并行信息瓶颈的多语种文本聚类算法.首先使用词袋模型为文本数据的不同语种信息构建相应的相关变量.然后将多种相关变量引入并行信息瓶颈方法,通过最大化地保存模式结构与多个相关变量之间的信息,使得到的模式结构能够反映数据的多个语种信息.最后提出基于信息论的抽取合并方法优化文中算法的目标函数,保证其收敛到局部最优解.实验表明,文中算法能有效处理文本数据的多个语种信息,性能优于单语种聚类算法和现有的两类能够处理文本多语种信息的聚类算法.  相似文献   

11.
由于专家能够对土地资源标定类别的数量是非常有限的,提出利用少量已知类别的训练样本抽取其中的关联规则作为监督信息,结合非监督方法中的变色龙算法,以互连性和相似度作为评价标准进行分类的方法。该算法充分利用监督学习分类准确率高和非监督学习无需标定学习样本的优点,只需利用少量带标签的学习样本,即可得到较高的分类准确率。通过对广东省土地资源的评价实验,表明仅随机选取300组训练样本即可得到较高的土地评价准确率94.418 4%,比同样条件下聚类分析的准确率高4.904 1%。  相似文献   

12.
英中可比语料库中多词表达自动提取与对齐   总被引:3,自引:1,他引:2       下载免费PDF全文
多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算词语间的相似度,扩大MWE覆盖范围。利用GIZA++对齐算法提取对译的中文MWE,依据统计方法计算互译概率信息,根据概率大小,选择最佳英汉MWE互译对。实验结果表明上述方法可以有效提高MWE提取和对齐的准确率。  相似文献   

13.
Supervised clustering is a new research area that aims to improve unsupervised clustering algorithms exploiting supervised information. Today, there are several clustering algorithms, but the effective supervised cluster adjustment method which is able to adjust the resulting clusters, regardless of applied clustering algorithm has not been presented yet. In this paper, we propose a new supervised cluster adjustment method which can be applied to any clustering algorithm. Since the adjustment method is based on finding the nearest neighbors, a novel exact nearest neighbor search algorithm is also introduced which is significantly faster than the classic one. Several datasets and clustering evaluation metrics are employed to examine the effectiveness of the proposed cluster adjustment method and the proposed fast exact nearest neighbor algorithm comprehensively. The experimental results show that the proposed algorithms are significantly effective in improving clusters and accelerating nearest neighbor searches.  相似文献   

14.
15.
针对污水生化处理过程单模型建模存在计算量大和精度差等的问题,提出一种改进的有监督的k-means聚类算法的ARX多模型建模方法。该方法引A.CCIA算法初始化聚类中心的思想,对样本数据进行聚类及二次聚类划分,并对各类数据分别建立ARX子模型,系统模型通过子模型加权合成。将该方法应用于污水处理过程中氨氮浓度模型辨识,仿真结果和实际污水处理厂实践结果表明,该建模方法具有较高的精度,能准确拟合系统的非线性特性。  相似文献   

16.
数学表达式相似度计算在信息检索中起着重要的作用,但现有的计算方法较少考虑数学表达式侧重点对相似度计算准确度的影响。为解决该问题,提出一种基于侧重点聚类的数学表达式相似度计算方法。针对侧重点主观性强的特点,定义表达式元素映射规则,使用[K]-means++算法对数学表达式聚类,从而归纳出数学表达式所属侧重点簇;以侧重点簇为依据,使用遗传算法对相似度计算方法中相关参数进行优化调节,以加强侧重点对相似度结果的影响。对比实验表明,该方法的相似度计算性能有所提高,得到的表达式结果列表更为理想。  相似文献   

17.
为解决基于随机森林的3D人体姿态估计算法容易出现的误分类问题, 提出一种基于自适应融合特征提取和误分类处理机制的改进算法.该算法利用自适应融合特征提取方法自适应提取深度融合特征, 此特征可表达图像距离信息和部位尺寸信息, 增强特征的表征能力; 针对识别部位误分类问题, 分别从识别部位误分点聚集情况和迭代整合思想出发, 提出误分类处理机制, 改善部位识别结果; 最后提出可进一步处理误分点的改进主方向分析(Principal direction analysis, PDA)算法, 自适应计算出部位主方向向量, 实现3D人体姿态估计.结果表明, 该算法能有效去除部位误分点, 并显著改善了3D人体姿态估计.  相似文献   

18.
针对现有层次聚类算法难以处理不完备数据集,同时考虑样本与类簇之间的不确定关系,提出一种面向不完备数据的集对粒层次聚类算法-SPGCURE.首先,采用集对信息粒的知识对缺失值进行处理,不同于以往算法中将缺失属性删除或者填充,用集对联系度中的差异度来表示缺失属性值,提出一种改进的集对信息距离度量方法,用于考量不完备数据样本间的紧密程度;其次,基于改进后的集对距离度量,给出各个类簇的类内平均距离的定义,形成以正同域Cs(样本一定属于类簇)、边界域Cu(样本可能属于类簇)和负反域Co(样本不属于类簇)表示的集对粒层次聚类;SPGCURE算法在完备和不完备数据都适用,最后,选用5个经典的UCI数据集,与常用的经典及改进聚类算法进行实验评价,结果表明,SPGCURE算法在准确度、F-measure、调整兰德系数和标准互信息等指标上均具有不错的聚类性能.  相似文献   

19.
中医四诊分析是基于四诊信息进行中医证候分类研究的重要内容,构建有效的中医四诊分析模型可以更好地挖掘中医证候间的关联关系,从而为中医临床提供决策支持。本文通过对子空间聚类CLIQUE算法的分析,结合四诊信息的数据特征,提出一种基于限定空间搜索策略的改进CLIQUE算法(ChM-CLIQUE)。通过优化CLIQUE算法的搜索策略,以稠密单元中网格密度最大的单元为中心进行深度优先搜索生成聚类簇,提高算法的性能,同时基于聚类簇中样本高斯分布的特性引入网格自适应密度,增强聚类边界的识别精度。在中医临床采集的数据集上进行多组对比实验,实验结果表明本文算法的轮廓系数较CLIQUE算法有显著性的提高。  相似文献   

20.
结合[k]-means的自动FCM图像分割方法   总被引:1,自引:0,他引:1  
针对图像分割中模糊C均值算法(FCM)无法自动确定聚类中心,不考虑像素邻域信息的问题,提出一种结合[k]-means的自动FCM图像分割方法。该方法先由图像的灰度直方图确定聚类数目,使用一种改进的快速FCM方法产生初始聚类中心。即通过一步[k]-means算法对大隶属度灰度更新模糊聚类中心,同时仅对小隶属度灰度使用快速FCM?方法进行隶属度更新,迭代后得到初始聚类中心。利用改进隶属度的FCM算法进行最终聚类。实验表明,该方法获取初始聚类中心接近最终值,加速图像分割,并对噪声具有一定的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号