首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
基于本体语义的简单向量距离分类方法   总被引:1,自引:0,他引:1  
针对传统简单距离分类方法的特征选择未考虑到不同抽象层次上的词汇语义差异,提出了一种基于本体语义的简单向量距离分类方法,在本体库的支持下有效地将语言学知识融合到文本向量空间的表示中,进一步挖掘出特征项概念间的深层语义联系,用得到的语义特征向量作为最终的文本特征向量.同时定义了基于领域本体计算不同抽象层上的语义相似度,并将其应用到简单向量距离分类算法中.在数据集CWT20G上的实验表明:基于本体语义的简单距离分类算法对同义词、多义词、上下位词区分能力更强;并且分类准确率随着语义分析的深入逐步提高.  相似文献   

2.
可并行中文同主题词聚类新算法   总被引:1,自引:0,他引:1  
提出了一种高效的自动按照主题对中文词进行聚类的算法.该算法利用顿号(、)切分抽取语料库句子中的并列中文词,并以抽取出的中文词为节点构建一个共引用图; 然后对每个中文词节点产生若干个locality sensitive Hashing (LSH)签名组合; 最后将至少有1个相同LSH签名组合的任意2个中文词标记为同一个主题类.实验表明,该算法运算速度快,且易并行实现,在海量语料库的支持下,执行效率高,聚类效果较好.  相似文献   

3.
针对网络流量在线识别的难题,提出一种聚类算法和在线流量识别方案.以网络数据流的若干初始数据包作为子流,提取子流的统计特征,应用基于滤波器算法的属性相关性算法提取子流最佳特征子集,并提出基于密度的在线带噪声空间聚类算法对子流特征向量进行聚类,采用优势概率业务实现聚类和应用类型的映射.实验结果表明,该方案具备识别新应用类型和加密数据流的功能,且能实现在线的网络流量分类.  相似文献   

4.
针对红外人脸识别问题,提出一种新的基于尺度不变特征转换(SIFT)与多示例学习(MIL)相结合的算法。该算法将图像当作多示例包,SIFT描述子当作包中的示例,利用聚类的方法对训练集中的所有SIFT描述子进行聚类,建立"视觉词汇表",再根据"视觉字"在多示例训练包中出现的频率,建立"词-文档"矩阵,采用潜在语义分析(LSA)的方法获得多示例包(图像)的潜在语义特征,将MIL问题转化成标准的有监督学习问题,即在潜在语义空间用支持向量机(SVM)求解MIL问题。基于OTCBVS标准数据集的对比实验结果表明,所提算法是可行的,且识别率明显高于其他方法。  相似文献   

5.
当前视觉词袋(Bag of Visual Word,Bo VW)模型中的视觉词典均由k-means及其改进算法在原始局部特征描述子上聚类生成,但随着图像数据的迅速增长,在原始局部特征空间中进行聚类存在着运行时间较长和占用内存较大的问题.针对着这些问题,提出了一种基于视觉词典和位置敏感哈希的图像检索方法.首先,选择合适的生成二进制哈希码的哈希算法,将局部特征点保持相似性地映射为二进制哈希码.然后,在二进制哈希码上进行k-means,生成视觉词为二进制码的视觉词典.最后,用视觉单词的词频向量表示图像内容,根据词频向量对图像进行检索.在SIFT-1M和Caltech-256数据集上的实验结果表明,本方法可以缩短视觉词典生成的时间,占用更少的存储空间,与传统的基于k-means的视觉词典算法相比,图像检索性能基本不变.  相似文献   

6.
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。  相似文献   

7.
基于视觉和语义融合特征的阶段式图像聚类   总被引:1,自引:0,他引:1  
针对互联网图像的特点,研究了图像聚类中的图像特征提取和聚类算法,定义了一个基于规则的线性特征融合函数,引入了自适应的参数选择机制对聚类粒度进行调整,提出了一个基于视觉和语义融合特征的阶段式聚类方法.新方法结合了不同层次的图像特征,利用现有多种聚类算法的优点对图像进行聚类,同时通过关键词权值计算,为每类赋予主题关键词,并将关键词重叠率高的类进行合并.基于均方差和用户评估的实验结果表明,新的聚类方法较传统的聚类方法具有更好的聚类效果.  相似文献   

8.
针对图像的低级特征表示与高级概念之间的语义鸿沟,本文利用密度聚类获得的簇分布信息和多示例学习框架在区分歧义性对象上的特点,提出了一个基于区域特征密度聚类和多示例学习的图像分类方法(DCRF-MIL)。该方法首先将每个图像分割为多个区域,将所有区域组成一个集合,在这个区域集合上,使用密度聚类算法学习到区域特征的簇分布信息;然后,将图像看作包,区域看作包中的示例,基于区域特征的簇分布信息,将包映射为簇分布空间上的一个向量作为包的特征,使得包特征带有图像区域的语义信息;最后,使用支持向量机算法,在带有包特征的训练集上训练分类器,对测试图像进行分类。在Corel图像集和MUSK分子活性预测数据集上的实验表明,DCRF-MIL算法具有分类精度高和参数易于选择等特点。  相似文献   

9.
传统图像分割方法大都存在分割速度低下、过度分割等缺点.针对上述问题,提出一种新的彩色图像区域分割算法.这种方法首先将图像转化至L*a*b*空间,并划分为子块,抽取图像子块的颜色、纹理和位置特征组成子块的特征向量,然后运用减法聚类,获得聚类簇数和初始蔟中心,最后利用改进的K均值算法在像素点特征空间进行聚类,进而分割图像成区域.实验结果表明这种新方法具有分割效率高、分割效果理想等优点.  相似文献   

10.
远程虚拟教育通信中异常数据挖掘技术   总被引:1,自引:0,他引:1  
针对现有挖掘方法应用到远程虚拟教育通信异常数据挖掘时,其挖掘准确率及应用效率偏低的问题,提出一种基于空间聚类算法(FWSCA)与差分进化法的远程虚拟教育中异常数据挖掘方法.采用信息增益法提取远程虚拟教育通信数据特征,引入WTA规则对在线通信的数据特征进行聚类,在此基础上,采用稀疏分数方法对数据进行区分,采用FWSCA与差分进化法相结合对运程虚拟教育通信异常数据进行挖掘.结果表明,采用该挖掘方法进行异常数据挖掘,挖掘精度相比传统挖掘算法精度高、时间短,具有一定的优势.  相似文献   

11.
针对传统的向量空间模型及一元语法模型表示话题的文本特征时忽略词语之间语序关系的问题,提出一种基于N-Gram语言模型的并行自适应新闻话题追踪算法。使用N-Gram语言模型,利用新闻报道中词语间的语序关系进行文本表示,根据贝叶斯分类算法进行话题追踪,利用最小特征平均可信度阈值更新策略,采用测试新闻报道更新训练集,完善话题模型,并在MapReduce分布式计算模型上予以实现。试验表明,该算法不仅有效地提高了话题追踪效果,而且具有良好的并行加速比和可扩展性。  相似文献   

12.
传统话题自动检测一般采用向量空间模型进行文本相似度计算,这种方法单纯依靠特征词进行话题检测,忽略了词之间的概念及由此而引发的概念相似度。针对此问题,文章首先对网络新闻文本进行事件元素提取,并将事件元素特征词分解为概念集合,通过计算概念集合的内积空间得到词之间的相似度,进而根据词相似度计算文本相似度,最后根据概念相似度计算实现话题的自动检测。实验结果表明,本方法能够有效提高话题检测的准确率和召回率。  相似文献   

13.
针对LSTM网络进行主题词提取时因没有考虑中心词的下文对主题词的影响而导致提取准确率低的问题,提出了一种双向LSTM引入Attention机制模型(Att-iBi-LSTM)的主题词提取方法。首先利用LSTM模型将中心词的上文和下文信息在两个方向上建模;然后在双向LSTM模型中引入注意力机制,为影响力更高的特征分配更高的权重;最后利用softmax层将文档中的词分为主题词或非主题词。并且还提出了一种两阶段模型训练方法,即在自动标注的训练集上进行预训练之后,再利用人工标注数据集训练模型。实验在体育、娱乐和科技3种新闻文本上进行主题词提取任务,实验结果表明本文提出的Att-iBi-LSTM模型与SVM、TextRank和LSTM相比F1值分别提高了13.78%、24.31%和3.32%,使用两阶段训练方法的Att-iBi-LSTM比一阶段训练的F1值提高了1.56%。  相似文献   

14.
对不同语言的句对齐文献资料进行分析,提出了基于多语主题模型的跨语言文献相似度的计算方法.首先,对收集整理的不同语言(中文、英文、韩文)文献构建数据模型,通过分词、分词结果修正及选择、词权重计算等预处理工作构造词项-文档矩阵.其次,建立多语主题语义空间,将译成3种不同语言的文献映射到语义空间,在语义空间中每一主题都由3种语言构成.最后,通过其语义空间中对应的主题计算比较不同语言间的文献相似度.实验结果显示,不同语言之间的文献相似度可以直接在语义空间中计算,且相似度计算的准确性在90%以上,验证了本文方法在跨语言文献相似度计算时的有效性.  相似文献   

15.
针对新闻和微博2组有代表性的语料开展实验研究,旨在发现不同词性特征及其组合对2种通用网络平台话题检测的作用及其影响.研究表明:在选择单一词性特征时,名词特征可得到最好的检测结果,命名实体可在保证准确率的情况下大大降低聚类的特征维度.在选择词性组合作为特征时,名词或命名实体、数词、时间短语、形容词以及量词的组合特征可提升新闻网络话题检测的准确率,而名词或命名实体、形容词、量词、数词以及特殊符号与网址的组合特征可在微博语料上获得较好的检测结果.  相似文献   

16.
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现。  相似文献   

17.
针对典型的循环神经网络方法在抽取主题词时因缺少上下文相关的句子级信息而导致识别准确率较低的问题,提出了一种基于双向长短期记忆网络条件随机场(BiLSTM-CRF)模型联合TextRank的主题词抽取方法。首先,利用TextRank对新闻文本进行主题句抽取,再使用双向长短期记忆(BiLSTM)模型获取文本的前后特征,最后使用条件随机场(CRF)完成句子级序列标注,得到主题词。在多组体育类新闻数据集上进行实验,该方法较对照组BiLSTM方法F1值提高约0.8%~5.1%,且用时更短。因此,改进的BiLSTM-CRF方法可显著提升主题词的抽取准确率和效率。  相似文献   

18.
针对在热点话题追踪过程中容易发生话题漂移的问题,提出了基于相关性反馈的自适应热点话题追踪模型。为准确把握话题的动态演变过程,首先,在词频-逆向文档频率(term frequency-inverse document frequency, TF-IDF)的基础上引入了相关度因子。其次,构造了报道与话题的相关度计算公式和新特征词能否反馈加入到话题词汇库的判别函数。同时,利用了话题词汇库本身的特性,构造了自适应更新阈值和自适应相关阈值的动态计算方法。最后,根据各个特征词对该话题贡献度的大小,对更新后的词汇库中的各特征词动态赋予新权重。实验结果显示,和其它3类追踪器相比,该追踪器模型的漏报率平均降低0.018、误报率平均降低0.063,这表明,该追踪模型更适合于解决话题漂移问题。  相似文献   

19.
针对目前的主题挖掘只考虑主题内容的概率分布方法,本文提出一种综合考虑内容、时间等因素的微博主题挖掘模型mixtureLDA. 该模型能够分析用户不同类型微博的主题概率分布和时间微博主题概率. 实验使用新浪微博数据集,结果表明基于mixtureLDA的微博主题挖掘模型能够有效地挖掘出用户微博和时间微博的主题概率分布. 与MB-LDA、userLDA模型对比,mixtureLDA模型可有效降低困惑度.  相似文献   

20.
基于内容分析的话题检测研究   总被引:5,自引:0,他引:5  
通过分析大量的英文报道的特点,针对目前话题检测研究中存在的难以区分两次不同的火车事故或爆炸事件的问题提出了基于内容分析的话题检测算法.该算法以S ingle-Pass聚类策略为基础,通过内容分析将话题表示成两个中心向量:标识中心向量及内容中心向量.实验证明基于内容分析的话题检测算法不但简单易行,而且对于解决上述的“难以区分”问题非常有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号