首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 87 毫秒
1.
随着网络信息的迅猛发展 ,特别是Internet上在线信息的增加 ,文本自动分类系统成为重要的研究方向。本文首先描述了基于统计 (主要是向量空间模型 )的分类方法的优点和不足 ,然后重点综述了基于概念的文本自动分类的几种方法和实现技术 ,最后 ,文章给出了今后的研究方向。  相似文献   

2.
基于概念扩充的文本过滤模型   总被引:7,自引:1,他引:7  
该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用户模板,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能。实验表明,这样的确可以提高系统覆盖面,提高系统效率。  相似文献   

3.
基于概念扩充的中文文本过滤模型   总被引:8,自引:0,他引:8  
1 前言今天,以因特网为主体的信息高速公路仍在不断普及和发展,因特网上蕴涵的海量信息远远超过人们的想象,面对这样的信息汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”问题。如何帮助人们有效地选择和利用所感兴趣的信息,同时保证人们在信息选择方面的个人隐私权利?这已成为学术界和企业界所十分关注的焦点。因此,信息过滤技术应  相似文献   

4.
基于WordNet概念向量空间模型的文本分类   总被引:5,自引:0,他引:5  
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。  相似文献   

5.
研究了现有的关联分类算法在文本分类中的应用,发现对于有结构的文本数据,关联分类算法未考虑文本的语义信息导致分类精度不够理想,为此提出了基于规则重构的关联文本分类方法.该方法利用词共现模型,在已挖掘的分类规则基础上,将具有高共现程度的词对组合在一起进行规则重构,形成了有结构的带有文本语义信息的分类规则,再利用它们对新文本进行分类.实验结果表明,该方法在分类精度上优于其它的关联文本分类方法(ARC).  相似文献   

6.
概念推理网及其在文本分类中的应用   总被引:38,自引:1,他引:37  
在分析了当前文本分类中学常用方法的基础上,提出了一种新的分类模型,该模型是对人的分类过程的一种模拟,在已的有英语语义词典及大量训练集的基础上,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网,对待分类的文档可以激活相应的网络,网时传播推理以决定其类别的归属,试验表明:该方法具有较高的分类正确率与召回率。  相似文献   

7.
文本分类是海量文本组织和管理的重要方法,文章提出了基于段落匹配的文本分类机制。其基本思想是:对于文本特征向量进行概念扩充,减少特征项之间的相关性,增强特征项的表现能力。选取文本段落作为分类的基本要素,通过段落匹配的约束,防止由发散特征引起的假相关现象,从而获取较高精度的文本分类结果。  相似文献   

8.
基于概念空间的文本分类研究   总被引:3,自引:0,他引:3  
1.引言随着文本信息的快速增长,特别是Internet上在线信息的增加,文本(网页)自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。文本分类的方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑。由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用  相似文献   

9.
文本特征区域与文本过滤的匹配机制   总被引:3,自引:0,他引:3  
为了根据用户的信息需求,在因特网上搜索相关文本,该文提出了一种文本过滤的匹配机制,其基本思想是:利用基于词典的概念扩张方法,改进用户模板。计算扩张的用户模板与文本的全局相似度,获取初步的过滤结果;在文本特征区域,进行标题、摘要段、首段和尾段等片断的局部相似度计算,以综合评价文本与用户模板的匹配情况。该方法可操作性强,效果明显。  相似文献   

10.
KNN文本分类算法研究   总被引:4,自引:0,他引:4  
KNN(K-NearestNeighbour)是向量空间模型中最好的文本分类算法之一。文中介绍了KNN算法的基本思想,归纳了针对KNN算法的不足而提出的改进算法。对KNN文本分类算法的理论研究和实际应用起了指导作用。  相似文献   

11.
信息处理领域中,现有的各种文本分类算法大都基于向量空间模型,而向量空间模型却不能够有效地表达文档的结构信息,从而使得它还不能充分地表达文档的语义信息.为了更有效地表达文档的语义信息,本文首先提出了一种新的文档表示模型一图模型,即通过带权标号图表达文档的特征词条及其位置关联信息,在此基础上本文继而提出了一种新的文档相似性度量标准,并用于中文文本的分类.实验结果表明,基于图模型的这种文档表示方式是有效的和可行的.  相似文献   

12.
针对目前文本分类中对向量空间模型的依赖以及文档频率(DF)特征提取方法在二值分类方面的不足,提出了基于差异频度的类别空间模型的二值分类方法,该方法突破了向量空间模型的限制,采用改进DF的差异频度方法进行特征提取,实现了二值分类功能。实验结果表明,改进的方法是有效的,其分类结果中精确率、召回率、F1测试值均有改善,提高了分类的准确率。并且本文的方法在其他领域的二值分类中同样值得借鉴。  相似文献   

13.
文本分类研究逐渐成为网络文本挖掘的研究热点,针对中文文本进行自动分类的研究也在逐渐升温.针对新闻文本的特殊性,在文本分类中经典的向量空间模型的基础上,提出了一套改进的四维向量空间模型及自适应追踪策略,进而提高了新闻文本分类的效果.实验结果表明,算法可以使传统空间向量模型的分类性能由81.5%提高至92.49%,证明算法是有效的.  相似文献   

14.
基于向量空间模型的贝叶斯文本分类方法   总被引:2,自引:0,他引:2  
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。  相似文献   

15.
基于概念向量空间模型的中文自动文摘系统   总被引:1,自引:0,他引:1  
文章提出了一种基于hownet提取出词语的词义,用词语的词义代替传统的词形频率统计方法,并基于词义排歧建立主题语义概念向量空间模型。通过对抽取出的语句进行句子相似度的计算提高文摘精确度,设计实现了一个中文自动文摘系统。  相似文献   

16.
基于归一化向量的文本分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
基于归一化思想和矩阵投影运算提出一种文本分类算法。该算法综合考虑单个类别内的文档频率和词频,用于进行矩阵投影运算。将训练样例中表示文本特征的三维空间投影到二维空间上,得到归一化的特征向量,可有效地达到降低特征空间维数、提高分类效率和精度的目的。与kNN算法的对比实验表明,该算法在时间性能和精度上都有较大提高。  相似文献   

17.
马忠宝  刘冠蓉 《微机发展》2006,16(11):70-72
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。  相似文献   

18.
为实现中文文本的准确分类,提出一种基于词库匹配的分类方法。在测试集中采用向量空间模型进行特征表达,用基于词逆向文档频率(TF-IDF)的主成分分析法计算权值,筛选并建立47个行业的索引词库,然后根据与索引词库的余弦相似度判断文本行业类别,建立自回归积分滑动平均(ARIMA)模型,预测其未来10天发展趋势。实验结果表明,索引词库的平均分类效果指标F值为85.6%,预测模型的平均相对误差为3.41%,证明该分类方法是有效的。  相似文献   

19.
文本分类一直是自然语言处理任务的研究重点与热点,且被广泛应用到诸多实践领域。首先,该文针对文本分类过程中缺乏层次结构特征的问题,对NMF-SVM分类方法进行优化,利用优化后的分类标签构建树形层次模型,从特征树中提取层次特征;其次,针对关键词与非关键词对分类结果影响程度不同的问题,提出SEAN注意力机制,通过对时间、地点、人物和事件四要素的提取,得到不同词之间的注意力;最后,针对句子间亲和度不同的问题,考虑不同句子的四要素词和语义层面的影响提出句间亲和度计算模型。该文算法适用于四要素突出的数据集,如新闻、小说、阅读理解、微博,在新闻类数据集上与同类别的深度学习文本分类模型以及包含注意力机制的混合模型进行了对比,实验结果表明,该算法在分类效果上具有一定优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号