首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
介绍了基于向量空间模型(VSM)中的KNN文本分类方法,分析了KNN方法的实质,指出了该方法的不足,基于文本属性关联和概念共现对KNN分类中的文档相似性度量公式提出了改进.分类实验结果表明,分类准确率平均提高了10%.  相似文献   

2.
互联网网页数量爆炸性地增长,使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点,提出一种基于层次特征词权重的文档特征表示方法,以此为基础,在网页文档分类时,通过对网页结构和文本链接分析,设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明,对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.  相似文献   

3.
基于向量空间模型和专利文献特征的相似专利确定方法   总被引:1,自引:0,他引:1  
为了确定专利文献的相似性,帮助企业进行专利申请、保护和利用,提出基于向量空间模型(VSM)和专利文献特征的相似专利确定方法.依据专利文献的信息特征构建专利模型树,定义了专利模型树和专利模型树的节点.通过分析专利模型树的节点属性值,采用基于向量空间模型的文本分类技术,以专利名称和专利摘要的加权相似度作为专利文献分类的依据,对专利文献进行分类,然后在类内根据专利文献特征的相似性确定相似专利,并根据企业的实际应用需求,分析专利文献要素权重确定的几种方法.应用示例验证了该方法能够有效地进行专利分类和相似专利检索.  相似文献   

4.
介绍了基于向量空间模型(VSM)中的KNN文本分类方法,分析了KNN方法的实质,指出了该方法的不足,对KNN分类中的文档相似性度量公式提出了一种改进方法.改进方法是在文本属性关联和概念共现等基础上提出来的.分类实验结果表明,分类准确率平均提高了约12%.  相似文献   

5.
基于随机子空间的多分类器集成   总被引:2,自引:0,他引:2  
提出了一种基于随机子空间的多分类器集成算法RFSEn.首先选择一个合适的子空间大小,然后随机选择特征子集并投影,并得到子空间上的基分类器,从而通过基分类器构成集成分类器,并由集成分类器来进行文本的分类.将该算法与单一分类器和基于重抽样技术的bagging算法进行了比较,在标准数据集上进行了实验.结果表明,该方法不仅优于单一分类器的分类性能,而且一定程度上优于bagging算法.  相似文献   

6.
一种改进的KNN分类方法   总被引:1,自引:0,他引:1  
介绍了基于向量空间模型(VSM)中的KNN文本分类方法,分析了KNN方法的实质,指出了该方法的不足,对KNN分类中的文档相似性度量公式提出了一种改进方法.改进方法是在文本属性关联和概念共现等基础上提出来的.分类实验结果表明,分类准确率平均提高了约12%.  相似文献   

7.
在研究传统搜索引擎技术实现的同时,结合现有的网页分类技术,提出了一种基于自动分类的搜索引擎原型系统,并且对文档分类的中的向量空间模型(VSM)、特征提取、网页分类做出了分析.  相似文献   

8.
针对互联网热点信息发现的需求,提出一种基于先分类再聚类的互联网信息热点发现及分析系统构建方法.通过对互联网样本信息文本的特征提取,构建文本向量空间模型,使用Maxent最大熵分类模型对文本进行分类,对分类结果使用OPTICS聚类算法获取文本热点簇,最终获取有效热点信息.实验证明,通过先分类再聚类的方法可以有效避免语义类别不同但字面意义混淆的文章对聚类算法的影响,有效提高聚类结果的精度和运算效率.  相似文献   

9.
一种嵌入分布信息的Web文档相似性度量   总被引:1,自引:1,他引:0  
Web文档间的相似性度量是Web文本分类的关键,有效的相似性度量策略可改进Web文本分类的精度.经典的向量空间模型(VSM)仅考虑网页中单词的出现频率,未有效利用单词的分布信息,因而影响了网页的分类精度.论文计算了网页中单词分布位置的均值和方差,并将之引入到网页的相似性计算中,提出了一种直接嵌入分布信息的新的网页相似性度量方法.该方法因合理利用单词的出现频率及其分布信息,可有效改进和拓展经典的网页相似性度量策略.实验结果表明,该网页相似性度量方法是有效可行的.  相似文献   

10.
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.  相似文献   

11.
讨论了文本分类系统中的特征提取方法.探讨了文档频率(DF)、信息增益(IG)、互信息算法(MI)三种不同的特征提取方法对中文文本分类的影响,并提出了一种结合信息增益和互信息的特征提取方法.实验表明本文提出的特征提取方法一定程度上提高了中文文本分类准确性.  相似文献   

12.
介绍了生存系统模型(viable systems model,VSM)的结构、功能以及运行机制;描述了军械器材仓库业务管理的循环层次,并在各个循环层次上应用了VSM;VSM大大提高了军械器材仓库业务管理的稳定性、生存性及运作效率,使业务分队具备自组织能力。  相似文献   

13.
基于心电信号的身份识别技术是生物身份识别领域研究的热点问题.该文利用小波变换将经过预处理之后的心电信号进行多尺度分解,组成一个初始特征矩阵;随后对该矩阵进行奇异值分解,分解后的奇异值包含了心电信号的重要信息,将其作为特征参数并最终采用支持向量机对心电信号进行匹配识别.通过对26个正常测试者的心电信号进行识别,识别率可达97.80%.  相似文献   

14.
该文提出了一种基于DP算法和隐马尔可夫模型的汉字手写体识别方法,通过提取整字特征和笔划特征来描述汉字特征信息,识别时,采用DP匹配算法,使得字库样本与待识样本的码列匹配关系是最优的,当出现连笔系统拒识时采用隐马尔可夫整字分类器,从而提高整体的识别效率。  相似文献   

15.
通过磁控溅射制备了一系列不同成分的Co-Pt二元合金薄膜,并利用振动样品磁强计(VSM)和X-射线衍射技术(XRD)研究了Pt含量对薄膜磁性能和晶体结构的影响.结果表明:Pt的摩尔分数在0-28.5%范围内,薄膜均为密排六方结构(HCP);Co-Pt薄膜的晶格常数(c,a)随Pt含量的增加呈线性增大趋势,但其c/a的值却先减小后增大;矫顽力则先增大后减小,在Pt的摩尔分数为20%时达到最大值(156.89 kA/m);饱和磁化强度随Pt含量的增加而单调减小.  相似文献   

16.
图像修补是图像复原研究中的一个重要内容,目的是根据图像现有的信息自动恢复丢失的信息,它可以广泛应用于旧照片中丢失信息的恢复、视频文字去除以及视频错误隐藏等。提出一种新的基于户(z)-Laplace算子的CDD图像修补算法,利用户(z)-Laplace算子的非线性逐项异性扩散的性能填充受损区域,主要修补有划痕的旧照片和被文字覆盖的图像。新的模型在图像恢复的同时良好地保持了图像边缘,通过数值实验,对比以往的P—La—place算子的CDD图像模型,所提模型具有更好的图像恢复效果,明显减少了“阶梯状”效应。  相似文献   

17.
以莫尔效应和半色调图像的信息隐藏为理论基础,将图像和文字信息隐藏在预复制的彩色图像中,然后通过激光打印机和印刷打样方式输出图像.实验结果表明:将特定的检测膜片置于打印稿或印刷稿上,如果角度和位置合适,可以清晰地观察到隐藏于图像中的图文信息.在激光打印稿的防伪实验中,低分辨率的半色调图像(〈600dpi)的防伪效果明显好于高分辨图像的防伪效果;在印刷稿的防伪实验中,175lpi图像的防伪效果和颜色层次再现最佳;青、品红、黄、黑四色图像分别作为防伪母版,青版和品红版可获得较好的防伪效果;将图文信息隐藏在防伪母版的亮调和中间调部位防伪效果较好.  相似文献   

18.
安全隐患描述文本是通过自然语言描述进行记录的,具有主观随意性问题,现有的序列标注相关模型无法从中提取关键知识信息.根据安全隐患描述文本的特点,首先设计了一种适用于安全隐患描述文本的序列标注方法,提出了基于知识集成的增强表示(ERNIE)模型的进行词向量特征提取,在其基础上通过融合条件随机场(CRF)模块和信息提取(ESL)模块,构建了一种安全生产隐患描述文本结构化解析方法.在某超大城市的安全隐患描述文本上进行了实验,实验结果表明,所提模型在文本结构化解析任务的精确率达到了65.1%,可以从城市安全隐患非结构化数据中获取更多的知识信息,进而规范化安全隐患排查记录工作.  相似文献   

19.
介绍了IG(Informationgain)信息增益,MI(Mutualinformation)互信息值,CHI(X2统计法)、DF(Documentfrequency)文档频率4种常用的文本特征提取方法,然后针对CHI方法提出了改进方法,并对改进的方法进行了实验分析,结果表明改进的方法提高了文本分类的正确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号