首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

2.
Web文档聚类是Web挖掘的一个重要研究方向。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息。为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项。在此基础上,先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最终实现文档聚类。在此过程中,使用可变精度粗糙集模型计算每个类的特征向量。实验结果表明,本文提出的算法优于传统的文档聚类算法。  相似文献   

3.
基于概念获取的多文档主题划分研究   总被引:1,自引:0,他引:1  
对多个相关文档进行主题划分对于信息检索、自动摘要等研究领域都有重要的应用价值.当前流行的文本主题划分技术中,多采用词频向量进行文本表示,而研究表明将特征向量映射到概念级,将改善多文档主题划分的效果.本文提出了一种应用知网(HowNet)来获取多文本的概念作为特征向量,再应用聚类的方法对文档集中的相似段落进行归类,得到主题划分的结果,解决了多文档的结构分析问题.实验结果表明该方法对多个相关文档的主题划分取得了良好的效果.  相似文献   

4.
一种自适应超媒体教学课件的组织方法   总被引:2,自引:0,他引:2  
讨论了一种教学超媒体课件的组织方法:围绕概念组织课件,概念由文档的集合解释。概念之间的链表示语义间的相互联系,文档和链的信息存储在数据库里,每个文档有相应的难度级别。系统根据学对每个概念掌握的情况信息,引导学生到合适的文档处学习。  相似文献   

5.
一种基于关联规则的中文概念集生成算法   总被引:1,自引:0,他引:1  
本文提出了一种基于关联规则的中文概念集生成算法。该算法首先产生文档的中文关键词集,采用向量空间模型VSM(vector space model)表示文档;然后以中文关键词为事务项,以中文文档为事务,采用成熟的关联规则算法发现中文关键词频繁集;再生成原始概念集并对原始概念集进行聚类,最终实现了中文概念集的自生成,同时该算法能引入增量更新的特性,对概念集进行增量更新。通过实验,表明该算法能有效地生成中文概念集,可以用之于对表示中文文档的高维特征向量的语义降维,具有一定的使用价值。  相似文献   

6.
基于概念的文档评价模型   总被引:3,自引:0,他引:3  
理解文档的内容和查询的真实意图是提高搜索引擎智能水平的一种有效途径。提出了一种以分析概念及其关系为基础来理解文档、揣摩查询意图的模型。在该模型中,结合用户背景知识构造一个用户概念库,将文档及查询要求转化为概念集,并适当扩充查询要求概念集,最后将两概念集转化为特征向量,计算其相似度,作为文档的评价值。文中详细给出了概念库及必需的概念运算的数学模型。  相似文献   

7.
相似文档检索在文档管理中是很重要的,提出一种在大文档集中基于模糊聚类的快速高效的聚类方法,传统方法大都通过词与词之间的比较来检索文档,该方法让文档通过两层结构得出相似度。系统用预定义模糊簇来描述相似文档的特征向量,用这些向量估计相似度,由此得出文档之间的距离,系统应用了新的相似性度量方法,并通过实验证实了其可行性和高效性。  相似文献   

8.
王良 《计算机应用》2006,26(10):2470-2472
用户类文档是软件产品不可缺少的组成部分,它连同程序一同交付给最终软件用户。用户类文档影响着软件质量,然而,保证此类文档质量的工程化方法很少。由于开发大型软件的需要,保证用户类文档质量的方法成为研究对象,进而确立了文档测试概念。通过分析用户类文档的错误(Bug)类型,归纳出了文档测试的策略,测试原则和任务分派方法,并提出了行之有效的七项文档测试技术。  相似文献   

9.
基于结构与文本关键词相关度的XML网页分类研究   总被引:9,自引:0,他引:9  
针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题.  相似文献   

10.
针对当前知识管理系统中知识树的创建和维护问题,设计了一种新的基于文本聚类的知识树构建方法。由于从传统的K-means和SOM等文本聚类的结果中难以提取知识树中节点对应的概念和词汇列表,选取PLSA方法进行聚类和知识层次树构建。实验表明,新方法除了在聚类精确度上优于传统方法,聚类结果还包含文档的主题与词汇之间的概率关系,因此新方法在聚类的同时,可以方便地提取知识树上每个节点对应的概念或概念集合。  相似文献   

11.
基于N层向量空间模型的信息检索算法   总被引:14,自引:0,他引:14  
N层向量空间模型在传统向量空间模型的基础上提出了的一种新的信息检索算法模型,这种模型将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此模型的基础上,更为精确地定义了特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充,理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。  相似文献   

12.
陈杰  陈彩  梁毅 《计算机系统应用》2017,26(11):159-164
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.  相似文献   

13.
提出了一种把人工免疫网络(aiNet)和k-means算法结合的文档聚类算法.先把文档集预处理成向量集表示,基于向量之间的余弦相似度,用aiNet算法对文档进行聚类,用得到的相似度矩阵初始化k-means的聚类中心,再用k-means算法对文档聚类.实验结果表明,该算法是可行的,并且能改善聚类质量.  相似文献   

14.
Imaged document text retrieval without OCR   总被引:6,自引:0,他引:6  
We propose a method for text retrieval from document images without the use of OCR. Documents are segmented into character objects. Image features, namely the vertical traverse density (VTD) and horizontal traverse density (HTD), are extracted. An n-gram-based document vector is constructed for each document based on these features. Text similarity between documents is then measured by calculating the dot product of the document vectors. Testing with seven corpora of imaged textual documents in English and Chinese as well as images from the UW1 (University of Washington 1) database confirms the validity of the proposed method  相似文献   

15.
当前,信息检索系统通常采用“检索+重排序”的多级流水线架构。基于稠密表示的检索模型已经被逐渐应用到第一阶段检索中,并展现出了相比传统的稀疏向量空间模型更好的性能。考虑到第一阶段检索所需的高效性,大多数情况下这些模型的基本架构都采用双编码器(bi-encoder)结构。对查询和文档进行独立的编码,分别得到一个稠密表示向量,然后基于获得的查询和文档表示使用简单的相似度函数计算查询-文档对的得分。然而,在编码文档的过程中查询是不可知的,而且文档相比查询而言通常包含更多的主题信息,因此这种简单的单表示模型可能会造成严重的文档信息丢失。为了解决这个问题,设计了一种新的语义检索方法 MDR(multi-representation dense retrieval),将文档编码成多个稠密向量表示。同时,该方法引入覆盖率(coverage)机制来保证多个向量之间的差异性,从而能够覆盖文档中不同主题的信息。为了评估模型性能,在MS MARCO数据集上进行了段落排序和文档排序任务,实验结果证明了MDR方法的有效性。  相似文献   

16.
基于图像伪装的电子文档安全交换算法   总被引:1,自引:0,他引:1  
高光勇  黎新伍 《计算机工程》2008,34(21):147-149
针对电子文档网络交换存在安全隐患以及签名加密技术易引起攻击者注意的问题,提出一种基于图像伪装的电子文档安全交换算法。根据图像邻域像素关系建立BP模型,把模型输出信号和电子文档通过小波变换转换为冗余信号,对其进行归一、编码、加运算,将运算结果连同BP模型参数值进行加密后隐藏到图像中发送给接收方。实验结果表明该方法操作简便,不可感知性、防篡改性及安全性好。  相似文献   

17.
为实现基于关键词的维吾尔文文档图像检索,提出一种基于由粗到细层级匹配的关键词文档图像检索方法。使用改进的投影切分法将经过预处理的文档图像切分成单词图像库,使用模板匹配对关键词进行粗匹配;在粗匹配的基础上,提取单词图像的方向梯度直方图(HOG)特征向量;通过支持向量机(SVM)分类器学习特征向量,实现关键词图像检索。在包含108张文档图像的数据库中进行实验,实验结果表明,检索准确率平均值为91.14%,召回率平均值为79.31%,该方法能有效实现基于关键词的维吾尔文文档图像检索。  相似文献   

18.
Texture segmentation using Voronoi polygons   总被引:2,自引:0,他引:2  
Textures are defined in terms of primitives called tokens. A texture segmentation algorithm based on the Voronoi tessellation is discussed. The algorithm first builds the Voronoi tessellation of the tokens that make up the textured image. It then computes a feature vector for each Voronoi polygon. These feature vectors are used in a probabilistic relaxation labeling on the tokens, to identify the interior and the border regions of the textures. Some experimental results are shown  相似文献   

19.
Document Image Recognition (DIR), a very useful technique in office automation and digital library applications, is to find the most similar template for any input document image in a prestored template document image data set. Existing methods use both local features and global layout information. In this paper, we propose a novel algorithm based on the global matching of Component Block Projections (CBP), which are the concatenated directional projection vectors of the component blocks of a document image. Compared to those existing methods, CBP-based template-matching methods possess two major advantages: (1) The spatial relationship among the component blocks of a document image is better represented, hence a very high matching accuracy can be obtained even for a large template set and seriously distorted input images; and (2) the effective matching distance of each template and the triangle inequality are proposed to significantly reduce the computational cost. Our experimental results confirm these advantages and show that the CBP-based template-matching methods are very suitable for DIR applications.  相似文献   

20.
针对传统定密方式定密不严谨、定密尺度难以把握、经验难以积累等问题,提出基于改进的TextRank算法的计算机辅助定密方法,该方法通过定密规则的词性特点,将句向量分解为名词向量和非名词向量,构造基于词性的句向量,利用改进的TextRank算法对文档语句排序,获取在定密细则影响下的关键语句权重,计算文档密级分数,判断文档密级。实验结果表明,该方法比目前传统定密方式准确率有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号