首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
基于改进向量空间模型的Web信息检索技术研究   总被引:13,自引:1,他引:12  
提出了一种改进的向量空间模型。该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重,并给出了该模型的相似度计算方法。实验表明,将该模型应用于Web信息检索中,具有对输出结果的排序能力强、查询速度快等优点。  相似文献   

2.
融合描述文档结构和参引特征的Web 服务发现   总被引:1,自引:0,他引:1  
魏登萍  王挺  王戟 《软件学报》2011,22(9):2006-2019
首先分析研究Web服务描述文档(WSDL文档)的两大特征——结构特征和参引特征,然后根据各个特征对Web服务功能语义描述的影响,提出相应的Web服务表示模型——多向量表示模型.区别于通用文本表示模型,该模型能够显式地表示Web服务描述文档的本质特征.其中,结构特征语义表现在多向量空间的划分上,参引特征语义映射到子向量模型中特征权重的计算上.提出了基于多向量模型的Web服务相似度计算方法,并实现了基于该模型的Web服务发现原型系统.最后,在真实Web服务描述文档集合上构造了一个具有不完全相关性判断且涵盖了1576个WSDL文档的Web服务发现测试集,并在该测试集上进行了基于多向量模型的Web服务发现实验评估.实验结果表明,基于多向量模型的Web服务发现方法的检索效果比基于简单文本向量空间模型发现方法的检索效果在95%的置信度下有了显著提高.  相似文献   

3.
基于分级神经网络的Web文档模糊聚类技术   总被引:1,自引:1,他引:1  
给出了一种多层向量空间模型,该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重.然后提出了一种简明而有效的基于分级神经网络的模糊聚类算法.与现有方法不同,该模糊聚类方法采用自组织神经网络和模糊聚类网络两部分组成的3层神经网络来实现.首先采用自组织神经网络从原始数据产生一个初始聚类结果,然后运用FCM方法对初始聚类的数目进行优化.实验结果表明,提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的web文档较完全和准确地聚成一类.  相似文献   

4.
分析了传统向量空间检索模型在Web信息检索中的不足,给出了基于N-Level向量空间模型,这种模型是将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此基础上可以更加精确地定义特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充。同时进行了两种模型算法时间的复杂度的比较分析。理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。  相似文献   

5.
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。  相似文献   

6.
基于N层向量空间模型的信息检索算法   总被引:14,自引:0,他引:14  
N层向量空间模型在传统向量空间模型的基础上提出了的一种新的信息检索算法模型,这种模型将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此模型的基础上,更为精确地定义了特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充,理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。  相似文献   

7.
基于本体的Web文本挖掘与信息检索   总被引:1,自引:0,他引:1       下载免费PDF全文
艾伟  孙四明  张峰 《计算机工程》2010,36(22):75-77
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。  相似文献   

8.
随着Internet的飞速发展,Web文本分类研究已经得到人们密切关注,并取得了大量的研究成果。基于向量空间模型(VSM),针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类算法,通过一系列实验,该算法产生的效果明显优于当前其他的分类方法。  相似文献   

9.
Web文档中词语权重计算方法的改进   总被引:3,自引:0,他引:3       下载免费PDF全文
以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。  相似文献   

10.
随着Web信息容量迅速膨胀,对Web文本分类已经是目前研究的热点.传统的Web文本分类对网页的预处理基本上没有考虑网页中的大量噪音,因此对分类结果有一定的影响;另一方面,文本的向量空间模型维数过高,对分类效果也存在很大的影响.提出一种基于粗糙集理论的Web文本分类方法,首先对网页进行去噪,然后对向量空间模型进行属性约简,之后构造分类器,实验表明,此方法不仅降低了维数,还提高了分类结果.  相似文献   

11.
In this paper, the authors continue with the development of an ecological models theory from the viewpoint of mathematical linguistics. The model is considered as a text, which complies with the text theory TT conditions. The variable transformed functions are defined as symbols, the flow equations are defined as words, the flow functions or right hand of differential equations are defined as sentences, resting on the author particular methodology inspired inspired in the system dynamic illustrated in other papers. Three meaning levels are established in each model text and the duality significance or explanation adjustment and significance or interpretation for the observer is defined as getting in the indexes for its indirect measure. A model interpretation theory is given also.  相似文献   

12.
通用文本处理方法的研究与设计   总被引:1,自引:1,他引:0       下载免费PDF全文
设计描述通用文本处理逻辑的规则以及执行规则的引擎,使开发文本处理程序简化为开发应用规则。用XML描述规则的数据模型,规则元素包括原子规则、规则集、前置条件和数据上下文,在规则中用正则表达式实现文本匹配,用转义符和脚本语言实现多种转换逻辑。利用该方法进行Web主题文本提取,验证了规则的合理性和引擎的有效性。  相似文献   

13.
基于规则演算的不良信息文本过滤模型   总被引:2,自引:0,他引:2  
本文在定义元符号及演算规则的基础上,基于字符串匹配,给出了一个不良信息文本过滤模型。由于规则是通过元符号或其它规则演算生成,因而本模型具有较强的过滤能力。  相似文献   

14.
互联网中,海量Web信息自由开放,真假有益危害信息混在一起,许多Web文本的内容不可信。如何正确判断Web文本内容的可信性,从而在海量的Web信息中选择有用可信的资源信息,是当前急需解决的问题。提出了一种基于信任模式验证的论述性Web文本可信性判定方法,首先定义论述性Web文本的信任模式并对信任模式进行形式化的描述,然后构建论述性Web文本阅读自动机,最后进行模型检测以判断论述性Web文本是否满足信任模式,并根据检测结果求解Web文本可信度。实验表明该方法具有良好的效果。  相似文献   

15.
基于概念扩充的中文文本过滤模型   总被引:8,自引:0,他引:8  
1 前言今天,以因特网为主体的信息高速公路仍在不断普及和发展,因特网上蕴涵的海量信息远远超过人们的想象,面对这样的信息汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”问题。如何帮助人们有效地选择和利用所感兴趣的信息,同时保证人们在信息选择方面的个人隐私权利?这已成为学术界和企业界所十分关注的焦点。因此,信息过滤技术应  相似文献   

16.
李婧  房鼎益  何路 《计算机应用》2012,32(9):2603-2605
为了解决传统的密写分析技术对文本零水印失效的问题,提出一种基于词法的主动攻击算法。该算法将目前鲁棒性较好的混沌文本零水印作为攻击对象,采用同义词替换技术,定义了同步攻击和生日攻击两种方法,通过将这两种方法相结合,在词这一级别上实现了对文本零水印的主动攻击。实验结果表明,该算法无需大量改写载体文本即可有效地破坏零水印。  相似文献   

17.
独立于语种的文本分类方法   总被引:44,自引:4,他引:40  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现,并获得了较好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号