共查询到17条相似文献,搜索用时 125 毫秒
1.
2.
融合描述文档结构和参引特征的Web 服务发现 总被引:1,自引:0,他引:1
首先分析研究Web服务描述文档(WSDL文档)的两大特征——结构特征和参引特征,然后根据各个特征对Web服务功能语义描述的影响,提出相应的Web服务表示模型——多向量表示模型.区别于通用文本表示模型,该模型能够显式地表示Web服务描述文档的本质特征.其中,结构特征语义表现在多向量空间的划分上,参引特征语义映射到子向量模型中特征权重的计算上.提出了基于多向量模型的Web服务相似度计算方法,并实现了基于该模型的Web服务发现原型系统.最后,在真实Web服务描述文档集合上构造了一个具有不完全相关性判断且涵盖了1576个WSDL文档的Web服务发现测试集,并在该测试集上进行了基于多向量模型的Web服务发现实验评估.实验结果表明,基于多向量模型的Web服务发现方法的检索效果比基于简单文本向量空间模型发现方法的检索效果在95%的置信度下有了显著提高. 相似文献
3.
基于分级神经网络的Web文档模糊聚类技术 总被引:1,自引:1,他引:1
给出了一种多层向量空间模型,该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重.然后提出了一种简明而有效的基于分级神经网络的模糊聚类算法.与现有方法不同,该模糊聚类方法采用自组织神经网络和模糊聚类网络两部分组成的3层神经网络来实现.首先采用自组织神经网络从原始数据产生一个初始聚类结果,然后运用FCM方法对初始聚类的数目进行优化.实验结果表明,提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的web文档较完全和准确地聚成一类. 相似文献
4.
分析了传统向量空间检索模型在Web信息检索中的不足,给出了基于N-Level向量空间模型,这种模型是将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此基础上可以更加精确地定义特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充。同时进行了两种模型算法时间的复杂度的比较分析。理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。 相似文献
5.
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。 相似文献
6.
基于N层向量空间模型的信息检索算法 总被引:14,自引:0,他引:14
N层向量空间模型在传统向量空间模型的基础上提出了的一种新的信息检索算法模型,这种模型将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此模型的基础上,更为精确地定义了特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充,理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。 相似文献
7.
8.
随着Internet的飞速发展,Web文本分类研究已经得到人们密切关注,并取得了大量的研究成果。基于向量空间模型(VSM),针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类算法,通过一系列实验,该算法产生的效果明显优于当前其他的分类方法。 相似文献
9.
以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。 相似文献
10.
随着Web信息容量迅速膨胀,对Web文本分类已经是目前研究的热点.传统的Web文本分类对网页的预处理基本上没有考虑网页中的大量噪音,因此对分类结果有一定的影响;另一方面,文本的向量空间模型维数过高,对分类效果也存在很大的影响.提出一种基于粗糙集理论的Web文本分类方法,首先对网页进行去噪,然后对向量空间模型进行属性约简,之后构造分类器,实验表明,此方法不仅降低了维数,还提高了分类结果. 相似文献
11.
Yolanda Villacampa-Esteve M.A. Castro-Lopez Josep Luis Uso-Domenech Patricia Sastre-Vazquez 《控制论与系统》2013,44(7):587-607
In this paper, the authors continue with the development of an ecological models theory from the viewpoint of mathematical linguistics. The model is considered as a text, which complies with the text theory TT conditions. The variable transformed functions are defined as symbols, the flow equations are defined as words, the flow functions or right hand of differential equations are defined as sentences, resting on the author particular methodology inspired inspired in the system dynamic illustrated in other papers. Three meaning levels are established in each model text and the duality significance or explanation adjustment and significance or interpretation for the observer is defined as getting in the indexes for its indirect measure. A model interpretation theory is given also. 相似文献
12.
13.
基于规则演算的不良信息文本过滤模型 总被引:2,自引:0,他引:2
本文在定义元符号及演算规则的基础上,基于字符串匹配,给出了一个不良信息文本过滤模型。由于规则是通过元符号或其它规则演算生成,因而本模型具有较强的过滤能力。 相似文献
14.
互联网中,海量Web信息自由开放,真假有益危害信息混在一起,许多Web文本的内容不可信。如何正确判断Web文本内容的可信性,从而在海量的Web信息中选择有用可信的资源信息,是当前急需解决的问题。提出了一种基于信任模式验证的论述性Web文本可信性判定方法,首先定义论述性Web文本的信任模式并对信任模式进行形式化的描述,然后构建论述性Web文本阅读自动机,最后进行模型检测以判断论述性Web文本是否满足信任模式,并根据检测结果求解Web文本可信度。实验表明该方法具有良好的效果。 相似文献
15.
基于概念扩充的中文文本过滤模型 总被引:8,自引:0,他引:8
1 前言今天,以因特网为主体的信息高速公路仍在不断普及和发展,因特网上蕴涵的海量信息远远超过人们的想象,面对这样的信息汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”问题。如何帮助人们有效地选择和利用所感兴趣的信息,同时保证人们在信息选择方面的个人隐私权利?这已成为学术界和企业界所十分关注的焦点。因此,信息过滤技术应 相似文献
16.