首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
XML已成为网上数据交换和存储的标准,然而现有的XML文档模型存在很多问题.综合了数据挖掘和信息检索两方面的技术,对传统的向量空间模型加以扩展,提出一种新的基于语义和支持度的XML向量空间模型并给出其生成算法,该模型抽取文档集的频繁路径作为特征,然后利用XML本身的语义特性,对标签之间作ontology判断.最后,基于该模型提出一种XML近似查询算法,将文档矩阵从改进的VSM空间映射到潜在语义空间,并在转换后的空间获得近似查询结果并排序.对提出的方法进行理论分析和实验验证,得到满意的结果.  相似文献   

2.
针对传统的论文检索方法缺乏语义理解,检索结果相关度不高的缺点,采用基于语义网络的文档语义表达模型,提出一种基于领域本体的检索方法。首先结合学科分类体系构建领域本体,并对论文文档进行语义索引;然后根据本体知识和索引信息构建基于语义网络的文档语义表达模型;最后改进用户查询与语义网络的相关度算法,综合关键词和语义的方法实现结果排序。实验结果表明,该方法能有效地提高论文检索的准确率和召回率。  相似文献   

3.
针对某无线发射机故障诊断中存在的问题,提出一种基于D-S证据理论的信息融合故障诊断方法.选择电压、功率、频率、幅度等参数作为发射机故障诊断的证据,运用模板匹配法获取基本概率赋值,避免了在小样本情况下应用D-S证据理论时基本概率难以分配的问题,减小了方法的主观性.利用基于可信度的证据合成方法进行融合处理,克服了应用传统D-S证据理论合成冲突证据出现悖论的问题,提高了诊断方法的抗干扰能力.实例验证结果表明该方法切实可行,为无线发射机故障诊断提供了一种新的思路.  相似文献   

4.
潜在语义分析在进行大规模语义检索时计算效率较低、存储开销较大。针对该问题,提出一种基于聚类的潜在语义检索算法。通过文档之间的结构关系对文档进行聚类,利用簇代替文档分析潜在语义,以此减少处理文档的个数。实验结果表明,该算法能减少查询时间,且检索精确度较高。  相似文献   

5.
工程数据大量存在于现代生产制造企业。传统工程数据上沿用的关键字查询方法具有难以处理各种异构文档、无法识别关键字在工程领域的语义等缺陷。针对此,提出一种新的工程数据关键字检索方法。该方法先通过建立代表工程数据的本体,对各种异构的工程文档用适合的工具提取文本信息,建立XML快照。XML快照为索引关键字标注了相对应的本体概念。检索框架首先将用户的查询关键字匹配到本体的概念上,在匹配的过程中,提出一种算法消减关键字的语义混淆。在此基础上,提出一种排序模型,该模型对符合查询的XML快照进行打分排序,打分着重考虑了快照在语义上满足关键字查询的程度。检索框架最后排序并返回快照对应的原始文档给用户,使异构的工程数据文档能被统一处理和查询。该方法在工程数据上的检索结果查全率、查准率高,检索结果排序合理,能适用于实际企业中的大量工程数据文档,解决了传统工程数据检索的不足。实验使用了实际数据集,验证说明了该方法的实际有效性和性能上的高效性。  相似文献   

6.
图像语义的图形化标注和检索研究   总被引:1,自引:0,他引:1  
基于图像语义进行检索的目的是希望能够更好地从用户的角度出发,查找出与用户理解相一致的图像。针对目前图像语义检索过程中存在的问题,提出一个基于对象的图像语义内容标注模型和检索框架。首先利用分割算法获取图像中的语义对象区域,然后以MPEG-7标准中的语义描述方案为基础,利用图形化结构实现图像语义内容的标注。在检索过程中,用户把查询内容转化为图形化描述结构,通过提取该描述图的不同长度的路径信息形成查询文档,与图像库中的图像语义标注文档进行匹配实现图像检索。实验结果表明,提出的方法能够有效地实现基于语义的图像标注和检索,与全文检索相比,有较高的查全率和查准率。  相似文献   

7.
一种基于改进粒子群优化的XML结构聚类方法   总被引:7,自引:0,他引:7  
在对XML文档进行数据挖掘时,很多结构语义信息没有被充分考虑进来.为了更好地进行大规模文档集的挖掘,本文首先给出一个新的基于语义和支持度的XML结构模型对每个文档建模.然后根据该模型,提出基于改进粒子群优化的结构聚类方法.实验中,为了增加算法的实用性,将粒子群优化的思想与传统的K均值算法相结合,其优点是能够跳出局部极值.实验结果表明提出的方法在聚类准确性和收敛程度方面都优于传统基于划分的聚类算法.  相似文献   

8.
针对Web服务组合中异构消息匹配问题,以标准WSDL作为Web服务接口的描述语言,在建立共同领域本体的基础上,对Web服务接口信息进行语义扩展,通过本体匹配的方式提取Web服务接口XML Schema文档,将Web服务组合中异构消息匹配问题转化为XML Schema匹配,并应用XML Schema自动匹配算法及结合Web服务消息的特点,达到Web服务组合中异构消息自动匹配的目的.  相似文献   

9.
为关键词定义了与主题或语义相关联的信息度量.首先获取基于主题的语料库,然后建立语料库的潜语义向量空间模型,通过该模型定义关键词的信息度量.由此可以计算任意文档包含该主题的信息量,定义文档对主题的隶属度.设定文档对主题隶属度阈值,从而判断文档是否属于该主题类.实验表明,与主题或语义关联的信息度量可以克服搜索中"词匹配"的不足,达到"语义匹配"的搜索.  相似文献   

10.
由于XML Schema自身所包含的丰富的结构和语义信息,针对基于XML schema的文档匹配,设计了一个框架结构,把利用结构信息的基于路径的匹配和利用语义信息的宽松标识方法结合在一起,充分利用了XML schema中所包含的各种信息,来实现XML schema文档之间的匹配。实验验证对文档的匹配具有较好的精度,最后对模式匹配这个领域的研究方向做出展望。  相似文献   

11.
一种基于XML文档关键字检索的结构索引   总被引:2,自引:0,他引:2  
娄颖  李战怀  郭文琪  陈群  韩萌 《计算机科学》2010,37(12):120-124
XML数据索引对其检索效率有较大的影响。在深入分析现有XMI、结构索引之后,结合XML文档特点,提出了一种基于关键字检索的结构索引--LSS(Level Structure Summary) . LSS采用了把具有相同标签路径的结点进行合并的策略,具有高效判断结点之间同构异构关系的能力。实现了LSS索引生成算法CSCAN,并在LSS索引的基础上设计了XML关键字检索算法LSSearch。该算法依据LSS索引,将各个关键字的原始倒排表集合分拆成不同类型的子集合,最后在所有子集合上进行查询。实验结果表明,LSS可以帮助减少XML文档中关键字倒排表的规模,提高检索效率。  相似文献   

12.
Adaptive Bayesian Latent Semantic Analysis   总被引:1,自引:0,他引:1  
Due to the vast growth of data collections, the statistical document modeling has become increasingly important in language processing areas. Probabilistic latent semantic analysis (PLSA) is a popular approach whereby the semantics and statistics can be effectively captured for modeling. However, PLSA is highly sensitive to task domain, which is continuously changing in real-world documents. In this paper, a novel Bayesian PLSA framework is presented. We focus on exploiting the incremental learning algorithm for solving the updating problem of new domain articles. This algorithm is developed to improve document modeling by incrementally extracting up-to-date latent semantic information to match the changing domains at run time. By adequately representing the priors of PLSA parameters using Dirichlet densities, the posterior densities belong to the same distribution so that a reproducible prior/posterior mechanism is activated for incremental learning from constantly accumulated documents. An incremental PLSA algorithm is constructed to accomplish the parameter estimation as well as the hyperparameter updating. Compared to standard PLSA using maximum likelihood estimate, the proposed approach is capable of performing dynamic document indexing and modeling. We also present the maximum a posteriori PLSA for corrective training. Experiments on information retrieval and document categorization demonstrate the superiority of using Bayesian PLSA methods.  相似文献   

13.
综合文档语义与用户查询语义的XML关键字检索   总被引:1,自引:0,他引:1  
黎军  熊海灵 《计算机应用》2010,30(11):2945-2948
为了解决XML关键字查询中语义信息丢失的问题,提出了一种语义相关的关键字检索方法。利用文档的半结构化特点提取文档隐含的语义,利用查询语法捕获用户查询意图,然后根据用户意图查询满足条件的元素,并结合文档语义,由最小最近公共祖先改进为语义相关实体子树集来表达查询结果。实验结果表明,该方法能够有效提高关键字检索结果的查准率。  相似文献   

14.
随着互联网上XML文档的大量增加,如何高效地索引、存储和检索这些XML数据成为一个非常值得深入研究的课题.目前,在XML关键词检索方面,主流的检索系统都是建立在一级索引的基础上.一级索引存在两个明显的缺点:1)索引的冗余度比较高;2)索引的可扩展性和灵活性较差.通过结合传统倒排索引和基于杜威编码的XML节点索引的优点,提出面向XML文档的二级索引模型,并把该模型应用于求解XML关键词检索中的SLCA,实现了基于二级索引的求解SLCA的栈算法.实验表明,二级索引模型能够节省约30%的空间开销,在时间效率方面,基于二级索引的栈算法在效率上比基于一级索引的栈算法要高1个数量级左右,并且随着关键词数目的增加,这种效率优势会越加明显.  相似文献   

15.
一种基于置信最大熵模型的证据推理方法   总被引:3,自引:2,他引:1  
D-S证据组合规则在处理高冲突信息时会得出与直觉相反的结论,这一直是D-S理论研究的热点.与相关理论优势互补是克服证据理论固有缺陷的有效方法之一.基于对最大熵原理和证据理论的研究,定义了辨识框架上的基本最大熵置信分配函数,并与经典的D-S组合规则及其改进方法相结合,给出了相关推理公式及基于置信最大熵模型.理论分析和实验表明,最大熵新证据的加入使非单焦元的基本置信赋值按比例重新分配给了单焦元,很好地处理了高冲突信息.  相似文献   

16.
Content-oriented XML retrieval systems support access to XML repositories by retrieving, in response to user queries, XML document components (XML elements) instead of whole documents. The retrieved XML elements should not only contain information relevant to the query, but also provide the right level of granularity. In INEX, the INitiative for the Evaluation of XML retrieval, a relevant element is defined to be at the right level of granularity if it is exhaustive and specific to the query. Specificity was specifically introduced to capture how focused an element is on the query (i.e., discusses no other irrelevant topics). To score XML elements according to how exhaustive and specific they are given a query, the content and logical structure of XML documents have been widely used. One source of evidence that has led to promising results with respect to retrieval effectiveness is element length. This work aims at examining a new source of evidence deriving from the semantic decomposition of XML documents. We consider that XML documents can be semantically decomposed through the application of a topic segmentation algorithm. Using the semantic decomposition and the logical structure of XML documents, we propose a new source of evidence, the number of topic shifts in an element, to reflect its relevance and more particularly its specificity. This paper has three research objectives. Firstly, we investigate the characteristics of XML elements reflected by their number of topic shifts. Secondly, we compare topic shifts to element length, by incorporating each of them as a feature in a retrieval setting and examining their effects in estimating the relevance of XML elements given a query. Finally, we use the number of topic shifts as evidence for capturing specificity to provide a focused access to XML repositories.  相似文献   

17.
基于Lucene全文检索应用研究   总被引:1,自引:0,他引:1  
通过Lucene API和PDFBox API实现对PDF文档的二次全文检索。为了实现精确的搜索关键词定位,本文设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似百度文库的全文检索效果。  相似文献   

18.
基于Rough集潜在语义索引的Web文档分类   总被引:5,自引:0,他引:5  
Rough集(粗糙集)埋论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类规则,最后利用多知识库进行文档分类。通过试验比较,该方法具有较好的分类效果。  相似文献   

19.
夏飞      马茜    张浩      彭道刚    孙朋    罗志疆   《智能系统学报》2017,12(4):526-537
针对电动汽车电池系统的故障采用基于神经网络的改进D-S证据理论组合规则完成诊断过程。为了避免单一途径的诊断可能造成故障漏检误检的状况,决策层采用D-S证据理论组合规则来确定基于BP网络和RBF网络两种故障诊断算法结果。然而为了克服D-S证据理论处理高度冲突证据的缺陷,本文提出了一种基于神经网络改进的D-S证据理论组合规则。首先,采用神经网络对电池故障进行初步诊断,结合网络诊断准确率来分配不确定信息并构造证据体,又引入了证据间的支持矩阵来确定新的加权证据体。然后,把各个焦元的信任度融入D-S证据理论组合规则,从而融合神经网络证据体及新加权证据体。最后,依据决策准则确定锂电池系统的故障状态。通过仿真实验验证了本文提出的改进D-S证据理论融合诊断方法在电动汽车锂电池故障诊断中的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号