首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
本文介绍了一个Web维文信息检索系统,此系统根据用户设定的主题对指定的网站进行信息检索。该系统采用在西文信息检索中非常成功的向量空间模型来解决维文信息检索的问题,在维文文档的特征项抽取,加权、相似度计算,模型的建立等方面做了一些探讨,提出了一种针对解决基于网络的维文信息处理(如:维文网页下载,网页内容信息的存储,以及维文检索)的方法。文中论述了系统的设计思想和相关的算法以及实现技术。  相似文献   

2.
近年来,随着互联网技术在新疆地区的发展和普及、微信、QQ、论坛、微博等网络交流逐渐成为新疆人民日常交流的主要方式。由于历史和地理原因,网络平台上的维吾尔语言呈现传统维文、拉丁维文、西里尔维文等多种字母体系共存的“一语多文”的特点。由于这些文字缺乏科学的对应标准、互相转换的工具等原因,造成实际使用中存在很多问题,给维吾尔网民的日常互联网使用及“一带一路”沿线国家间和居民间的沟通和交流带来不便。为此首先研究传统维文、拉丁维文及西里尔维文之间的渊源,以及三种字母目前的对应标准存在的问题和转换规则。借此提出三种字母之间的Unicode字符编码转换算法,以期解决国内外维吾尔人间的在线文字交流困难的问题,进而实现维文搜索引擎系统中使用后两种文字的信息检索。通过实验验证了所提的LUTC和CUTC转换算法的字符编码转换效率有明显提升,拉丁维文和西里尔维文的信息检索效果与传统维文一致。  相似文献   

3.
随着Internet的发展,基于多种文字信息的维文信息也越来越多。为了获取有用的维文Web信息,必须要创建符合维文信息检索需求的搜索引擎。文章从分析维文文字的多种性、编码的多样性以及维文Web表示的特殊性等问题的基础上,探讨如何利用Google Web API来实现基于维文信息的单机版元搜索引擎。  相似文献   

4.
随着近年互联网技术在新疆地区的发展和普及,大量维语网站如雨后春笋般涌现。由于历史原因,维文呈现老维文、新维文、拉丁维文、西里尔维文等多种字母体系共存的“一语多文”的特点。现有的维文搜索引擎仅支持老维文,然而,目前国际通行的主流维语交流字母体系以拉丁维文及西里尔维文居多。由此,如何设计支持维文“一语多文”特点的维文搜索引擎将是维文信息检索研究领域的重要挑战,其研制成果将对广大维族网民的日常互联网使用及国家的“一带一路”战略产生深远的影响。研究拉丁维文、西里尔维文和老维文之间的转换规则;提出Unicode字符编码体系和Unicode字符编码转换算法,实现在维语搜索引擎系统中通过拉丁维文和西里尔维文来直接检索老维文网页内容,弥补了当前维文搜索引擎系统的空白;通过翔实的实验,验证了所提的LCCU编码转换率达到100%,拉丁维文和西里尔维文的检索效果与老维文完全一致。  相似文献   

5.
介绍了一个基于内容的维文文本检索系统,该系统采用向量空间模型.文中对该系统的设计思想进行了介绍,给出了文档标引、权值计算和相似度计算的具体方法,并针对维文自身的特点.对维文的存储以及维文文档特征项的抽取等方面的问题进行了具体探讨.  相似文献   

6.
根据拉丁维文的特点,分析了拉丁维文常见的拼写错误类型,提出了一种将最小编辑距离、基于有向图模型的词语切分和trigram语言模型融合的方法,实现了基于上下文的拉丁维文的自动拼写校对系统,从而大大提高了拉丁维文的校对准确率.在新疆大学提供的维文语料库的测试中,拉丁维文的校对准确率达到了90.1%.  相似文献   

7.
为了解决分布式协同设计系统中的信息快速检索以及多副本同步等问题,引入了对等模型,给出了该系统的功能模型、信息检索模型等。提出了DHT的对等信息检索方法,保证了用户能够在分布式协同设计系统中快速共享资源。采用基于DHT的分布式互斥等算法作为协同数据的一致性维护方法,给出了系统的具体实现方法和实例。  相似文献   

8.
基于Web的信息检索技术综述   总被引:12,自引:0,他引:12  
随着信息技术的发展,特别是Web的不断普及和应用,Web上的信息飞速增长,形成了巨大的信息资源。因此,如何从巨量的信息中快速有效地提取出所需的信息,成为迫切需要解决的问题。文章分别介绍了几种传统的信息检索模型和基于潜在语义分析的信息检索模型,以及自动问答系统,并在多方面对它们进行比较,最后展望了问答系统的应用前景。  相似文献   

9.
将频繁项集挖掘和查询扩展技术应用于信息检索,提出一种新的基于频繁模式挖掘与查询扩展的信息检索系统模型及其算法,并给出该检索系统模型的设计思想,以及模型总体结构及其各模块功能,实现了系统原型。实验结果表明,该检索系统模型能有效地提高和改善信息检索性能。  相似文献   

10.
基于向量空间模型的中文信息检索技术研究   总被引:15,自引:1,他引:15  
该文运用在西文信息检索中非常成功的向量空间模型来解决中文信息检索的问题,在中文文档的特征项抽取,加权、相似度计算,模型的建立等方面做了一些探讨,并建立系统原型,在小范围内进行了测试。  相似文献   

11.
半结构化网页中多记录信息的自动抽取方法   总被引:1,自引:0,他引:1  
朱明  王庆伟 《计算机仿真》2005,22(12):95-98
从多记录网页中准确的自动抽取出需要的信息,是Web信息处理中的一个重要研究课题。针对现有方法对噪声敏感的缺点,该文提出了基于记录子树的最大相似度发现记录模式的思想,以在同类记录的表现模式存在一定差异的情况下正确识别记录。在此基础上,实现了多记录网页自动抽取系统,该系统可以从多个学术论文检索网站中,自动获取结果网页,并自动抽取其中的记录。对常见论文检索网站的实验表明了该系统具有较好的有效性和准确性。  相似文献   

12.
Due to the language barrier, non-English users are unable to retrieve the most updated medical information from the U.S. authoritative medical websites, such as PubMed and MedlinePlus. However, currently, there is no any cross-language medical information retrieval (CLMIR) system that can help Chinese-speaking consumers cross the language barrier in finding useful English medical information. A few CLMIR systems utilize MeSH (Medical Subject Headings) to help overcome the language barrier. Unfortunately, the traditional Chinese version of MeSH is currently unavailable.In this paper, we employ a semi-automatic term translation method to construct a Chinese–English MeSH by exploiting abundant multilingual Web resources, including Web anchor texts and search–result pages. Through this method, we have developed a Chinese–English Mesh Compilation System to assist knowledge engineers in compiling a Chinese–English medical thesaurus with more than 19,000 entries. Furthermore, this thesaurus has been used to develop a prototypical system for cross-language medical information retrieval, MMODE, which can help consumers retrieve top-quality English medical information using Chinese terms.  相似文献   

13.
The present study examined influences of fluid intelligence and website experience on a website task by 99 community-dwelling older adults (41 males, 58 females, age range 58 - 90 years) who were screened for visual acuity and major health problems. They were divided into three groups, dependent on their prior website experience (19 with no prior website experience, 55 with low website experience and 25 with high website experience). Perpendicular to this, the participants were divided into low- and high-fluid intelligence groups and into young - old and old - old age groups. Participants performed a website information retrieval task using three health information websites. Performance was assessed by the time taken to retrieve target information. Overall, the three websites significantly differed in the time taken to locate the target information. The website task performance was not significantly influenced by fluid intelligence score or age, but there was a significant influence by prior website experience.  相似文献   

14.
基于网页信息检索的地理信息变化检测方法   总被引:1,自引:0,他引:1  
曾文华  黄桦 《计算机应用》2010,30(4):1132-1134
针对地理信息变化频繁,难以及时发现的问题,提出了一种基于网页信息检索的地理信息变化检测方法,通过设计搜索条件在互联网上收集符合条件的网页,设计评价方法评价搜索结果的可信度,并对最终搜索结果进行统计和空间分析,实现基于网页信息检索技术的地理信息变化检测。以杭州地区为例,开发了基于Web的杭州地区地物变化检测系统,验证了该方法的可行性及有效性,为区域的地物变化检测提供了新方法。  相似文献   

15.
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维。提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,得到段落的位置信息和各级小标题信息;然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。  相似文献   

16.
为了从这些海量信息中获取“有用的、满足用户需求的信息”,提出一个基于Hadoop和Lucene技术的分布式检索系统架构处理Web电子产品信息检索。利用Hadoop的Map和Reduce实现分布式索引文件的存储,通过Lucene检索技术实现索引文件的访问,从而提高信息检索的效率。并且针对Lucene_Hadoop架构存在粗粒度检索问题,提出了一种细粒度检索方法,减少了系统建立索引的时间。实验表明基于Hadoop和Lucene的分布式检索系统在Web电子产品信息中具有较高的检索性能。  相似文献   

17.
用自适应机制改进Web信息缓存管理的性能   总被引:5,自引:1,他引:4  
目前,各种缓存(caching)技术被广泛应用于Web信息获取过程中,以求减少Internet的网络负载和提高响应速度,如何改进缓存技术从某种意义上成为制约Web信息获取中的特点,然后提出了采用自适应机制改进Web信息缓存管理性能的方法,同时给出了该方法的一些具体实现细节,该方法被应用于基于企业主题的Web信息获取系统(WebCapture)的设计开发过程中,自适应机制的Web信息缓存管理主要采用  相似文献   

18.
A masss of heterogeneous,distributed and dynamic information on the World Wide Web(the Web) has resulted in “information overload“ .It‘s an important and urgent reserach issue to provide users with effective information retrieval service on the Web.Web search enginees attempt to solve this problem,yet their effect is far from satisfying.In this paper,a distributed and cooperative strategy for information retrieval on the Web is proposed to substitute the centralized mode adopted by the current search engines.Then a new information retrieval system model IRSM is presented.which supports the retrieval of metadata about web documents and uses Z39.50 standard protocol to unify the heterogeneous interfaces of uments and uses Z39.50 standard protocol to unify the heterogeneous interfaces of different systems.Based on that,a distributed and cooperative information refieval framework,called DCIRF,is designed to help users in fast and effective information retrieval on the Web.  相似文献   

19.
基于Web Service的数字化民俗博物馆的研究与实现   总被引:2,自引:0,他引:2  
为增强世界各族人民对新疆少数民族民俗文化的了解,并实现各个大学数字博物馆之间的无间访问,提出了基于Web Service的英、汉、维三语数字化民俗博物馆的建设方案,文中分析设计了数字化民俗博物馆的总体结构,讨论了Web Service关键技术与ASP.Net技术,并结合Web 服务与ASP.Net技术,初步实现了数字民俗博物馆的建设,利用这两种技术的优点,提高了客户端的浏览速度,为用户提供了更方便、更透明的信息服务,并为不同用户提供了英、汉、维三种语言的选择。  相似文献   

20.
基于动态异构的Web信息集成网页分析方法*   总被引:1,自引:0,他引:1  
将动态异构的Web信息资源进行抽取以统一的方式供用户查询和使用,是当前迫切需要解决的问题。介绍了分析相关Web页面的方法和经验,实现了自动提交HTML表单获得所需页面和对页面的信息抽取。最后,实验证明了此方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号