首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 359 毫秒
1.
《计算机工程与科学》2017,(10):1923-1929
目前,Web的不断发展使得针对其内容搜索的精确度有所降低,尤其在不同的语言中进行搜索时,情况变得愈发复杂。跨语言信息检索提供了一种跨越语言障碍、获取信息的有效方法。以往的跨语言信息检索研究大多采取以检索系统为中心的研究方法,并未考虑到用户在翻译和检索过程中发挥的作用。结果重排序技术已经广泛应用于单语个性化信息检索,但是在个性化跨语言信息检索中还较少有相关研究。通过结果重排序技术来研究个性化跨语言信息检索,提出了两种个性化跨语言结果重排序方法。一种基于隐含语义,而另外一种则基于外部语义进行,将首轮搜索结果根据用户的偏好进一步进行处理和优化,使用户感兴趣的内容置于搜索结果列表的前列。在真实用户搜索日志数据上的实验结果表明,结果重排序能够有效提高个性化跨语言信息检索的搜索准确率。  相似文献   

2.
在统一框架下对双语语料库的平行文档进行分析建模,提取语言之间的潜在语义对应关系,在潜在中间语义空间中进行检索,从而实现跨语言信息检索.作者在自建的中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上,对平行文档进行分析建模,在TREC5&9和SDA数据集上进行了中、英、法三种语言的跨语言信息检索实验,且与单语言的信息检索模型进行了比较,实验结果显示本文的模型表现了较好的性能.  相似文献   

3.
跨语言信息检索研究进展   总被引:12,自引:0,他引:12  
随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索成为越来越重要的研究领域。本文介绍了该领域为解决语言问的翻译障碍而研究的各种解决方法并且对汉英跨语言信息检索所面对的独特难点进行了分析,同时本文对国际上重要的跨语言信息检索系统评测会议进行了简单介绍。  相似文献   

4.
随着互联网的发展,各国人民的交流日渐增多,跨语言信息检索变得日益重要。由于中文和英文的用户众多,汉英跨语言信息检索有着特别重要的意义。本文首先介绍信息检索的基本模型,然后介绍翻译和非翻译策略的跨语言信息检索技术,并给出一些汉英跨语言信息检索的难点问题。  相似文献   

5.
以跨语言信息检索需求为背景,介绍了目前语义词典及应用的概况,根据蒙古文互联网发展的现状,从应用需求出发,提出构建面向跨语言信息检索的蒙汉双语语义词典的重要性,并利用构建领域本体的方法给出蒙汉双语计算机术语语义词典的初步设计方法。  相似文献   

6.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。  相似文献   

7.
基于本体的跨语言信息检索模型   总被引:19,自引:1,他引:19  
随着网络信息的日益丰富和用户需求的提高,人们已经不能满足于仅仅在同一语种中进行检索,跨语言的信息检索(CLIR)因而受到人们越来越多的关注。为此,本文提出了一种新的基于语义的跨语言信息检索模型Onto-CLIR,该模型在传统信息检索技术的基础上,利用本体来刻画不同语言中对应的领域知识,以解决从查询语言到检索语言之间转换过程中出现的语义损失和曲解等问题,从而保证在检索过程中能够有效地遵循用户的查询意图,获得预期的检索信息。本文以体育新闻检索为背景,以英文查询作为查询请求,检索来自新浪网的体育类新闻,结果表明采用基于本体的跨语言信息检索方法之后检索的查全率和查准率平均提高10个百分点左右,有效地改善了检索性能。  相似文献   

8.
王志娟  李福现 《计算机科学》2017,44(Z6):14-18, 28
跨语言命名实体对于机器翻译、跨语言信息抽取都具有重要意义,从命名实体的音译、基于平行/可比语料库的跨语言命名实体对齐、基于网络挖掘的跨语言命名实体对翻译抽取3个方面对跨语言命名实体翻译对抽取的研究现状进行了总结。音译是跨语言命名实体翻译对抽取的重点内容之一,基于深度学习的音译模型将是今后的研究重点。目前,跨语言平行/可比语料库的获取和标注直接影响基于语料库的跨语言命名实体对齐的深入研究。基于信息检索和维基百科的跨语言命名实体翻译对抽取研究将是跨语言命名实体翻译对抽取研究的趋势。  相似文献   

9.
为了解决越汉跨语言事件检索中的查询翻译问题,该文提出了一种基于词向量的越汉跨语言事件检索方法。首先利用词向量构建事件关键词的汉语语义特征向量,然后计算越语的事件关键词的特征翻译向量,最后通过计算语义特征向量之间的相似度完成跨语言关键词对齐,从而实现查询关键词的自动翻译,进而完成跨语言事件检索。在构建的南海话题相关越汉语料库上进行的实验证明了该方法的有效性。  相似文献   

10.
基于词典的英汉双向跨语言信息检索方法   总被引:1,自引:0,他引:1  
杨辉  张玥杰  张涛 《计算机工程》2009,35(16):273-274
基于文本检索会议关于英汉跨语言信息检索的任务评价,分别以英汉双向查询翻译和英汉查询为主导策略与翻译对象,采用英汉电子词典作为获取翻译知识的知识源,结合构建的英汉单语信息检索系统,实现完整的英汉双向跨语言信息检索过程。实验结果验证了该系统的有效性。  相似文献   

11.
以机器翻译技术为核心的多语信息处理研究   总被引:1,自引:0,他引:1  
该文介绍了哈尔滨工业大学教育部-微软语言语音重点实验室在多语信息处理方面的研究进展和成果.首先综述了国内外的研究现状,然后重点介绍在统计机器翻译、机器翻译应用、机器翻译评价、跨语言信息检索等方面的研究工作.  相似文献   

12.
Interlingua and transfer-based approaches tomachine translation have long been in use in competing and complementary ways. The former proves economical in situations where translation among multiple languages is involved, and can be used as a knowledge-representation scheme. But given a particular interlingua, its adoption depends on its ability (a) to capture the knowledge in texts precisely and accurately and (b) to handle cross-language divergences. This paper studies the language divergence between English and Hindi and its implication to machine translation between these languages using the Universal Networking Language (UNL). UNL has been introduced by the United Nations University, Tokyo, to facilitate the transfer and exchange of information over the internet. The representation works at the level of single sentences and defines a semantic net-like structure in which nodes are word concepts and arcs are semantic relations between these concepts. The language divergences between Hindi, an Indo-European language, and English can be considered as representing the divergences between the SOV and SVO classes of languages. The work presented here is the only one to our knowledge that describes language divergence phenomena in the framework of computational linguistics through a South Asian language.  相似文献   

13.
This paper proposes an effective query-translation approach that enables a cross-language information retrieval (CLIR) service to be more easily supported in digital library systems that only contain monolingual content. A query-translation engine called LiveTrans is used to process the translation requests of cross-lingual queries from connected digital library systems. To automatically extract translations not covered by standard dictionaries, the engine is developed based on a novel integration of dictionary resources and Web mining approaches, including anchor-text and search-result methods. The engine exploits a broad range of multilingual Web resources used as live bilingual corpora to alleviate translation difficulties. It is shown to be particularly effective for extracting multilingual translation equivalents of query terms containing proper names or new terminology. The obtained results show the feasibility of and great potential for creating English-Chinese CLIR services in existing digital libraries and new applications in cross-language Web searching, although difficulties still remain that need to be investigated further.  相似文献   

14.
基于Web的跨语言信息检索研究综述   总被引:1,自引:0,他引:1  
回顾了近年来基于Web的跨语言信息检索技术的理论研究和发展现状,针对跨语言信息检索中基于语料库的方法,就其中语料库的构建和使用问题进行了阐述.比较分析和总结了两方面的技术:一是利用互联网上丰富的双语资源来建立大规模双语语料库的技术,二是目前运用较多的几种查询翻译模型构建技术.最后,展望了该领域的研究前景和发展方向.  相似文献   

15.
16.
We compare different strategies to apply statistical machine translation techniques in order to retrieve documents that are a plausible translation of a given source document. Finding the translated version of a document is a relevant task; for example, when building a corpus of parallel texts that can help to create and evaluate new machine translation systems.

In contrast to the traditional settings in cross-language information retrieval tasks, in this case both the source and the target text are long and, thus, the procedure used to select which words or phrases will be included in the query has a key effect on the retrieval performance. In the statistical approach explored here, both the probability of the translation and the relevance of the terms are taken into account in order to build an effective query.  相似文献   

17.
设计与实现了基于语句的汉英跨语言检索系统的关键词提取模块,关键词提取模块包括中文关键词提取和翻译转换两部分,此模块为后续的检索模块提供输入信息.其性能及效率对整个跨语言检索系统有重要影响。该文首先通过Dijkstra算法的改进方法求解分词的最短路径,实现了汉语检索语句的分词处理。然后以汉英双语词典为基础,对语法提取后的中文关键词实现了汉英翻译转换。最后提取的关键词供检索使用,实验结果表明用本文方法提取的关键词能满足检索要求。  相似文献   

18.
基于Lucene的英汉跨语言信息检索   总被引:8,自引:0,他引:8  
描述了一个英汉跨语言检索系统的设计与实现,其主要研究目的在于寻找更为有效的英汉查询翻译方法,以及提高汉语检索系统的性能。在英汉查询翻译方面,以英汉双语词典为基础,建立了查询翻译算法。在汉语检索方面,分析不同索引单元对于检索性能的影响,基于Lucene全文索引工具包建立了搜索引擎。在系统评测方面,提出了一种根据主题,快速构建评测数据的方法。  相似文献   

19.
In this article we illustrate a methodology for building cross-language search engine. A synergistic approach between thesaurus-based approach and corpus-based approach is proposed. First, a bilingual ontology thesaurus is designed with respect to two languages: English and Spanish, where a simple bilingual listing of terms, phrases, concepts, and subconcepts is built. Second, term vector translation is used – a statistical multilingual text retrieval techniques that maps statistical information about term use between languages (Ontology co-learning). These techniques map sets of t f id f term weights from one language to another. We also applied a query translation method to retrieve multilingual documents with an expansion technique for phrasal translation. Finally, we present our findings.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号