首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 671 毫秒
1.
基于DOM修剪的藏文Web信息提取   总被引:1,自引:0,他引:1       下载免费PDF全文
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文“音节点”的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。  相似文献   

2.
《软件工程师》2017,(6):12-14
如今互联网上藏文信息也不断的扩充,藏文搜索引擎作为常用的信息检索的工具和渠道,倒排索引又是搜索引擎的核心技术之一,倒排索引直接影响搜索引擎检索的结果和响应的速度。之所以文章详细介绍了一个自主开发的藏文网页倒排索引系统,它以XML文档的标签内容作为索引对象,定义了文档和文档属性等概念,采用C#语言对文藏文网页正文构建倒排索引的关键技术和实现方法进一步的阐述,实现了基于XML文档的藏文网页倒排索引数据库的底层实现,提供了技术参考。利用这种方法藏文搜索引擎中信息检索的速度和准确率有所提高。  相似文献   

3.
班智达藏文语料切分词典的建立与算法研究   总被引:2,自引:0,他引:2  
才藏太 《计算机应用》2009,29(7):2019-2021
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。结合藏文语料库切分标注规范,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。  相似文献   

4.
浅析了当前藏文数据采集与检索存在的问题.基于元搜索技术提出了一种藏文信息采集方案;基于全文检索工具包Lucene并针对藏文的特点,提出了一种藏文信息的索引、检索的设计方案,并对其关键技术进行了探讨.实际系统应用证明方案可行.介绍的数据采集、索引、检索方案同样适用于藏文外的其他语种.  相似文献   

5.
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。  相似文献   

6.
基于概念空间的文本语义索引   总被引:6,自引:0,他引:6  
1 引言据统计,在现今的联机存储信息中,80%以上的信息以文本的形式存在。信息的多元化、复杂化,致使信息的自动索引成为急需解决的问题。本文研究的内容是建立一个基于概念空间的文本语义索引。目前的文本索引都是建立在文本空间,或关键词空间上的,而建立在概念空间上的索引具有条理清晰、人机界面友好、符合通常检索习惯等许多优势,这也是文本语义索引发展的方向。另外.在建立文本索引的过程中,国内外大多使用Hopfield神经网络联想的方法,本文首次使用直接聚类法代替了Hopfield神经网络联想功能,这样使得索引具有很好的可扩展性。基于语义关联度的文本索引可以广泛应用于Internet搜索引擎、数字图书馆、电子商务等众多领域中。建立文本索引的过程主要有以下几部分: 1)对文档分类,建立文档的概念空间,在概念空间的层次上组织文档并确定文档中出现的关键词。  相似文献   

7.
文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中最基本、最重要的研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有极高的应用价值。现阶段,藏文文本分类的主要研究集中在借用英汉等语言文本分类技术构建分类器,英汉等语言以词做分类特征基元构建分类器。由于受藏文分词技术制约,直接以词做藏文文本分类特征基元,其性能有较大的影响。该文在分析文本分类流程及藏文文本构成的基础上,研究了藏文文本分类特征基元选择方法,提出了一种融合词和音节的藏文文本分类特征基元选择方法,并以CNN模型构建的分类器验证了该方法的有效性。  相似文献   

8.
将群体智能技术应用于半结构化的藏文Web文本聚类,提出基于群体智能的半结构化藏文Web文本聚类算法(SCAST).充分考虑群体智能技术对藏文文本聚类准确性和时间效率的影响,SCAST算法首先运用向量空间模型表示藏文文本信息,将藏文文本和智能蚁群随机放置于一个文本向量空间中.然后智能蚂蚁随机选择藏文文本,计算藏文文本在当前局部区域内的相似性,获得拾起或者放下文本的概率,进而决定是否"拾起","移动","放下"藏文文本.最后通过多次迭代训练,将藏文文本按其相似性聚集在一起,得到最终聚类结果.大量真实藏文Web文本数据上的实验结果表明,相较于传统的k-means聚类算法,基于群体智能的藏文文本聚类算法在聚类准确率上平均提高约8.0%.  相似文献   

9.
目前多种藏文编码方案的同时存在,为藏文文本的检索带来了困难。因此,藏文编码的自动识别成为进行藏文文本处理首先要解决的一个基本问题。结合藏文结构特点和统计学特征,文章提出了一种基于高频字丁和音节点区位码的藏文文本编码判定算法。经测试证实,该算法在藏文文本编码的判定中具有很高的准确度。  相似文献   

10.
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。  相似文献   

11.
随着计算机及网络技术的广泛应用,数据库建设正朝着多媒体、网络化方向发展,而丰富多样的多媒体数据不像普通文本信息那样容易描述和查找,所以元数据在数据库资源管理和应用中扮演着越来越重要的角色。主要从理论与实践的角度,论述甘南藏区旅游资源数据库建设中DC元数据的应用。  相似文献   

12.
搜索引擎的Web Robot技术与优化   总被引:4,自引:0,他引:4  
崔泽永  常晓燕 《微机发展》2004,14(4):99-102
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Rohot的方法,改进后的Web Robot能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的Web Rohot保证了为用户提供的网上信息的全面性和实时性。  相似文献   

13.
基于Lucene.Net的分布式全文检索系统   总被引:1,自引:0,他引:1  
随着互联网的发展,现代信息量急剧增加,人们对于信息的检索要求越来越高,一个好的检索系统必须具有较快的检索速度和较高的查准率.针对海量文本数据提出一种基于Lucene.Net全文检索引擎构建的分布式全文检索系统,使用.NET Remoting实现分布式的全文索引与全文检索,具有较好的扩展性和很快的索引与检索速度,并成功地将该技术应用于军队某部信息管理系统,取得了很好的效果.  相似文献   

14.
随着信息技术的快速发展,互联网越来越朝着智能化的脚步靠近,在人机交互过程中开始越来越多的使用自然语言。那么对于输入自然语言进行校对的研究便日益变成一个非常紧迫的课题。为了能够对中文输入校对有着更加深入的认知与了解,该文对文本校对的语言模型,策略方法,设计思路给与了简单的分析研究,并设计了一个简单的文本校对系统,实现中文语句的文本校对,用于在自动问答系统和用户搜索问句的相关领域进行纠错,为用户提供更好的服务。  相似文献   

15.
旅游业是藏族地区主要的经济来源之一。然而,目前互联网上缺乏藏文旅游信息智能化服务系统,且藏文景点介绍文本也十分匮乏;相反,汉文旅游网站信息量大,但各旅游网站包含的景点不尽相同,景点介绍文本篇幅较长,且各旅游网站对同一个景点描述侧重点不同。为便于不同语言使用者能快速准确地了解景点相关的知识,该文首先在汉文旅游领域分别采用基于BLSTM神经网络模型、基于维基百科以及基于网络爬虫等形式获取与景点相关的共8种属性知识;并通过采用基于维基百科等方法构建的旅游领域汉藏词典,将获取的汉文知识迁移到藏文,其翻译覆盖率平均值达70.44%。最终,构建汉藏双语旅游领域知识图谱。  相似文献   

16.
面向网络的全文检索中索引文件的组织   总被引:5,自引:0,他引:5  
为了提高网络中全文检索的效率 ,需要对Web页面中内容进行分析、建立全文索引 ,并对索引的结构进行高效率的组织。讨论了索引的组织结构及其实现方法 ,并分析了不同的组织方法的性能。  相似文献   

17.
移动互联网时代已经到来,各种移动终端成为了人们交流与沟通的重要工具,然而少数民族文化信息的传递因为输入法的缺失而受到了一定的限制,推动和发展少数民族文化需要从最基本的文字输入法开始。针对以上问题,本文通过对藏文的特点、藏文文字的组成、国内外对藏文文字信息编码等方面进行了探讨和研究,在此基础上分析了Android系统输入法框架IMF的特点、组成及工作原理。最后依据Android系统输入法的框架通过使用各种开发工具和方法,开发出了一款藏文输入法,并通过了在Android系统终端上的测试。文章阐述了藏文在Android系统下输入法的设计思想以及实现过程,介绍了该技术的设计原理以及流程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号