共查询到18条相似文献,搜索用时 93 毫秒
1.
在当今信息社会,信息检索已经成为人们日常工作的一部分。藏文作为一种古老的文字,也融入了当今的信息时代,越来越多的网页、电子邮件等电子文档以藏文形式出现。该文主要探讨了藏文的构成、编码、分词及藏文相关提示词的实现原理及方法,对具有重要影响的藏文分词和排序进行了深入的分析,实现了在信息检索系统中基于权重的藏文自动提示功能。通过测试分析,该功能能较好地分辨藏文和依据权重对藏文进行相关词提示。 相似文献
2.
《计算机应用与软件》2017,(9)
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。 相似文献
3.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。 相似文献
4.
藏文自动分词系统中紧缩词的识别 总被引:7,自引:2,他引:7
在藏文信息处理中,涉及句法、语义都需要以词为基本单位,句法分析、语句理解、自动文摘、自动分类和机器翻译等,都是在切词之后基于词的层面来完成各项处理。因此,藏文分词是藏文信息处理的基础。该文通过研究藏文自动分词中的紧缩词,首次提出了它的一种识别方案,即还原法,并给出了还原算法。其基本思想是利用藏文紧缩词的添接规则还原藏文原文,以达到进行分词的目的。该还原算法已应用到笔者承担的国家语委项目中。经测试,在85万字节的藏文语料中紧缩词的识别准确率达99.83%。 相似文献
5.
6.
7.
互联网文本数量持续爆炸式增长,用户通过互联网查找信息变得更加困难,响应时间得不到满足。针对藏文本身的语言学特点,探讨一种面向信息搜索的藏文文本索引建立策略,建立一种高效的藏文文本索引,以提高藏文信息检索速度。 相似文献
8.
9.
SegT一个实用的藏文分词系统 总被引:3,自引:0,他引:3
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。 相似文献
10.
11.
浅析了当前藏文数据采集与检索存在的问题.基于元搜索技术提出了一种藏文信息采集方案;基于全文检索工具包Lucene并针对藏文的特点,提出了一种藏文信息的索引、检索的设计方案,并对其关键技术进行了探讨.实际系统应用证明方案可行.介绍的数据采集、索引、检索方案同样适用于藏文外的其他语种. 相似文献
12.
面向信息检索的自适应中文分词系统 总被引:16,自引:0,他引:16
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势. 相似文献
13.
分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。 相似文献
14.
本文介绍了一个Web维文信息检索系统,此系统根据用户设定的主题对指定的网站进行信息检索。该系统采用在西文信息检索中非常成功的向量空间模型来解决维文信息检索的问题,在维文文档的特征项抽取,加权、相似度计算,模型的建立等方面做了一些探讨,提出了一种针对解决基于网络的维文信息处理(如:维文网页下载,网页内容信息的存储,以及维文检索)的方法。文中论述了系统的设计思想和相关的算法以及实现技术。 相似文献
15.
本文介绍了一个Web维文信息检索系统,此系统根据用户设定的主题对指定的网站进行信息检索。该系统采用在西文信息检索中非常成功的向量空间模型来解决维文信息检索的问题,在维文文档的特征项抽取,加权、相似度计算,模型的建立等方面做了一些探讨,提出了一种针对解决基于网络的维文信息处理(如:维文网页下载,网页内容信息的存储,以及维文检索)的方法。文中论述了系统的设计思想和相关的算法以及实现技术。 相似文献
16.
随着藏文期刊论文的数量和类型与日俱增,人们对藏文期刊论文的时间性和准确性的要求也越来越严格,藏文期刊论文的现代化管理已迫在眉睫。为了适应期刊论文管理的新形势,更好地方便读者查阅论文资料,研究藏文期刊论文检索系统有很大的必要性。本文对藏文期刊论文检索系统进行了研究,实现将分散在各处杂志上的论文收集整理,提供统一的查询接口,方便用户在更大的范围内查找所需内容。 相似文献
17.
基于语义的Web信息检索 总被引:1,自引:0,他引:1
语义万维网的研究逐渐引起了知识表示、逻辑编程、信息系统集成和开发等各个领域的广泛关注。文中概述了语义万维网的概念、技术框架,并且对含有自由文本和丰富语义标记的网络文档资源的三种语义检索系统原型进行了深入分析。最后,提出了设计Web语义检索系统应该满足的条件,可以基于它来设计语义检索系统框架。 相似文献