首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
在中泰两国双边往来日益频繁,以及Android App广泛应用的背景下,设计并实现了在Android平台下的汉-英-泰互译有声电子词典软件.该应用软件是以Android Studio为开发环境,利用Java语言及SQLite数据库设计的.以一种特别的方式由泰语语料库创建本地词库,解决了SQLite可视化操作工具处理泰文会出现乱码的问题.系统关键技术是采用SQL语言在创建好的本地词库中查找单词释义.系统具有对话翻译、拍照翻译的特色,还实现了汉-英-泰三语查询互译、泰语真人朗读等功能.测试表明,软件具备一定的便利性和实用性.  相似文献   

2.
傣泐文-汉文互译有声电子词典   总被引:1,自引:0,他引:1  
软件是基于Visual C++ 6.0和Access 2003工具来完成的,在Unicode字符集模式下进行软件设计,解决当前民族文字软件开发时的系统使用兼容性以及字符的输出乱码等问题.本开发模式使用简单、操作稳定、接口灵活,在便于用户对词汇和语音数据库进行统一处理(备份、打印)的同时,也为其它民族文字翻译软件的开发提供了初期技术指导.目前面向傣族地区的翻译辅助工具还尚未推出,“傣泐文-汉文互译有声电子词典”是傣文信息化领域的一个重要“应用创新”成果,是开展少数民族语言文化信息元表示与提取研究的基础支撑,其作用主要是负责傣文的查询、翻译、朗读等工作.傣汉互译电子词典设计实现了傣汉对照互译、傣语真人朗读、傣语音标显示等常用功能,同时还支持对词库进行添加、修改、删除自定义操作,实现了良好的人机交互功能.  相似文献   

3.
基于实例的中文分词-词性标注方法的应用研究   总被引:1,自引:0,他引:1  
通过实验证明基于实例的中文分词-词性标注(下文简称为EBST,Example-Based Chinese word Segment and Tagging)系统对训练语料相关的文本具有非常好的标注性能.实验结果显示了EBST系统的分词-词性标注不仅具有非常高的准确率,而且和训练语料的标注保持了很好的一致性.这使得EBST系统非常适合于在基于实例的机器翻译(Example-Based Machine Translation,EBMT)系统中的应用.本文给出了EBST在EBMT系统中的应用实例及相应的实验结果.  相似文献   

4.
为满足与东盟各国的交流,开发一套针对东盟10国的手持PDA翻译系统,能完成中国与东盟10国的互译(还可完成中英互译及普通话与粤语的互译),能满足与东盟交流中的互译需求.  相似文献   

5.
为克服对外交流与合作的语言障碍,提高英语技术写作能力,增强企业国际竞争力,我单位与国际知名机器翻译机构合作,利用国际先进的语料库语言学和混合引擎翻译技术开发了新一代汉英机器翻译系统—“赛迪环宇通”汉英翻译系统。研发背景和资源优势在我国发展外向型经济的大环境下,  相似文献   

6.
该文以收集整理翻译的彝语言语料为基础,在SQL Server 2008数据库环境下,通过ODBC,利用VC++ 6.0编写彝语言语料入库程序,实现了彝语言语料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自动入库,完成了彝语言语料资源数据库的设计;通过编写WEB服务端的查询和统计程序,利用C/S方式实现了彝语言语料基于WEB浏览器的访问和远程共享,同时也为其他少数民族文字信息处理中的类似问题提供了一个可参考的解决方案。  相似文献   

7.
中文信息处理中 ,判断哪些词串该入选《分词词表》一直是一个难题。互信息作为一种衡量手段 ,在一定程度上体现了词串的各组成部分之间结合的紧密程度 ,以北京大学 1998年 1月《人民日报》标注语料为试验料 ,通过互信息的计算分析四字词串成词的可能性 ,为判断能否把其收入词表给出依据  相似文献   

8.
古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节.当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融...  相似文献   

9.
数据库汉语查询语言的分词研究与实现   总被引:3,自引:2,他引:3  
在综合考虑数据库查询这一特殊性的基础上,根据查询语句中词汇对数据查询不同贡献程度分级建立分词词典;然后提出了分步- - 正向单扫描的分词方法(DSWS) ,并对该分词方法的时间复杂度进行了分析。  相似文献   

10.
班智达藏文语料切分词典的建立与算法研究   总被引:2,自引:0,他引:2  
才藏太 《计算机应用》2009,29(7):2019-2021
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。结合藏文语料库切分标注规范,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。  相似文献   

11.
基于复句语料库分词系统研究   总被引:2,自引:0,他引:2  
复句在书面语中具有举足轻重的地位,如何让计算机正确理解复句是中文信息处理中一个值得重视的问题。现有的分词系统对复句关系词的正确切分与标注上不足以满足对复句进行层次分析和语义分析的需要。建立的分词系统在复句中关系词的切分和标注上做出了必要的改进。  相似文献   

12.
情感信息抽取是情感分析中的一个重要子任务。虽然该任务已经开展有一段时间,但是面向中文文本的情感信息抽取任务研究才刚刚起步。目前中文文本的情感信息抽取面临的首要困难在于现有的相关中文语料库还非常有限。为了更好开展中文文本的情感信息抽取研究,该文重点研究了中文语料标注体系,构建一个规模较大、标注类型丰富的中文情感信息抽取语料库。除了常见语料库标注的情感倾向性、评价对象、情感词等信息外,重点标注了评价对象的省略、无情感词情感句表达及极性转移等情况。由语料信息统计可知,该文所指出的特殊现象(例如,评价对象的省略)在中文情感表达中是非常普遍的,开展这方面的研究很有必要。该文所构建的中文文本语料库将为中文情感信息抽取任务提供语料基础。  相似文献   

13.
为了实现多语种词对齐,该文提出一种以点互信息为基础的翻译概率作为改进的多语种单词关联强度度量方法。首先,论证了在服从Zipf定律的普通频级词区域,单词间关联强度的点互信息度量法可简化为翻译概率;其次,对汉语、英语、朝鲜语平行语料进行句子对齐、分词和去停用词等预处理后计算平行语料单词之间的翻译概率,取翻译概率最高的前k个词作为候选翻译词,并通过优化处理提高了词对齐准确率。实验结果表明,该方法可以不完全依赖语料规模,在小规模语料中取得94%以上的准确率,为跨语言小众文献及低资源语言词对齐提供了技术基础。  相似文献   

14.
传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法,该方法会丢掉蒙古文词缀所包含的大量语义信息。蒙古文词缀中包含大量格的附加成分,主要表征句子的结构特征,对其进行切分并不会影响词汇的语义特征,若不进行预处理则会造成严重的数据稀疏问题,从而影响翻译质量。因此,基于现有理论对语料预处理方法进行总结研究,重点研究了蒙古文格处理对翻译结果的影响,目的是从蒙古文形态分析的特殊性入手来提高蒙古文-汉文统计机器翻译的质量。通过优化预处理方法,使机器翻译结果的BLEU得分相比基线系统1提高了3.22个点。  相似文献   

15.
面向小语种机器翻译的平行语料库构建方法   总被引:1,自引:0,他引:1  
神经机器翻译模型的训练效果在很大程度上取决于平行语料库的规模和质量.除了一些常见语言外,汉语与小语种间高质量平行语料库的建设一直处于滞后状态.现有小语种平行语料库多采用自动句子对齐技术利用网络资源构建而成,在文本质量和领域等方面有诸多局限性.采用人工翻译的方式可以构建高质量平行语料库,但是缺乏相关经验和方法.文中从机器...  相似文献   

16.
随着中国英语新词大量出现,缺少中国英语新词语料库成为研究中国英语的主要障碍,新词识别是建设语料库主要的技术问题。针对现有的点互信息和邻接熵新词识别算法中的词内部凝聚度低,及点互信息单阈值设置存在较多高阈值无效词组,且低阈值新词组无法识别的问题,提出了改进多字点互信息和邻接熵中国英语新词识别算法。利用多字点互信息以及点互信息双阈值的设定来识别新词。实验结果表明,相同数据和实验环境下,该方法提高了准确率、召回率和[F]值,对语料库建设是有效可行的。  相似文献   

17.
在语言信息处理的研究中,语料库(特别是双语语料库)的作用日益凸现出来。机器翻译作为语言信息处理研究的一个分支,通过采用语料库技术,较好地提高了翻译的准确性和可读性。因此,标准语料库的建立及应用在其中有着重要的地位和作用。本文主要研究了一个专业领域(如自动化、计算机)汉英平行语料库的建立,最后简述了语料库在统计机器翻译系统中的应用。  相似文献   

18.
第三届中文倾向性分析评测(COAE2011)语料的构建与分析   总被引:1,自引:0,他引:1  
文本倾向性分析已成为自然语言处理领域研究的热点问题之一。为进一步推动中文倾向性分析的研究,中国中文信息学会信息检索专业委员会举办了第三届中文倾向性分析评测(COAE2011)。该次评测主要关注领域和上下文语境(Context)对中文倾向性分析的影响。该文主要介绍COAE2011评测语料的构建及其对评测的支撑 首先介绍了COAE2011语料的领域选取、媒介分布等获取过程,然后详细阐述语料的标注原则与方法,最后依据评测结果分析领域和上下文语境因素对倾向性的影响。COAE2011语料的建立将为中文倾向性分析提供强大的资源支持。  相似文献   

19.
为保证机器翻译准确性,本文提出了基于短语翻译模型的英语翻译计算机智能校对方法,通过发现可代替待校对词汇的正确词汇,以实现英语翻译的自动智能校对。同时详细设计了英语翻译计算机智能校对具体流程,分析了基于最大熵模型的分词模式。最后通过计算机智能校对代码实现与测试,得出结论,英语翻译结果校对之前准确率最高只能达到72.9%,而通过英语翻译计算机智能校对方法完成校对之后,准确率全部保持于99.0%以上,二者准确率差异显著,表明基于短语翻译模型的英语翻译计算机智能校对方法具有显著有效性与良好稳定性,值得大力推广与应用。  相似文献   

20.
双语平行语料库是构造高质量统计机器翻译系统的重要基础。与传统的通过扩大双语平行语料库规模来提高翻译质量的策略不同,本文旨在尽可能地挖掘现有资源的潜力来提高统计机器翻译的性能。文中提出了一种基于信息检索模型的统计机器翻译训练数据选择与优化方法,通过选择现有训练数据资源中与待翻译文本相似的句子组成训练子集,可在不增加计算资源的情况下获得与使用全部数据相当甚至更优的机器翻译结果。通过将选择出的数据子集加入原始训练数据中优化训练数据的分布可进一步提高机器翻译的质量。实验证明,该方法对于有效利用现有数据资源提高统计机器翻译性能有很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号