首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
在自然语言处理中词性标注和词干提取是最重要的任务。文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了广大学员通过一部Android系统的手机随时随地参与语料标注任务,从而完成了大规模语料的标注工作,将其应用到文本分析、机器翻译、语音合成、语音翻译等研究领域。该系统的实现为低资源少数民族智能化研究工作做出了贡献。  相似文献   

2.
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用.  相似文献   

3.
本文首先给出了可训练语音合成系统架构,然后结合维吾尔语自身的特点,研究了其在维吾尔语音合成中的应用,给出了可训练语音合成系统训练部分所需数据准备,包括文本收集,录制、音素列表的确定,不带时间和带时间标注、问题集和上下文属性集的设计等.并利用通用工具HTS进行了测试,结果表明本文技术路线的可行性和所准备数据的有效性.  相似文献   

4.
基于最小合成单元的维吾尔音库设计   总被引:1,自引:1,他引:0  
为了实现容量小、可懂度和自然度较好的波形拼接式维吾尔语语音合成系统,结合维吾尔语的特点,完成了文本设计、录音、语音标注、以及音库建设过程。其中,把音节作为基本的合成单元建立了音节语音库;为了弥补音库中不存在音节的合成问题,又建立了音素作为合成单元的音素语音库。实验结果表明,以音节和音素为最小合成单元的波形拼接式维吾尔语语音合成系统除了音库容量相对少等特点之外,还具有良好的可懂度。  相似文献   

5.
在众包学习中,使用标记集成算法得到的集成标记中仍然存在一定程度的标记噪声.本文受三重训练思想的启发,提出了一种基于tri-training的众包标记噪声纠正算法(Tri-Training-based Label Noise Correction,TTLNC).TTLNC首先使用过滤器获得干净集和噪声集,然后在干净集上进行bagging分别训练三个不同的分类器,并通过这些分类器重新标注噪声集中的实例,同时按照实例分配策略将实例分配给相应的训练集.最后在新训练集上重新训练三个不同的分类器,并用新分类器的分类结果重新标注所有实例.在仿真标准数据和真实众包数据集上的实验结果表明TTLNC比其他四种最先进的噪声纠正算法在噪声比和模型质量两个度量指标上表现更优.  相似文献   

6.
命名实体识别在自然语言处理实践中具有高度重要的作用,而且也是信息提取等各种自然语言方式的基础工具.本文采用条件随机场模型(Conditional Random Fields,CRF)对维吾尔语音乐实体识别进行初步的探讨.首先维吾尔语网站上收集数据,进行一系列预处理后得到纯文本,然后制定语料标注规则对实体进行人工标注,再利用上下文、关键字、词典等一系列特征进行训练,制定一个适合的模板来进行音乐实体的识别.实验结果证明,此方法在维吾尔语音乐领域不仅可行、而且有效.  相似文献   

7.
针对基于有监督学习的依存句法分析模型的研究现状与进展进行了总结。重点综述了标注语料匮乏、特征选择与提取、模型一体化三个问题的相关研究内容。首先,详细介绍人们借助依存关系映射和主动学习摆脱标注语料匮乏困境的相关研究;其次,重点总结了不同特征对构建依存句法分析模型的贡献,例如句子级特征、词类别特征、语言形态特征和高阶特征等;最后,分析了依存句法分析模型一体化的优势与不足;此外,详细总结了如何借助该类模型解决事件抽取、产品评论分析和舆情分析等问题。  相似文献   

8.
结合维吾尔语的语音特征和语义信息,在大量电话语音语料库的基础上,以建立维吾尔语连续音素识别平台为目标,通过构建隐马尔科夫模型工具HTK(Hidden Markov Model Toolkit)工具实现了维吾尔语连续音素识别算法:首先根据具体技术指标完成了较大规模电话语音语料库的录制和标注工作;确定音素为基元,通过训练获得了每个音素的HMM(Hidden Markov Model)声学模型,随后对输入的语音进行识别,声学模型在不同的高斯混合数目下,得出了识别结果;统计了32个音素的识别率并对它进行分析,为了进一步提高识别率奠定了基础。  相似文献   

9.
凌广明  徐爱萍  王伟 《电子学报》2000,48(11):2081-2091
文本序列的自动标注能够解决深度学习普遍面临的人工标注成本过高的问题.本文针对地址信息的实体表述特征,构建基于实体边界矩阵(Entity Boundary Matrix,EBM)的表示模型,在此基础上提出了一种基于深度学习和KNN标签修正算法(K-Nearest Neighbours Correction Algorithm,KNN-CA)的不需要任何人工标注训练集的自动标注算法.首先获取预置小区数据集并构建离线特征库和初始化在线特征库;接着通过匹配算法求解EBM并利用KNN-CA进行优化,再通过数据增广得到自动标注的训练集;然后训练BiLSTM-CRF深度学习模型并预测所有未曾标注的地址信息的序列标注;最后再次利用KNN-CA优化可求解EBM的序列标注,由此构建适用于中文地理命名实体(Chinese Geospatial Named Entities,CGSNE)识别及相关研究的序列标注语料库.实验表明,标注数据的F1值达到了95.35%.  相似文献   

10.
基于条件随机场的汉语词性标注   总被引:1,自引:0,他引:1  
近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优.  相似文献   

11.
一种新颖的词性标注模型   总被引:4,自引:4,他引:0  
文章首次提出一种统计模型,即马氏族模型,该模型假定一个词出现概率既与当前词的词性标记有关,也与它前面的词有关,但其前面的词和该词词性标记关于该词条件独立.将马氏族模型适当加以简化,能成功地用于词性标记,实验结果证明:在相同的测试条件下,这种基于马氏族模型的词性标注方法标记成功率大大高于传统的基于隐马尔可夫模型的词性标注方法.马氏族模型在其它一些自然语言处理领域如分词、句法分析、语音识别、机器翻译也有广泛的应用前景.  相似文献   

12.
维吾尔语/r/辅音的声学特征分析   总被引:1,自引:1,他引:0  
根据语音合成与识别等语音应用研究的需求,从文本分析模块入手,利用"维吾尔语语音声学参数库",选择了包含辅音/r/的单音节以及多音节词,对其语图中弱短元音现象进行以实验语音学为出发点的研究。对声学参数进行统计,归纳其共振峰、音强和时长分布模式,得出了一系列结论,其目的是为了提高语音合成的自然度,即更好的为自然语言处理服务。本项研究结果对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。  相似文献   

13.
于宁  邓煜星 《电信科学》1999,15(1):37-39
本文介绍了通过SDH直接传送IP分组的方法-POS。文章详述了POS所涉及的两个主要问题:协议数据的封装,高速路由器的实现。文章还针对其它IP五ATM结合的方案,给出了POS技术几个突出的优点,即高效率,可扩展性和简单可靠,并结合数据运营商的实际,描绘了POS技术的应用前景。  相似文献   

14.
一种支持变化性的构件模型JBCOM/E   总被引:5,自引:0,他引:5       下载免费PDF全文
在基于构件的软件开发中,构件模型是基础,领域变化性是关键因素之一.为此,本文在原有构件模型的基础上,提出了抽象构件的概念,使之能对一族具有领域共性和变化性的构件进行定义与描述.文中就抽象构件的定义、规约语言描述以及相应的构件组装和构件管理等问题进行了讨论,定义了一种支持变化性的构件模型JBCOM/E,并给出了一个应用实例-青鸟POS领域平台.  相似文献   

15.
在参照信息技术术语词汇GB 5271系列标准的基础上,提出了信息技术常用术语的收集与筛选,维吾尔、哈萨克、柯尔克孜文信息技术术语的翻译规范原则,术语的维吾尔文、哈萨克文、柯尔克孜文翻译,以及编制维吾尔文、哈萨克文、柯尔克孜文信息技术常用术语标准方法。  相似文献   

16.
介绍现行维吾尔文编码字符集和拉丁文字符的对应关系,提出了维吾尔文与拉丁文之间的相互映射关系和转写规则。  相似文献   

17.
针对深度神经网络模型仅学习当前指代链语义信息忽略了单个指代链识别结果的长期影响问题,提出一种结合深度强化学习(deep reinforcement learning)的维吾尔语人称代词指代消解方法.该方法将指代消解任务定义为强化学习环境下顺序决策过程,有效利用之前状态中先行语信息判定当前指代链指代关系.同时,采用基于整体奖励信号优化策略,相比于使用损失函数启发式优化特定的单个决策,该方法直接优化整体评估指标更加高效.最后在维吾尔语数据集进行实验,实验结果显示,该方法在维吾尔语人称代词指代消解任务中的F值为85.80%.实验结果表明,深度强化学习模型能显著提升维吾尔语人称代词指代消解性能.  相似文献   

18.
基于无向图序列标注模型的中文分词词性标注一体化系统   总被引:3,自引:0,他引:3  
在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模型中。由于可以采用更深层次的依赖关系作为特征,一体化系统在1998年人民日报语料上取得了97.19%的分词精确率和95.34%的词性标注精确率,是目前同类系统,在这一语料上取得的最好结果。  相似文献   

19.
针对目前广泛应用的通过同步数字体系(Synchronous Digital Hierarchy,SDH)提供的高速传输通道直接传送IP分组(IP Over SONET/SDH,POS)技术,主要研究了POS的封装过程,分析了从POS信号中提取出IP包的实现过程,并提出了IP包提取的方法,使用Altera FPGA进行了设计实现。通过FPGA验证表明,设计能够完成从POS信号中提取IP包的功能,满足光纤通信中POS信号IP包提取的需求。  相似文献   

20.
介绍了一种基于国家标准的维哈柯文字库和输入法,该字库和输入法是方正新一代维哈柯文电子出版系统的一部分,有利于促进维哈柯文电子出版系统的升级和推广。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号