共查询到20条相似文献,搜索用时 140 毫秒
1.
2.
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用. 相似文献
3.
本文首先给出了可训练语音合成系统架构,然后结合维吾尔语自身的特点,研究了其在维吾尔语音合成中的应用,给出了可训练语音合成系统训练部分所需数据准备,包括文本收集,录制、音素列表的确定,不带时间和带时间标注、问题集和上下文属性集的设计等.并利用通用工具HTS进行了测试,结果表明本文技术路线的可行性和所准备数据的有效性. 相似文献
4.
5.
在众包学习中,使用标记集成算法得到的集成标记中仍然存在一定程度的标记噪声.本文受三重训练思想的启发,提出了一种基于tri-training的众包标记噪声纠正算法(Tri-Training-based Label Noise Correction,TTLNC).TTLNC首先使用过滤器获得干净集和噪声集,然后在干净集上进行bagging分别训练三个不同的分类器,并通过这些分类器重新标注噪声集中的实例,同时按照实例分配策略将实例分配给相应的训练集.最后在新训练集上重新训练三个不同的分类器,并用新分类器的分类结果重新标注所有实例.在仿真标准数据和真实众包数据集上的实验结果表明TTLNC比其他四种最先进的噪声纠正算法在噪声比和模型质量两个度量指标上表现更优. 相似文献
6.
命名实体识别在自然语言处理实践中具有高度重要的作用,而且也是信息提取等各种自然语言方式的基础工具.本文采用条件随机场模型(Conditional Random Fields,CRF)对维吾尔语音乐实体识别进行初步的探讨.首先维吾尔语网站上收集数据,进行一系列预处理后得到纯文本,然后制定语料标注规则对实体进行人工标注,再利用上下文、关键字、词典等一系列特征进行训练,制定一个适合的模板来进行音乐实体的识别.实验结果证明,此方法在维吾尔语音乐领域不仅可行、而且有效. 相似文献
7.
针对基于有监督学习的依存句法分析模型的研究现状与进展进行了总结。重点综述了标注语料匮乏、特征选择与提取、模型一体化三个问题的相关研究内容。首先,详细介绍人们借助依存关系映射和主动学习摆脱标注语料匮乏困境的相关研究;其次,重点总结了不同特征对构建依存句法分析模型的贡献,例如句子级特征、词类别特征、语言形态特征和高阶特征等;最后,分析了依存句法分析模型一体化的优势与不足;此外,详细总结了如何借助该类模型解决事件抽取、产品评论分析和舆情分析等问题。 相似文献
8.
结合维吾尔语的语音特征和语义信息,在大量电话语音语料库的基础上,以建立维吾尔语连续音素识别平台为目标,通过构建隐马尔科夫模型工具HTK(Hidden Markov Model Toolkit)工具实现了维吾尔语连续音素识别算法:首先根据具体技术指标完成了较大规模电话语音语料库的录制和标注工作;确定音素为基元,通过训练获得了每个音素的HMM(Hidden Markov Model)声学模型,随后对输入的语音进行识别,声学模型在不同的高斯混合数目下,得出了识别结果;统计了32个音素的识别率并对它进行分析,为了进一步提高识别率奠定了基础。 相似文献
9.
文本序列的自动标注能够解决深度学习普遍面临的人工标注成本过高的问题.本文针对地址信息的实体表述特征,构建基于实体边界矩阵(Entity Boundary Matrix,EBM)的表示模型,在此基础上提出了一种基于深度学习和KNN标签修正算法(K-Nearest Neighbours Correction Algorithm,KNN-CA)的不需要任何人工标注训练集的自动标注算法.首先获取预置小区数据集并构建离线特征库和初始化在线特征库;接着通过匹配算法求解EBM并利用KNN-CA进行优化,再通过数据增广得到自动标注的训练集;然后训练BiLSTM-CRF深度学习模型并预测所有未曾标注的地址信息的序列标注;最后再次利用KNN-CA优化可求解EBM的序列标注,由此构建适用于中文地理命名实体(Chinese Geospatial Named Entities,CGSNE)识别及相关研究的序列标注语料库.实验表明,标注数据的F1值达到了95.35%. 相似文献
10.
基于条件随机场的汉语词性标注 总被引:1,自引:0,他引:1
近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优. 相似文献
11.
一种新颖的词性标注模型 总被引:4,自引:4,他引:0
文章首次提出一种统计模型,即马氏族模型,该模型假定一个词出现概率既与当前词的词性标记有关,也与它前面的词有关,但其前面的词和该词词性标记关于该词条件独立.将马氏族模型适当加以简化,能成功地用于词性标记,实验结果证明:在相同的测试条件下,这种基于马氏族模型的词性标注方法标记成功率大大高于传统的基于隐马尔可夫模型的词性标注方法.马氏族模型在其它一些自然语言处理领域如分词、句法分析、语音识别、机器翻译也有广泛的应用前景. 相似文献
12.
维吾尔语/r/辅音的声学特征分析 总被引:1,自引:1,他引:0
根据语音合成与识别等语音应用研究的需求,从文本分析模块入手,利用"维吾尔语语音声学参数库",选择了包含辅音/r/的单音节以及多音节词,对其语图中弱短元音现象进行以实验语音学为出发点的研究。对声学参数进行统计,归纳其共振峰、音强和时长分布模式,得出了一系列结论,其目的是为了提高语音合成的自然度,即更好的为自然语言处理服务。本项研究结果对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。 相似文献
13.
本文介绍了通过SDH直接传送IP分组的方法-POS。文章详述了POS所涉及的两个主要问题:协议数据的封装,高速路由器的实现。文章还针对其它IP五ATM结合的方案,给出了POS技术几个突出的优点,即高效率,可扩展性和简单可靠,并结合数据运营商的实际,描绘了POS技术的应用前景。 相似文献
14.
15.
在参照信息技术术语词汇GB 5271系列标准的基础上,提出了信息技术常用术语的收集与筛选,维吾尔、哈萨克、柯尔克孜文信息技术术语的翻译规范原则,术语的维吾尔文、哈萨克文、柯尔克孜文翻译,以及编制维吾尔文、哈萨克文、柯尔克孜文信息技术常用术语标准方法。 相似文献
16.
17.
针对深度神经网络模型仅学习当前指代链语义信息忽略了单个指代链识别结果的长期影响问题,提出一种结合深度强化学习(deep reinforcement learning)的维吾尔语人称代词指代消解方法.该方法将指代消解任务定义为强化学习环境下顺序决策过程,有效利用之前状态中先行语信息判定当前指代链指代关系.同时,采用基于整体奖励信号优化策略,相比于使用损失函数启发式优化特定的单个决策,该方法直接优化整体评估指标更加高效.最后在维吾尔语数据集进行实验,实验结果显示,该方法在维吾尔语人称代词指代消解任务中的F值为85.80%.实验结果表明,深度强化学习模型能显著提升维吾尔语人称代词指代消解性能. 相似文献
18.
19.
20.
介绍了一种基于国家标准的维哈柯文字库和输入法,该字库和输入法是方正新一代维哈柯文电子出版系统的一部分,有利于促进维哈柯文电子出版系统的升级和推广。 相似文献