排序方式: 共有36条查询结果,搜索用时 0 毫秒
21.
22.
在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal Redundancy Principle,MRP)的特征选取方法。通过考虑不同特征之间的相关性,选择较小冗余度的特征子集。实验结果显示基于最小冗余原则方法能够改善特征选取的效果,提高文本分类的性能。 相似文献
23.
基于FIFA算法的文本分类 总被引:9,自引:0,他引:9
本文提出了一种简单有效的文本分类方法,其中采用基于FIFA算法的内容主题分析技术,实现文本的自动分类过程。文中详细论述了文本自动分类的基本过程和FIFA算法描述,最后给出了文本自动分类的实验结果和评价。 相似文献
24.
数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIA TITAN X (Pascal) GPU设备在循环神经语言模型上进行训练,两种方法分别可获得约25%和41%的速度提升。同时,该文还针对数据并行方法的适用性以及不同的硬件设备连接方式对传输速度的影响进行了讨论。 相似文献
25.
本文以DOP理论作为语言现象的描述基础,以英汉机译为背景,对面向数据的英汉机译方法进行深入研究.其中,不仅提出一种基于DOP技术的源语组合分析模式,而且建立了相对应的目标语生成机制.前者以DOP技术作为基本框架,通过源语语句片段组合形式的获取以及基于相似的概率评估,完成整个分析过程.而后者基于传统上主要应用于分析过程的DOP技术,通过对分析结果进行线性化操作,最终生成目标语译文.实验表明,目标语译文质量比较令人满意,可成功实现英汉机译. 相似文献
26.
该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨论和说明。针对数据泛化的处理方法,提出了一致性检测方法和解码优化方法。由于标准的神经机器翻译模型以词汇为基础进行翻译建模,因此该文提出了一种规模可控的短语生成方法,通过使用该文方法生成的源语言短语,神经机器翻译的翻译性能进一步提高。最终,在汉英和英汉翻译任务上,翻译性能与基线翻译系统相比分别提高了1.3和1.2个BLEU值。 相似文献
27.
基于对数模型的词义自动消歧 总被引:9,自引:0,他引:9
提出了一种对数模型(logarithmmodel,简称LM),构造了一个词义自动消歧系统LM-WSD(wordsensedisambiguationbasedonlogarithmmodel).在词义自动消歧实验中,构造了4种计算模型进行词义消歧,根据4个计算模型的消歧结果,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响.目前,该词义自动消歧系统LM-WSD已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能. 相似文献
28.
基于DOP的汉语句法分析技术 总被引:2,自引:1,他引:2
本文提出一种以DOP技术作为基本框架,同时利用基于相似的概率评估技术,实现汉语句法分析的方法。其中,对于输入语句,首先需要经过词汇层与词性层两层初选。然后,基于已构建知识源,获取输入语句的片段组合形式。最后,对输入语句与初选结果进行相似性评估,完成输入语句的组合分析过程。为论证方法有效性,基于包含1000个语句的真实汉语语料构建知识源,并采用包含100个语句的真实汉语语料作为测试集。实验表明,句法分析的各项指标都比较令人满意,可有效地实现汉语句法分析。 相似文献
29.