排序方式: 共有57条查询结果,搜索用时 11 毫秒
1.
2.
汉语的基本块识别是汉语句法语义自动分析中的重要任务之一。传统的方法大多数直接将汉语基本块识别任务转化成词层面的一个序列标注问题,采用CRF模型来处理。虽然,在许多评测中得到最好的结果,但基于词为标注单位,在实用中受限于自动分词系统以及汉语词特征的稀疏性。为此,该文给出了一种以字为标注单位,以字为原始输入层,来构建汉语的基本块识别的深层神经网络模型,并通过无监督方法,学习到字的C&W和word2vec两种分布表征,将其作为深层神经网络模型的字的表示层的初始输入参数来强化模型参数的训练。实验结果表明,使用五层神经网络模型,以[-3,3]窗口的字的word2vec分布表征,其准确率、召回率和F值分别达到80.74%,73.80%和77.12%,这比基于字的CRF高出约5%。这表明深层神经网络模型在汉语的基本块识别中是有作用的。 相似文献
3.
通常给定超参数的若干取值选取性能最大的为最优组合(称为直接选优法),但是此方法的稳健性差。为此,提出了一种基于稳健设计的超参数调优方法(称为稳健调优法)。具体地,以SGNS算法中的超参数调优为例,在词语推断任务上实验并得出:经方差分析得到SGNS算法中的七个超参数中的五个对算法预测性能有显著影响,确定为主控因子,其余两个确定为噪声因子,且主控因子中有三个对性能估计的方差有显著影响,因此,调优中仅从期望最大来直接选优是不合理的;稳健调优法与直接选优法两者在预测性能上没有显著差异,但稳健调优法对噪声因子具有较好的稳健性。稳健调优法对一般的深度神经网络的调参有实际的借鉴意义。 相似文献
4.
5.
将生命周期思想引入农业用水增值研究,提出农业用水具有"开发—利用—废弃"的生命周期,各阶段既相互独立,又相互联系。探讨生命周期条件下农业用水增值理论,既要考虑各个阶段的增值,又要考虑其耦合增值。构建农业用水增值模型,研究生命周期条件下农业用水增值的模式与途径。为提高农业用水的利用率和利用效率,增加农业用水的产品和服务价值,实现农业用水增值奠定理论基础。 相似文献
6.
7.
该文以字为基本标注单位,构建了一种汉语基本块识别的神经网络学习模型。模型联合分词任务的神经网络学习模型与基本块识别任务模型,将分词任务模型中学习得到的隐层特征融入基本块识别的模型中,两模型相互交替优化学习模型参数,并实现了以整句似然函数(而非单字似然函数)作为优化目标的算法。实验结果表明:1)以整句似然函数为优化目标的基本块识别的F值比单字似然情形要高出1.33%,特别是在多字块识别中,其召回率比单字似然情形要高出4.68%;2)融合分词任务模型中的隐层特征的汉语基本块识别模型的结果比不做融合的模型要高出2.17%,说明融合分词隐层特征的交替联合学习方法是有效的。 相似文献
8.
面向文本数据建模时,交叉验证方法是特征选择及模型比较任务中的常用方法。许多研究表明,文本数据模型的性能估计对交叉验证的数据切分方式较为敏感,不合理的切分方式可能会导致不稳定的性能估计值,使得实验结果可复现性差。该文试图论证基于多次重复(m次)的2折交叉验证,通过引入对训练集、验证集分布差异的约束,所构造的正则化m×2交叉验证方法(简记为m×2 BCV)可以改善模型的性能指标的估计,适宜于模型比较。该文首先针对文本数据引入训练集与验证集分布差异的卡方度量,基于该度量构建数据切分的正则化条件,以最大化模型性能指标的信噪比为目标,给出了满足正则化条件的m×2 BCV的数据切分优化算法。最后,以自然语言处理中汉语框架语义角色标注任务为例,验证了基于m×2 BCV方法的有效性。 相似文献
9.
超参数调优是神经网络建模的关键问题。针对传统的超参数调优方法存在的问题,该文提出了一种基于m×2正则化交叉验证的超参数调优方法。目的是给出一种适用于复杂模型、大数据集背景下的计算开销较小且稳健的超参数调优方法。该方法的思想是从完整的数据集上选取少部分数据进行调优,避免模型在数据集较大时非常耗时的超参数调优难题;在m×2交叉验证的基础上设置正则化条件均衡训练集与验证集之间的分布差异,从而减少分布不一致带来的性能波动;使用信噪比作为调优的优化目标,从而可以综合考虑模型性能评价指标的均值和方差;并采用正交设计选择相关性较低的超参数组合以提高调优效率。以命名实体任务为例进行实验,在CoNLL 2003数据集上的实验结果显示,提出的调优方法能够选到和网格搜索性能上没有显著差异的超参数组合,且调优时间可显著降低约66%。 相似文献
10.