排序方式: 共有36条查询结果,搜索用时 15 毫秒
31.
基于Bootstrapping的文本分类模型 总被引:1,自引:3,他引:1
本文提出一种基于Bootstrapping 的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping 的文本分类模型具有明显优势,仅使用每类100 篇种子训练集,分类结果的F1 值为70156 % ,比传统模型高出4170 %。该模型通过使用适当的权重因子可以更好改善分类器的训练效果。 相似文献
32.
33.
为了解决在构建统计机器翻译系统过程中所面临的双语平行数据缺乏的问题,该文提出了一种新的基于中介语的翻译方法,称为Transfer-Triangulation方法。该方法可以在基于中介语的翻译过程中,结合传统的Transfer方法和Triangulation方法的优点,利用解码中介语短语的方法改进短语表。该文方法是在使用英语作为中介语的德-汉翻译任务中进行评价的。实验结果表明,相比于传统的基于中介语方法的基线系统,该方法显著提高了翻译性能。 相似文献
34.
基于DOP的汉语句法分析技术 总被引:3,自引:1,他引:2
本文提出一种以DOP技术作为基本框架,同时利用基于相似的概率评估技术,实现汉语句法分析的方法。其中,对于输入语句,首先需要经过词汇层与词性层两层初选。然后,基于已构建知识源,获取输入语句的片段组合形式。最后,对输入语句与初选结果进行相似性评估,完成输入语句的组合分析过程。为论证方法有效性,基于包含1000个语句的真实汉语语料构建知识源,并采用包含100个语句的真实汉语语料作为测试集。实验表明,句法分析的各项指标都比较令人满意,可有效地实现汉语句法分析。 相似文献
35.
从本质上说,机器翻译过程是一个多层次消歧过程。介词短语修饰歧义是导致机器翻译中结构歧义的典型原因之一。本文构造了一个基于类似最大似然估计的介词短语修饰消歧模型。该模型利用了词汇的下位词性、语义分类和短语结构信息,同时考虑了低概率事件。利用关于汽车配件的真实语料进行训练该模型,真实训练语料库包括大约 100000个句子,其中构造了大约 3000个测试例子,测试结果获得了 93%的准确率。该消歧技术应用在汽车配件真实受控文本机器翻译系统中,取得了很好的效果。 相似文献
36.
与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法.通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别中取得了较好的效果.实验结果表明.组合后的分类器无论在准确率还是召回率上都有所提高,在哈尔滨工业大学树库语料的测试下达到了F=93.64的结果. 相似文献