首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
李业刚  黄河燕  史树敏  鉴萍  苏超 《软件学报》2015,26(7):1615-1625
针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%.  相似文献   

2.
在电力系统中, 配电调度是一个复杂且统筹性较强的工作, 大多依赖于工作人员的经验和主观判断, 极易出现纰漏. 所以急需利用智能化手段来帮助检修计划的分析与生成. 命名实体识别是构建配电网知识图谱以及问答系统等任务的关键技术, 它能够将非结构化数据中的命名实体识别出来. 针对配电检修数据的复杂性及强关联性等特点, 本文采用BERT-IDCNN-BiLSTM-CRF深度学习模型. 该模型相较于传统的BERT-BiLSTM-CRF模型, 融入IDCNN神经网络模型, 更好地利用GPU的性能, 在保证识别准确率的前提下, 提高效率. 通过对标注好的检修计划数据进行训练, 并与其他常用模型对比, 在召回率、精确率以及F1值3个指标上, 本文提出的模型均达到最优的效果, F1值可以达到83.1%, 该模型在配电网数据识别任务上取得了很好的效果.  相似文献   

3.
目的 医学图像的像素级标注工作需要耗费大量的人力。针对这一问题,本文以医学图像中典型的眼底图像视盘分割为例,提出了一种带尺寸约束的弱监督眼底图像视盘分割算法。方法 对传统卷积神经网络框架进行改进,根据视盘的结构特点设计新的卷积融合层,能够更好地提升分割性能。为了进一步提高视盘分割精度,本文对卷积神经网络的输出进行了尺寸约束,同时用一种新的损失函数对尺寸约束进行优化,所提的损失公式可以用标准随机梯度下降方法来优化。结果 在RIM-ONE视盘数据集上展开实验,并与经典的全监督视盘分割方法进行比较。实验结果表明,本文算法在只使用图像级标签的情况下,平均准确识别率(mAcc)、平均精度(mPre)和平均交并比(mIoU)分别能达到0.852、0.831、0.827。结论 本文算法不需要专家进行像素级标注就能够实现视盘的准确分割,只使用图像级标注就能够得到像素级标注的分割精度。缓解了医学图像中像素级标注难度大的问题。  相似文献   

4.
由于遥感影像中建筑物种类繁多且与周围环境信息混淆,传统方法难以实现建筑物的准确高效提取.本文提出了一种基于改进Mask-RCNN的建筑物自动提取方法,利用PyTorch深度学习框架搭建改进Mask-RCNN网络模型架构,在网络的设计中添加了路径聚合网络和特征增强功能,通过监督和迁移学习的方式对Inria航空影像标签数据集进行多线程迭代训练与模型优化学习,实现了建筑物的自动精确分割和提取.基于不同开源数据集,分别与SVM、FCN、U-net和Mask-RCNN等建筑物提取算法进行对比,实验表明,本文方法可以高效准确、高效地提取建筑物,对于同一个数据集,提取结果的mAPmRecallmPrecisionF1分数这4个评价指标均优于对比算法.  相似文献   

5.
准确的命名实体识别是结构化电子病历的基础, 对于电子病历规范化编写有着重要的作用, 而现今的分词工具对于专业的医疗术语无法做到完全正确的区分, 使得结构化电子病历难以实现. 针对医疗实体识别中出现的问题, 本文提出了一种在命名实体识别领域中改进的BiLSTM-CRF深度学习模型. 模型将文字和标签结合作为输入, 在多头注意力机制中使模型关注更多的有用信息, BiLSTM对输入进行特征提取, 得到每个文字在所有标签上的概率, CRF在训练过程中学习到数据集中的约束, 进行解码时可以提高结果的准确率. 实验使用人工标注的1000份电子病历作为数据集, 使用BIO标注方式. 从测试集的结果来看, 相对于传统的BiLSTM-CRF模型, 该模型在实体类别上的F1值提升了3%–11%, 验证了该模型在医疗命名实体识别中的有效性.  相似文献   

6.
当前的英文语法纠错模型往往忽略了有利于语法纠错的文本句法知识, 从而使得英语语法纠错模型的纠错能力受到影响. 针对上述问题, 提出一种基于差分融合句法特征的英语语法纠错模型. 首先, 本文提出的句法编码器不仅可以直接从文本中无监督地生成依存关系图和成分句法树信息, 而且还能将上述两种异构的句法结构进行特征融合, 编码成高维的句法表征. 其次, 为了同时利用文本中的语义和句法信息, 差分融合模块先使用差分正则化加强语义编码器捕获句法编码器未能生成的语义特征, 然后采用协同注意力将句法表征和语义表征进一步融合, 作为Transformer编码端的输出特征, 最终输入到解码端, 从而生成语法正确的文本. 在CoNLL-2014 英文纠错任务数据集上进行对比实验, 结果表明, 该方法的准确率和F0.5值优于基于Copy-Augmented Transformer的语法纠错模型, 其F0.5值提升了5.2个百分点, 并且句法知识避免了标注数据过少问题, 具有更优的文本纠错效果.  相似文献   

7.
基于CRFs模型的敏感话题识别研究   总被引:1,自引:0,他引:1  
条件随机场(CRFs)是一种判别式概率无向图学习模型,将其引入敏感话题识别中,提出了基于CRFs模型的敏感话题识别方法。将随机挑选出的一篇待检测文本s和剩余的待检测文本分别作为CRFs模型的观察序列和状态序列来计算文本s和其余待检测文本间的相关性概率值;然后将相关性最高的那篇文本和文本s合并表征一个类别;同时,将相关性最低的那篇文本作为另一个类别,将这两个类别作为CRFs模型新的状态序列,剩余的待检测文本作为新的观察序列进行迭代,据此实现敏感话题的识别。在数据集上进行的实验中,该方法的耗费函数的值为0.01943,宏平均F度量的值为0.8235,都取得了很好的效果。  相似文献   

8.
Trace 演算   总被引:7,自引:4,他引:3  
黄涛  钱军  倪彬 《软件学报》1999,10(8):790-799
文章定义了基于踪迹(trace)的逻辑语言LTrace,它是一阶线性时序逻辑语言的扩充,同时也是“对象演算”研究工作的基础.Trace演算所述的“对象”用来刻画具有内部状态和外部行为的动态实体,语法上由对象标记表示.对象标记Ω=(S,F,A,E)包含4个部分:数据类型S、函数F、属性A和动作E.Σ=(S,F)构成通常代数规范意义下的标记,可将动作看成一广义数据类型,从而得到标记Σ的动作扩充ΣE.对象标记的语义解释结构由关于标记ΣE的代数、映射和动作与踪迹的关系定义.ΣE-代数给出关于数据参数的解释;映射给出属性在动作踪迹中所取的值;而动作与踪迹的关系则给出执行一有限踪迹以后该动作是否允许执行.在定义了Trace演算的语法和语义之后,文章给出了Trace演算的公理系统及其可靠性证明.  相似文献   

9.
王小云  周大水 《软件学报》1996,7(Z1):279-283
单向Hash函数已成为密码学的一个重要组成部分.给定任一定长单向Hash函数f:∑m→∑t,m>t,本文给出了利用f构造一单向Hash函数F的一种新方法,该方法易于并行化.  相似文献   

10.
一种基于Messy GA的结构测试数据自动生成方法   总被引:10,自引:0,他引:10  
薛云志  陈伟  王永吉  赵琛  王青 《软件学报》2006,17(8):1688-1697
结构性测试是标识测试用例的基本方法之一.由于程序语言的复杂性以及被测程序的多样性,自动生成结构测试数据的一种有效方法是根据程序运行结果指导生成过程,通过不断迭代,生成符合要求的测试数据集.提出一种基于Messy GA的结构测试数据自动生成方法,将测试覆盖率表示为测试输入集X的函数F(X),并利用Messy GA不需要染色体模式排列的先验知识即可进行优化求解的性质对F(X)进行迭代寻优,进一步提高了搜索的并行性,并最终提高测试覆盖率.对一组标准测试程序和若干实际应用程序的实验结果表明,较之现有基于遗传算法的生成方法,该方法能够以更高的效率生成更高质量的测试数据,并适用于较大规模的程序.  相似文献   

11.
隐马尔科夫支持向量机(HMSVM)是一种新颖的结构化支持向量机模型,该模型在序列标注学习任务比如英文组块分析中的有效性已经被证明,将该模型用于中文浅层句法分析识别任务,实验结果表明,该模型获得了较好的准确率和召回率。  相似文献   

12.
We investigate the complexity of learning for the well-studied model in which the learning algorithm may ask membership and equivalence queries. While complexity theoretic techniques have previously been used to prove hardness results in various learning models, these techniques typically are not strong enough to use when a learning algorithm may make membership queries. We develop a general technique for proving hardness results for learning with membership and equivalence queries (and for more general query models). We apply the technique to show that, assuming , no polynomial-time membership and (proper) equivalence query algorithms exist for exactly learning read-thrice DNF formulas, unions of halfspaces over the Boolean domain, or some other related classes. Our hardness results are representation dependent, and do not preclude the existence of representation independent algorithms.?The general technique introduces the representation problem for a class F of representations (e.g., formulas), which is naturally associated with the learning problem for F. This problem is related to the structural question of how to characterize functions representable by formulas in F, and is a generalization of standard complexity problems such as Satisfiability. While in general the representation problem is in , we present a theorem demonstrating that for "reasonable" classes F, the existence of a polynomial-time membership and equivalence query algorithm for exactly learning F implies that the representation problem for F is in fact in co-NP. The theorem is applied to prove hardness results such as the ones mentioned above, by showing that the representation problem for specific classes of formulas is NP-hard. Received: December 6, 1994  相似文献   

13.
Linear kernel support vector machines (SVMs) using either $L_{1}$ -norm or $L_{2}$ -norm have emerged as an important and wildly used classification algorithm for many applications such as text chunking, part-of-speech tagging, information retrieval, and dependency parsing. $L_{2}$ -norm SVMs usually provide slightly better accuracy than $L_{1}$ -SVMs in most tasks. However, $L_{2}$ -norm SVMs produce too many near-but-nonzero feature weights that are highly time-consuming when computing nonsignificant weights. In this paper, we present a cutting-weight algorithm to guide the optimization process of the $L_{2}$ -SVMs toward a sparse solution. Before checking the optimality, our method automatically discards a set of near-but-nonzero feature weight. The final objects can then be achieved when the objective function is met by the remaining features and hypothesis. One characteristic of our cutting-weight algorithm is that it requires no changes in the original learning objects. To verify this concept, we conduct the experiments using three well-known benchmarks, i.e., CoNLL-2000 text chunking, SIGHAN-3 Chinese word segmentation, and Chinese word dependency parsing. Our method achieves 1–10 times feature parameter reduction rates in comparison with the original $L_{2}$ -SVMs, slightly better accuracy with a lower training time cost. In terms of run-time efficiency, our method is reasonably faster than the original $L_{2}$ -regularized SVMs. For example, our sparse $L_{2}$ -SVMs is 2.55 times faster than the original $L_{2}$ -SVMs with the same accuracy.  相似文献   

14.
针对医疗领域的研究,发现了不同科室间电子病历存在着差异,但是新语料的标注成本又非常高。为了解决这一问题,利用迁移学习的方法在中文电子病历中进行跨科室组块分析的研究。在构建的中文电子病历中,对比了SSVM与CRF模型在词性标注和组块分析上的实验结果,发现SSVM模型的效果更好并选择该模型作为基本标注模型。此外,使用了改进的结构对应学习算法(SCL)进行组块分析,使得该算法能适用于SSVM模型进行领域适应。实验结果表明该算法有效地改善了序列标注任务中跨科室的领域适应性问题。  相似文献   

15.
Ai  Xusheng  Sheng  Victor S.  Fang  Wei  Ling  Charles X. 《Multimedia Tools and Applications》2020,79(33-34):24281-24301

In an early complain warning system, we encounter a common problem - the lack of angry emotions for training classification models. Moreover, the recognition of angry emotion is more important than that of no-anger emotion. Based on this, the main purpose of this paper is to train an optimal model which achieves a high recall above a lower bound and a maximum of F1 score. It is divided into three aspects: 1) A variant of F1 score (TF1 score) takes recall above a lower bound and F1 score into consideration; 2) A Single Emotion Deep Neural Network (SEDNN) and its training process are designed to find an optimal model with a maximum of TF1 score. 3) A performance comparison of different methods is conducted on IEMOCAP and Emo-DB database. Extensive experiments show that when a BCE loss function or a focal loss function is used, the training process can find a model with a recall above a high threshold and a maximum of F1 score. Especially, SEDNN with the focal loss function performs better than SEDNN with the BCE loss function.

  相似文献   

16.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

17.
《Knowledge》2007,20(3):209-219
In this paper, we proposed an efficient and accurate text chunking system using linear SVM kernel and a new technique called masked method. Previous researches indicated that systems combination or external parsers can enhance the chunking performance. However, the cost of constructing multi-classifiers is even higher than developing a single processor. Moreover, the use of external resources will complicate the original tagging process. To remedy these problems, we employ richer features and propose a masked-based method to solve unknown word problem to enhance system performance. In this way, no external resources or complex heuristics are required for the chunking system. The experiments show that when training with the CoNLL-2000 chunking dataset, our system achieves 94.12 in F(β) rate with linear. Furthermore, our chunker is quite efficient since it adopts a linear kernel SVM. The turn-around tagging time on CoNLL-2000 testing data is less than 50 s which is about 115 times than polynomial kernel SVM.  相似文献   

18.
19.
正未标记学习仅使用无标签样本和正样本训练一个二分类器, 而生成式对抗网络(generative adversarial networks, GAN)中通过对抗性训练得到一个图像生成器. 为将GAN的对抗训练方法迁移到正未标记学习中以提升正未标记学习的效果, 可将GAN中的生成器替换为分类器C, 在无标签数据集中挑选样本以欺骗判别器D, 对CD进行迭代优化. 本文提出基于以Jensen-Shannon散度(JS散度)为目标函数的JS-PAN模型. 最后, 结合数据分布特点及现状需求, 说明了PAN模型在医疗诊断图像二分类应用的合理性及高性能. 在MNIST, CIFAR-10数据集上的实验结果显示: KL-PAN模型与同类正未标记学习模型对比有更高的精确度(ACC)及F1-score; 对称化改进后, JS-PAN模型在两个指标上均有所提升, 因此JS-PAN模型的提出更具有合理性. 在Med-MNIST的3个子图像数据集上的实验显示: KL-PAN模型与4个benchmark有监督模型有几乎相同的ACC, JS-PAN也有更高表现. 因此, 综合PAN模型的出色分类效果及医疗诊断数据的分布特征, PAN作为半监督学习方法可获得更快、更好的效果, 在医学图像的二分类的任务上具有更高的性能.  相似文献   

20.
与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法.通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别中取得了较好的效果.实验结果表明.组合后的分类器无论在准确率还是召回率上都有所提高,在哈尔滨工业大学树库语料的测试下达到了F=93.64的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号