首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于链式条件随机场模型的序列标注中文分词方法随着中文分词评测Bakeoff的展开得到广泛应用。词位标注集和特征模板集对该模型的学习至关重要,但当前的研究大多采用单一的标注集和特征模板集进行实验,缺乏标注集和特征模板集结合的尝试,使得中文分词中未登录词识别率不高,从而影响互联网领域语料的分词效果。首次采用六词位标注集结合TMPT-10和TMPT-10`特征模板,并与常见标注集和特征模板集的组合在Bakeoff语料上进行实验对比,结果表明,改进的方法 6tag-tmpt10取得更好的未登录词召回率,在互联网领域中文分词能取得很好的效果;同时在F值上也与其他最好结果相当。  相似文献   

2.
当前主流的中文分词方法是基于字标注的传统机器学习的方法。但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且仅利用CPU训练模型时间长的缺点。针对以上问题,进行了研究提出基于LSTM(Long Short-Term Memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比,结果表明:基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理(NLP)中序列标注的任务。  相似文献   

3.
《软件》2019,(2):1-5
传统的中文分词方法是一种基于单词标注的传统机器学习方法,但学习方法需要人工配置和提取中文文本的特征。缺点是同义词库维度较高且CPU训练模型较长。本文针对以上问题进行了研究,构建了内嵌条件随机场的长短时神经网络模型,使用长短时神经网络隐含层的上下文向量作为输出层标注的特征,使用内嵌的条件随机场模型表示标注之间的约束关系采用双向LSTM和CRF相结合的训练方法进行特定领域知识点的中文分词。对中文分词测试常用语料库的实验比较表明,基于BLSTM和CRF网络模型的方法可以获得比传统机器学习方法更好的性能;使用六字标记并添加预训练的字嵌入向量可以实现相对较好的分词性能;BLSTM-CRF网络模型方法更易于推广并应用于其他自然语言处理中的序列标注任务。  相似文献   

4.
中文分词是中文信息处理的基础,也是很多中文应用首先要面对的问题。目前效果最好的分词模型是词位标注法,该方法需要使用一个分类器对每个汉字的位置进行判定。基于统计学习理论的支持向量机较好地解决小样本、非线性、高维数和局部极小点等实际问题,被公认为是优秀的机器学习方法和分类算法。实现一个基于支持向量机的中文分词系统,并在实验中取得较好的结果,证明支持向量机适用于中文分词时的词位标注问题。  相似文献   

5.
中文分词是中文信息处理的基础,也是很多中文应用首先要面对的问题。目前效果最好的分词模型是词位标注法,该方法需要使用一个分类器对每个汉字的位置进行判定。基于统计学习理论的支持向量机较好地解决小样本、非线性、高维数和局部极小点等实际问题,被公认为是优秀的机器学习方法和分类算法。实现一个基于支持向量机的中文分词系统,并在实验中取得较好的结果,证明支持向量机适用于中文分词时的词位标注问题。  相似文献   

6.
分词是藏文信息处理的基础性关键问题,是把连续的藏文音节序列组合成词序列的过程.针对藏文分词中的特殊问题,把藏文分词问题看成判断音节在词中的位置过程,分别实现了基于最大熵、条件随机场、最大间隔Markov网络模型等模型下的分词系统,并在同等条件下进行了实验对比.实验结果表明,在当前四字位的标注集下,基于条件随机场的藏文分词系统取得了最好的分词结果,同时其他序列标注模型也取得了较好的效果,说明基于音节标注的分词方法可以较为有效地处理藏文分词问题.  相似文献   

7.
上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,当前字的词位标注需要借助于该字的上下文来确定。为克服仅凭主观经验给出猜测结果的不足,采用四词位标注集,使用条件随机场模型研究了词位标注汉语分词中上文和下文对分词性能的贡献情况,在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,下文对分词性能的贡献比上文的贡献高出13个百分点以上。  相似文献   

8.
刘春丽  李晓戈  刘睿  范贤  杜丽萍 《计算机应用》2016,36(10):2794-2798
为提高中文分词的准确率和未登录词(OOV)识别率,提出了一种基于字表示学习方法的中文分词系统。首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用K-means聚类算法将词向量聚类,并将聚类结果作为条件随机场(CRF)模型的特征进行训练;最后基于该语言模型进行分词和未登录词识别。对词向量的维数、聚类数及不同聚类算法对分词的影响进行了分析。基于第四届自然语言处理与中文计算会议(NLPCC2015)提供的微博评测语料进行测试,实验结果表明,在未利用外部知识的条件下,分词的F值和OOV识别率分别达到95.67%和94.78%,证明了将字的聚类特征加入到条件随机场模型中能有效提高中文短文本的分词性能。  相似文献   

9.
事件抽取是自然语言处理中信息抽取的关键任务之一。事件检测是事件抽取的第一步,事件检测的目标是识别事件中的触发词并为其分类。现有的中文事件检测存在由于分词造成的误差传递,导致触发词提取不准确。将中文事件检测看作序列标注任务,提出一种基于预训练模型与条件随机场相结合的事件检测模型,采用BIO标注方法对数据进行标注,将训练数据通过预训练模型BERT得到基于远距离的动态字向量的触发词特征,通过条件随机场CRF对触发词进行分类。在ACE2005中文数据集上的实验表明,提出的中文事件检测模型与现有模型相比,准确率、召回率与F1值都有提升。  相似文献   

10.
实现一个基于条件随机场模型的中文分词工具,同时还提出利用多系统组合来提升中文分词成绩的构想,并用实验数据分析几个系统整合后所具有的分词眷力.实现几个系统的整合并将分词最好的成绩提高0.56个百分点.  相似文献   

11.
As a powerful sequence labeling model, conditional random fields (CRFs) have had successful applications in many natural language processing (NLP) tasks. However, the high complexity of CRFs training only allows a very small tag (or label) set, because the training becomes intractable as the tag set enlarges. This paper proposes an improved decomposed training and joint decoding algorithm for CRF learning. Instead of training a single CRF model for all tags, it trains a binary sub-CRF independently for each tag. An optimal tag sequence is then produced by a joint decoding algorithm based on the probabilistic output of all sub-CRFs involved. To test its effectiveness, we apply this approach to tackling Chinese word segmentation (CWS) as a sequence labeling problem. Our evaluation shows that it can reduce the computational cost of this language processing task by 40-50% without any significant performance loss on various large-scale data sets.  相似文献   

12.
In this paper, we introduce a unified framework to construct entanglement-assisted quantum error-correcting codes (QECCs), including additive and nonadditive codes, based on the codeword stabilized (CWS) framework on subsystems. The CWS framework is a scheme to construct QECCs, including both additive and nonadditive codes, and gives a method to construct a QECC from a classical error-correcting code in standard form. Entangled pairs of qubits (ebits) can be used to improve capacity of quantum error correction. In addition, it gives a method to overcome the dual-containing constraint. Operator quantum error correction (OQEC) gives a general framework to construct QECCs. We construct OQEC codes with ebits based on the CWS framework. This new scheme, entanglement-assisted operator codeword stabilized (EAOCWS) quantum codes, is the most general framework we know of to construct both additive and nonadditive codes from classical error-correcting codes. We describe the formalism of our scheme, demonstrate the construction with examples, and give several EAOCWS codes  相似文献   

13.
大规模RFID应用需要高效的检测协议对RFID标签集合进行管理,而现有的高效检测协议大都基于帧时隙ALOHA方法。为此在总结已有文献中对于标签集合检测协议的不同描述的基础上,提出了基于帧时隙ALOHA的RFID标签集合检测协议框架:分析了协议时间度量、丢失率估算、已识别标签处理和最优检测效率问题等协议框架中的基本问题,总结了迭代识别、短响应时隙和随机响应三种典型的优化方法。针对基本的帧时隙ALOHA检测协议,本文进一步利用上述三种方法进行优化,并通过仿真实验对其效率进行了分析对比。实验结果表明,综合利用三种优化方法的协议检测效率高于已知最高检测效率的IIPS-CM协议。  相似文献   

14.
针对移动射频识别系统中的安全问题,采用物理不可克隆函数研究适用于大规模RFID系统的移动认证协议。为解决移动RFID认证环境下读写器易遭受假冒攻击的问题,在Vaudenay模型中加入攻击者入侵读写器的能力,并通过服务器对读写器的身份认证来抵御攻击者的假冒攻击;为解决标签的运算能力不足问题和服务器搜索标签耗时长的问题,采用PUF生成会话密钥来减轻标签加密过程中的运算量,服务器通过共享密钥异或运算实现对检索标签和读写器身份标识的快速检索。利用Vaudenay模型理论,分析和证明了研究的协议可实现Destructive等级的隐私保护;仿真结果表明,PMLS协议中服务器的搜索耗时不随标签数目增长而加长,满足大规模移动RFID系统的应用要求。  相似文献   

15.
研究被动射频识别(RFID)系统中多目标识别环境下被识别目标数量的估计算法和最大吞吐率的获取方法。通过对时隙ALOHA方法的分析,建立了读写器和标签通信的二项式分布模型,得到了获取最大吞吐率的条件:在已知被识别目标数量的前提下,使时隙数与目标数量相等。提出一种被识别目标数量的估计算法——二次式分布估计(BDE)算法。BDE算法估计误差抖动小,平均误差为2.1%。仿真结果表明BED算法在识别目标数量少时,能将识别时间缩短至50%,当识别目标增加时,识别时间呈线性增长;系统吞吐率接近理论最大值,达到34%;空白时隙和碰撞时隙占时控制在16%附近。同时,识别时间成分分析指出:优化读写器命令、提高读写器传输数据率能够进一步缩短识别时间。  相似文献   

16.
During the execution of Composite Web Services (CWS), a component Web Service (WS) can fail and can be repaired with strategies such WS retry, substitution, compensation, roll-back, replication, or checkpointing. Each strategy behaves differently on different scenarios, impacting the CWS Q o S. We propose a non intrusive dynamic fault tolerant model that analyses several levels of information: environment state, execution state, and Q o S criteria, to dynamically decide the best recovery strategy when a failure occurs. We present an experimental study to evaluate the model and determine the impact on Q o S parameters of different recovery strategies; and evaluate the intrusiveness of our strategy during the normal execution of CWSs.  相似文献   

17.
Interest in the Web services (WS) composition (WSC) paradigm is increasing tremendously. A real shift in distributed computing history is expected to occur when the dream of implementing Service-Oriented Architecture (SOA) is realized. However, there is a long way to go to achieve such an ambitious goal. In this paper, we support the idea that, when challenging the WSC issue, the earlier that the inevitability of failures is recognized and proper failure-handling mechanisms are defined, from the very early stage of the composite WS (CWS) specification, the greater are the chances of achieving a significant gain in dependability. To formalize this vision, we present the FENECIA (Failure Endurable Nested-transaction based Execution of Composite Web services with Incorporated state Analysis) framework. Our framework approaches the WSC issue from different points of view to guarantee a high level of dependability. In particular, it aims at being simultaneously a failure-handling-devoted CWS specification, execution, and quality of service (QoS) assessment approach. In the first section of our framework, we focus on answering the need for a specification model tailored for the WS architecture. To this end, we introduce WS-SAGAS, a new transaction model. WS-SAGAS introduces key concepts that are not part of the WS architecture pillars, namely, arbitrary nesting, state, vitality degree, and compensation, to specify failure-endurable CWS as a hierarchy of recursively nested transactions. In addition, to define the CWS execution semantics, without suffering from the hindrance of an XML-based notation, we describe a textual notation that describes a WSC in terms of definition rules, composability rules, and ordering rules, and we introduce graphical and formal notations. These rules provide the solid foundation needed to formulate the execution semantics of a CWS in terms of execution correctness verification dependencies. To ensure dependable execution of the CWS, we present in the second section of FENECIA our architecture THROWS, in which the execution control of the resulting CWS is distributed among engines, discovered dynamically, that communicate in a peer-to-peer fashion. A dependable execution is guaranteed in THROWS by keeping track of the execution progress of a CWS and by enforcing forward and backward recovery. We concentrate in the third section of our approach on showing how the failure consideration is trivial in acquiring more accurate CWS QoS estimations. We propose a model that assesses several QoS properties of CWS, which are specified as WS-SAGAS transactions and executed in THROWS. We validate our proposal and show its feasibility and broad applicability by describing an implemented prototype and a case study.  相似文献   

18.
车玲  张仰森 《计算机工程》2012,38(20):152-155
以条件随机场(CRF)作为构建词义消歧模型库的概率模型,利用CRF分别训练高频义项和低频义项标点句语料,应用生成的模型文件进行消歧实验.通过分析标注结果中的概率值确定阈值,以区分标注正确项和错误项.使用表现较好的模型文件和相应阈值构建面向词义消歧的条件随机场模型库.实验结果证明,对低频义项建模的词义消歧效果优于对高频义项进行建模,可以达到80%以上的正确率,并且可以获得较高的召回率.  相似文献   

19.
一种新的错误驱动学习方法在中文分词中的应用   总被引:3,自引:0,他引:3  
中文分词应用中一个很重要的问题就是缺乏词的统一性定义。不同的分词标准会导致不同的分词结果,不同的应用也需要不同的分词结果。而针对不同的分词标准开发多个中文分词系统是不现实的,因此针对多种不同的分词标准,如何利用现有的分词系统进行灵活有效的输出就显得非常重要。本文提出了一种新的基于转换的学习方法,对分词结果进行后处理,可以针对不同的分词标准进行灵活有效的输出。不同于以往的用于分词的转换学习方法,该方法有效利用了一些语言学信息,把词类和词內结构信息引入规则模板和转换规则中。为了验证该方法,我们在4个标准测试集上进行了分词评测,取得了令人满意的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号