首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
在中文分词领域,基于字标注的方法得到广泛应用,通过字标注分词问题可转换为序列标注问题,现在分词效果最好的是基于条件随机场(CRFs)的标注模型。作战命令的分词是进行作战指令自动生成的基础,在将CRFs模型应用到作战命令分词时,时间和空间复杂度非常高。为提高效率,对模型进行分析,根据特征选择算法选取特征子集,有效降低分词的时间与空间开销。利用CRFs置信度对分词结果进行后处理,进一步提高分词精确度。实验结果表明,特征选择算法及分词后处理方法可提高中文分词识别性能。  相似文献   

2.
基于条件随机场的汉语词性标注   总被引:1,自引:0,他引:1  
近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优.  相似文献   

3.
范佳佳 《信息技术》2014,(9):105-109
近年来,显著性检测与图像处理有着密不可分的关系,图像处理依赖于高质量的显著图才能得到较好的处理结果。因此为提高图像显著性检测的准确性,提出了一种新的基于条件随机场(CRF)的显著性融合算法。将显著性检测看做一个图像标注问题,运用多尺度对比,中央—周围直方图和颜色空间分布这三种不同的显著度计算得到显著图。通过CRF学习计算各个显著度的权重,采用最大似然估计方法获取模型参数估计,得到最优解。最后利用CRF检测测试图像。通过大量的实验结果表明,此算法可以对显著目标得到更加精确地检测。  相似文献   

4.
基于小规模尾字特征的中文命名实体识别研究   总被引:4,自引:0,他引:4       下载免费PDF全文
冯元勇  孙乐  张大鲲  李文波 《电子学报》2008,36(9):1833-1838
 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.  相似文献   

5.
基于统计的分词方法在中文分词领域能取得较好的分词效果,利用条件随机场进行中文分词时能够充分考虑每个词状态前、后的各种不同状态,更加符合实际应用。但是通过已有的标注语料训练得到的模型,应用于具有专有名词的分词场合时,专有名词会被不合理的分为不同的单词,进而影响分词的准确度。基于专有名词被错误分开,考虑在条件随机场的基础上,通过人工添加一个或多个专有名词的形式,使专有名词以单字成词的形式存在,确保专有名词在分词过程中被视为完整的词,不会被错误分开,提高带有专有名词的文本进行分词时的准确率。  相似文献   

6.
本文提出了一种草图指导的三维模型特征线提取方法,该方法特点在于:一方面,建立了笔画采样点与模型特征线点间的条件随机场匹配模型,将模型几何特征与形状相似性结合匹配,实现了草图信息与模型特征线提取的有效融合;另一方面,提出了基于结构相似性的模型特征线度量机制,并采用迭代优化方法实现了全局最优模型特征线的提取.实验结果表明:本文提出的方法能有效获取与草图结构形状相对应的模型特征线绘图.  相似文献   

7.
遥感图像变化检测一直是遥感领域的热点.使用单一的差分影像很难保证初始变化图的准确度,为了充分利用遥感图像的空间信息,文章提出了一种用于无监督遥感图像变化检测的基于超像素的条件随机场模型.该方法首先通过变化矢量分析、光谱相关映射器产生了提供互补变化信息的差异图像.然后对差异图像进行简单线性迭代聚类得到超像素图像,最后,引...  相似文献   

8.
鉴于自动语音识别(ASR)中置信度估计困难的问题,该文提出一种基于多知识源融合的策略来提高置信度的鉴别能力。具体做法是,首先选择关于识别结果的声学层、语言层和语义层等不同层次的信息,然后通过实验确定这些信息不同的组合方式,并以此为特征在隐藏单元条件随机场(Hidden-units Conditional Random Fields, HuCRFs)框架下计算识别结果的条件概率。最后将HuCRFs条件概率作为语音识别结果置信度的新的估计。实验首先证明了HuCRFs条件概率是比归一化的网格后验概率鉴别能力更强的一种置信度估计方法。同时基于HuCRFs条件概率置信度,对解码器一遍识别得到的网格重新搜索最佳候选序列,取得了相对一遍识别最佳候选序列绝对近2%的字错误率(CER)下降。同时,该文也对比了基于HuCRFs条件概率搜索的最佳候选序列和基于长语言模型网格重估的最佳候选序列的性能,进一步证明了使用HuCRFs条件概率作为置信度估计是一种更好的选择。  相似文献   

9.
叶璐  郭立  刘皓 《通信技术》2014,(6):612-617
传统的异常行为检测多数是利用单特征建模,检测的行为较为单一,检测率较低,针对这些问题,提出一种基于多条件随机场模型(MCRF)的异常行为检测方法,MCRF模型具有融合多特征和联系上下文信息的优势。通过Kinect获取3D骨架数据,提取角度、位置、速度三类特征,形成多类特征子集,利用基本的CRF模型对每一类特征子集建模,形成多个CRF单元,然后组合所有的CRF单元,得到MCRF模型,最后利用MCRF模型进行异常行为检测。实验结果表明基于MCRF的异常行为检测方法具有较高的检测率。  相似文献   

10.
图像中的文字提取是处理文字信息的关键步骤。提出一种基于条件随机场(CRFs)的分割方法。针对背案复杂的情况,精心选择特征,设计分类器,计算在给定观测数据情况下,像素标签的条件概率分布。这样,有效地避免了计算联合分布所带来的问题(如马尔可夫随机场)。与传统的分类器相比,该方法更加注重像素以及标签之间互相影响程度以及合理性。试验结果表明,与其他方法相比,CRFs的文字分割结果有明显的提高。  相似文献   

11.
Named entity recognition is a fundamental task in biomedical data mining. In this letter, a named entity recognition system based on CRFs (Conditional Random Fields) for biomedical texts is presented. The system makes extensive use of a diverse set of features, including local features, full text features and external resource features. All features incorporated in this system are described in detail, and the impacts of different feature sets on the performance of the system are evaluated. In order to improve the performance of system, post-processing modules are exploited to deal with the abbrevia- tion phenomena, cascaded named entity and boundary errors identification. Evaluation on this system proved that the feature selection has important impact on the system performance, and the post-processing explored has an important contribution on system performance to achieve better re- sults.  相似文献   

12.
总结了维吾尔地名结构及其特点,并结合维吾尔地名内部结构特征,手动建立了基于新疆维吾尔自治区的地名词典库、首词库、中间词库和特征词库,研究了基于规则的维吾尔语地名识别方法和技术。以包含地名的较大规模维吾尔文本作为测试样本,利用地名内部结构和相邻词信息,通过匹配算法进行了地名识别,并用Visual C++编程工具实现了维吾尔语地名识别算法。最后,给出了实验结果,并分析了出错原因及相应的对策。  相似文献   

13.
受传统观念的影响,中国人名最后一个或两个字的用法对性别判定通常具有一定的指示作用,由此提出利用条件随机场模型来实现中文人名性别的自动识别.该机器学习方法根据人名的结构和用字信息,构建人名标注集,选择6组不同的特征模板集,利用条件随机场模型,在231 337个人名数据库中经过封闭测试,正确率可以达到89.30%,比采用朴素贝叶斯依赖人名用字进行性别识别的方法好将近7个百分点.实验证明:在人名库中识别性别,名字尾字的作用要高于姓氏用字,且女性人名性别识别的准确度要略高于男性,一般是高2至3个百分点,从机器学习的角度来说性别差异可以体现在人名用字中.通过分析实验数据总结了适合人名识别的CRF特征模板设计的一般规律,这为后续的研究工作提供了基础.  相似文献   

14.
基于层叠条件随机场模型的中文机构名自动识别   总被引:38,自引:1,他引:38  
中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高层的机构名条件随机场模型实现对复杂机构名的识别提供决策支持.文中为机构名条件随机场模型设计了有效的特征模板和特征自动选择算法.对大规模真实语料的开放测试中,召回率达到90.05%,准确率达到88.12%,性能优于其它中文机构名识别算法.  相似文献   

15.
Named entity recognition (NER) continues to be an important task in natural language processing because it is featured as a subtask and/or subproblem in information extraction and machine translation. In Urdu language processing, it is a very difficult task. This paper proposes various deep recurrent neural network (DRNN) learning models with word embedding. Experimental results demonstrate that they improve upon current state‐of‐the‐art NER approaches for Urdu. The DRRN models evaluated include forward and bidirectional extensions of the long short‐term memory and back propagation through time approaches. The proposed models consider both language‐dependent features, such as part‐of‐speech tags, and language‐independent features, such as the “context windows” of words. The effectiveness of the DRNN models with word embedding for NER in Urdu is demonstrated using three datasets. The results reveal that the proposed approach significantly outperforms previous conditional random field and artificial neural network approaches. The best f‐measure values achieved on the three benchmark datasets using the proposed deep learning approaches are 81.1%, 79.94%, and 63.21%, respectively.  相似文献   

16.
Identifying gene names is an attractive research area of biology computing. However, accurate extraction of gene names is a challenging task with the lack of conventions for describing gene names. We devise a systematical architecture and apply the model using conditional random fields (CRFs) for extracting gene names from Medline. In order to improve the performance, biomedical ontology features are inserted into the model and post processing including boundary adjusting and word filter is presented to solve name overlapping problem and remove false positive single words. Pure string match method, baseline CRFs, and CRFs with our methods are applied to human gene names and HIV gene names extraction respectively in 1100 abstracts of Medline and their performances are contrasted. Results show that CRFs are robust for unseen gene names. Furthermore, CRFs with our methods outperforms other methods with precision 0.818 and recall 0.812.  相似文献   

17.
Identifying gene names is an attractive research area of biology computing. However, accurate extraction of gene names is a challenging task with the lack of conventions for describing gene names. We devise a systematical architecture and apply the model using conditional random fields (CRFs) for extracting gene names from Medline. In order to improve the performance, biomedical ontology features are inserted into the model and post processing including boundary adjusting and word filter is presented to solve name overlapping problem and remove false positive single words. Pure string match method, baseline CRFs, and CRFs with our methods are applied to human gene names and HIV gene names extraction respectively in 1100 abstracts of Medline and their performances are contrasted. Results show that CRFs are robust for unseen gene names. Furthermore, CRFs with our methods outperforms other methods with precision 0.818 and recall 0.812.  相似文献   

18.
一种新的基于时空马尔可夫随机场的运动目标分割技术   总被引:8,自引:0,他引:8  
在图像处理领域,视频图像序列中的运动目标分割技术是一个被广泛研究的热点课题。该文提出一种新的基于时空马尔可夫随机场的运动目标分割技术。首先,对视频序列的前后3帧图像进行处理,获得两帧初始标记场;随后,对两帧初始标记场进行“与”操作,获得共同标记场;最后,以原始图像的色彩聚类图像作为先验知识,重新定义Gibbs能量函数,并利用迭代条件模型(ICM)实现最大后验概率(MAP)的估算问题,获得优化标记场。实验结果表明:该模型克服了传统时穿马尔可夫随机场模型因运动产生的晶露遮挡现象,同时减弱了运动一致性造成的空洞现象并削弱了噪声的影响。  相似文献   

19.
命名实体识别与共指消解均依赖于对实体相邻文本信息的学习,本文提出一种基于混合神经网络的命名实体识别与共指消解联合模型,共用双向长短时记忆模型LSTM编码层对输入序列中每个词前后方向上下文信息进行编码,并通过训练学习得到上下文信息传递到前馈神经网络FFNN模型以提高共指消解精度,通过将领域文档及篇章语义向量加入FFNN,改进共指消解算法并优化共指消解模型.基于领域文本数据集进行联合模型训练,实验结果表明该联合模型可以有效地提高共指消解精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号