期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

尹继豪樊孝忠赵攀超于江德《哈尔滨工程大学学报》2006,27(Z1):466-470

针对中文机构名称自动识别提出了简化的一体化N最佳层叠模型,该模型实现了从汉语切分、词性标注、组块分析一直到机构名称的自动识别.N最佳层叠方法既能够在一定程度上抑制前一个阶段的错误在后面的传播,又大大地缩小了搜索空间.在实验过程中依次加入启发信息和机构名称缩写处理,使得实验结果有显著提高.在IEER99测试集上,中文机构名称识别的最终准确率和召回率分别为92.31%和81.01%. 相似文献

2.

基于类语言模型的中文机构名称自动识别

尹继豪樊孝忠于江德《计算机科学》2006,33(11):212-214

提出了一种基于类语言模型的中文机构名称自动识别方法,将分词和机构名称自动识别有机地结合起来。在机构名称识别的类语言模型中采用等级结构,使得嵌套有人名、地名等实体的机构名称能够较好地识别出来。在实验过程中,逐步增加实验条件,依次加入启发信息、缓存模型和机构名缩写处理,使得实验结果显著提高。在开放测试中,中文机构名称最终识别的查准率和查全率分别为85.47%和72.81%。相似文献

3.

基于隐马尔可夫模型的中文科研论文信息抽取

下载免费PDF全文

于江德樊孝忠尹继豪顾益军《计算机工程》2007,33(19):190-192

随着大量的科研论文出现在互联网上，从中精确地抽取论文头部信息和引文信息显得十分重要。该文提出了一种基于隐马尔可夫模型的中文科研论文头部信息和引文信息抽取算法，分析了模型结构的学习和参数估计方法。在进行信息抽取时，利用分隔符、特定标识符等格式信息对文本进行分块，利用隐马尔可夫模型进行指定域的抽取。实验结果表明，该算法具有良好的准确率和召回率。相似文献

4.

汉语分词中上文和下文重要性比较

下载免费PDF全文

于江德王希杰樊孝忠《计算机工程与应用》2011,47(4):117-120

上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,当前字的词位标注需要借助于该字的上下文来确定。为克服仅凭主观经验给出猜测结果的不足,采用四词位标注集,使用条件随机场模型研究了词位标注汉语分词中上文和下文对分词性能的贡献情况,在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,下文对分词性能的贡献比上文的贡献高出13个百分点以上。相似文献

5.

三位一体字标注的汉语词法分析

于江德胡顺义余正涛《中文信息学报》2015,29(6):1-7

针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优。相似文献

6.

最大熵模型的事件分类

于江德李学钰樊孝忠庞文博《电子科技大学学报(自然科学版)》2010,39(4):612-616

提出了一种基于最大熵模型的事件分类方法,该方法能够综合事件表述语句中的触发词信息及各类上下文特征对事件进行分类。对其中的两个关键问题:参数估计、特征模板与特征选择进行了详细论述,采用IIS算法学习模型参数,使用增量选择方法选择特征。应用该方法对人民日报语料中的职务变动、会见、恐怖袭击、法庭宣判、自然灾害五类事件进行了分类实验,结果表明,该方法的分类效果明显优于传统的分类方法。相似文献

7.

一种利用自组织映射和径向基函数神经网络的网络拥塞预测方法

葛彦强汪向征于江德《微电子学与计算机》2012,29(12)

文中提出了一种利用自组织映射（KSOM）和径向基函数（KR）神经网络进行网络拥塞预测的方法．目前的研究表明,预测网络拥塞还存在一些问题,尤其在数据集比较小的时候．因此,为了使网络拥塞问题预测精度高,在预测过程中有必要考虑原有的数据集中每个数据之间的关系．现在为了获得更多的有价值的位置信息,采取了一系列的措施去满足不同数据的情况,包括使用自组织映射神经网络和径向基函数神经网络算法．这一过程使网络能满足不同类型的数据．在本文网络拥塞预测中,采用同一原始数据集,分别对利用自组织映射和径向基函数神经网络的算法和另外两种算法的性能进行比较．实验结果表明,利用自组织映射和径向基函数神经网络的算法具有更好的效果．相似文献

8.

受限领域中文文本内容主题概念识别研究 总被引：1，自引：0，他引：1

顾益军于江德刘群樊孝忠《计算机工程与应用》2004,40(1):58-59,70

该文尝试利用领域知识库,实现受限领域中文文本内容主题概念识别,并尝试利用领域概念建立特征向量,实现受限领域文本与主题概念的相关度计算。其中,利用领域知识库进行主题特征识别,利用知识库中概念间的关系进行特征项权重的计算,并利用knn算法进行文本与主题概念的相关度计算。实现了基于词汇分析技术和基于领域知识计算相结合的方式下,受限领域中文文本内容主题概念的识别和文本与主题概念的相关度计算。实验结果显示,主题识别平均正确率为79%文本与主题概念的相关度计算的正确率达到62%。相似文献

9.

一种基于Bootstrapping构建训练语料的方法

尹继豪樊孝忠刘士宁于江德《计算机研究与发展》2007,44(Z2):394-397

提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集训练一个基于类的语言模型,然后使用该模型自动标注剩余的语料;再从剩余语料中选取部分语料进行以上处理,如此循环直到训练语料标注质量理想.实验结果表明,该方法在保证训练语料标注质量理想的情况下,能够大幅度地减少人工参与. 相似文献

10.

基于条件随机场的汉语词性标注 总被引：1，自引：0，他引：1

于江德葛彦强余正涛《微电子学与计算机》2011,28(10):63-66

近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优. 相似文献